pdf2AIextract

Sleeping

ShayanRl commited on Jul 19, 2024

Commit

f65529d

verified ·

1 Parent(s): f97d54d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,8 +5,19 @@ import pdfplumber
 import os
 from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
 def AImodel(text,questionText):
     model_name = "deepset/tinyroberta-squad2"
     # a) Get predictions
     nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
@@ -21,6 +32,17 @@ def AImodel(text,questionText):
     # b) Load model & tokenizer
     model = AutoModelForQuestionAnswering.from_pretrained(model_name)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     return(res)

 import os
 from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline
+batch_size = 96
+n_epochs = 2
+base_LM_model = "roberta-base"
+max_seq_len = 386
+learning_rate = 3e-5
+warmup_proportion = 0.2
+doc_stride = 128
+max_query_length = 64
 def AImodel(text,questionText):
     model_name = "deepset/tinyroberta-squad2"
     # a) Get predictions
     nlp = pipeline('question-answering', model=model_name, tokenizer=model_name)
     # b) Load model & tokenizer
     model = AutoModelForQuestionAnswering.from_pretrained(model_name)
     tokenizer = AutoTokenizer.from_pretrained(model_name)
+    inputs = tokenizer(
+        questionText, text,
+        add_special_tokens=True,
+        max_length=max_seq_len,
+        truncation=True,
+        return_tensors="pt",
+        padding="max_length",
+        stride=doc_stride,
+        return_overflowing_tokens=True,
+        return_offsets_mapping=True
+    )
     return(res)