Spaces:

Seetha
/

IMA-pipeline-streamlit

Sleeping

Seetha commited on Oct 20, 2023

Commit

a005e0a

1 Parent(s): 2381533

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,7 +108,6 @@ def main():
     for page in reader.pages:
       text = page.extract_text()
       text_list.append(text)
-      st.write('PDF pages read')
   else:
      st.error("Please upload your own PDF to be analyzed")
      st.stop()
@@ -118,20 +117,20 @@ def main():
   sentences = nltk.sent_tokenize(text_list_final)
-  st.write('tokeznization completed')
   result =[]
   for i in sentences:
     result1 = i.lower()
     result2 = re.sub(r'[^\w\s]','',result1)
     result.append(result2)
-  print("--- %s seconds ---" % (time.time() - start_time))
   tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #bert-base-uncased
   model_path = "checkpoint-2850"
   model = AutoModelForSequenceClassification.from_pretrained(model_path,id2label={0:'non-causal',1:'causal'})
   pipe1 = pipeline("text-classification", model=model,tokenizer=tokenizer)
   for sent in result:
     pred = pipe1(sent)

     for page in reader.pages:
       text = page.extract_text()
       text_list.append(text)
   else:
      st.error("Please upload your own PDF to be analyzed")
      st.stop()
   sentences = nltk.sent_tokenize(text_list_final)
   result =[]
   for i in sentences:
     result1 = i.lower()
     result2 = re.sub(r'[^\w\s]','',result1)
     result.append(result2)
+  st.write("--- %s seconds ---" % (time.time() - start_time))
   tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") #bert-base-uncased
   model_path = "checkpoint-2850"
   model = AutoModelForSequenceClassification.from_pretrained(model_path,id2label={0:'non-causal',1:'causal'})
+  st.write('base sequence classification loaded')
   pipe1 = pipeline("text-classification", model=model,tokenizer=tokenizer)
   for sent in result:
     pred = pipe1(sent)