Spaces:

AkashKhamkar
/

test_sum

Runtime error

App Files Files Community

AkashKhamkar commited on Sep 17, 2022

Commit

25bf457

1 Parent(s): 3943aac

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -8

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from youtube_transcript_api import YouTubeTranscriptApi
 import os
 import ast
 import pandas as pd
-import before_run
 from segmentation import SemanticTextSegmentation
 import re
 from symspellpy import SymSpell
@@ -13,9 +12,12 @@ import pkg_resources
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from torch import cuda
 from transformers import pipeline
 from PIL import Image
 from PIL import ImageDraw
 from PIL import ImageFont
 if not os.path.exists('./transcripts'):
@@ -46,7 +48,6 @@ def clean_text(link,start,end):
     #print(starts)
     #ts_ = float(ts.strip("s&end"))
     #es_ = float(es.strip(es[-1]))
-    st.write('this is the value of es: ',es)
     if not(es) :
         e_val = starts[-1]
     else:
@@ -146,13 +147,12 @@ def clean_text(link,start,end):
     # remove Nan
     df.dropna(inplace=True)
     sts = SemanticTextSegmentation(df)
-    texts,i_r = sts.get_segments()
-    return texts,i_r
   sf = pd.DataFrame(columns=['Segmented_Text','video_id'])
-  text,i_array = segment(transcript.at[0,'text'])
-  st.write(i_array)
   for i in range(len(text)):
     sf.loc[i, 'Segmented_Text'] = text[i]
     sf.loc[i, 'video_id'] = transcript.at[0,'video_id']
@@ -201,8 +201,11 @@ def clean_text(link,start,end):
 def t5_summarizer(link,start, end):
     input_text = clean_text(link,start,end)
     lst_outputs = []
-    tokenizer1 = AutoTokenizer.from_pretrained("CareerNinja/t5-large_3e-4")
-    model1 = AutoModelForSeq2SeqLM.from_pretrained("CareerNinja/t5-large_3e-4")
     summarizer1 = pipeline("summarization", model=model1, tokenizer=tokenizer1)
     print(f""" Entered summarizer ! """)
     st.write('Below is the summary of the given URL: ')

 import os
 import ast
 import pandas as pd
 from segmentation import SemanticTextSegmentation
 import re
 from symspellpy import SymSpell
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from torch import cuda
 from transformers import pipeline
+import nltk
+nltk.download('stopwords')
 from PIL import Image
 from PIL import ImageDraw
 from PIL import ImageFont
+import time
 if not os.path.exists('./transcripts'):
     #print(starts)
     #ts_ = float(ts.strip("s&end"))
     #es_ = float(es.strip(es[-1]))
     if not(es) :
         e_val = starts[-1]
     else:
     # remove Nan
     df.dropna(inplace=True)
     sts = SemanticTextSegmentation(df)
+    texts = sts.get_segments()
+    return texts
   sf = pd.DataFrame(columns=['Segmented_Text','video_id'])
+  text = segment(transcript.at[0,'text'])
   for i in range(len(text)):
     sf.loc[i, 'Segmented_Text'] = text[i]
     sf.loc[i, 'video_id'] = transcript.at[0,'video_id']
 def t5_summarizer(link,start, end):
     input_text = clean_text(link,start,end)
     lst_outputs = []
+    tokenizer1 = AutoTokenizer.from_pretrained("CareerNinja/t5_large_3e-4_on_v2_dataset")
+    st.write('Loading the model!')
+    start_time = time.time()
+    model1 = AutoModelForSeq2SeqLM.from_pretrained("CareerNinja/t5_large_3e-4_on_v2_dataset")
+    st.write('Model loading compelete, time taken: ',time.time()-start_time)
     summarizer1 = pipeline("summarization", model=model1, tokenizer=tokenizer1)
     print(f""" Entered summarizer ! """)
     st.write('Below is the summary of the given URL: ')