Spaces:

LaoCzi
/

YouTube_Summarize

Runtime error

App Files Files

LaoCzi commited on Mar 22, 2023

Commit

a8d6167

1 Parent(s): e702c5b

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -13

app.py CHANGED Viewed

@@ -6,7 +6,6 @@ from urllib.parse import urlparse, parse_qs
 from requests.structures import CaseInsensitiveDict
 openai.api_key = os.getenv("OPENAI_KEY")
 def Prompt_T(context, lang):
   prompt  = """I want you to act as a content writer who is working with youtube video transcript. Summarise the following text in 40 words:
@@ -30,6 +29,43 @@ def Prompt_T(context, lang):
   return prompt
 def split_string(string, chunk_size):
     return [string[i:i+chunk_size] for i in range(0, len(string), chunk_size)]
@@ -54,7 +90,7 @@ def generate_video_html(video_url, request: gr.Request):
     #Пробуем извлеч video_id пока на английском
     video_id = video_url[-11:]
-    html_embed='<iframe width="450" height="250" src="https://www.youtube.com/embed/'+ video_id +'" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>'
     return html_embed
@@ -93,17 +129,19 @@ def generate(video_url, request: gr.Request):
     except Exception as e:
       return "No access for transcript"
     finalString = ""
     for item in t:
         text = item['text']
         finalString += text + " "
-    print("Transcript:",finalString)
     print("Transcript lenght:",len(finalString))
     print ("===============================================")
     input_string = finalString
     chunk_size = 4000
@@ -111,19 +149,17 @@ def generate(video_url, request: gr.Request):
     if (lang_video=="uk"): chunk_size = 2000
     result_list = split_string(input_string, chunk_size)
     final_answer_gpt=""
     count= 0
-    print("++++++++++++++++++++++++++++++++++++++")
-    for item in result_list:
-        print(item)
     for item in result_list:
-      count = count +1
-      context = item
       input_gpt = Prompt_T(context,lang_video)
-      final_answer_gpt = final_answer_gpt +"<p>" + gpt_api (input_gpt)+"</p>"
       html_content="<h6>"+"<br>"+final_answer_gpt+"</h6>"
       yield html_content

 from requests.structures import CaseInsensitiveDict
 openai.api_key = os.getenv("OPENAI_KEY")
 def Prompt_T(context, lang):
   prompt  = """I want you to act as a content writer who is working with youtube video transcript. Summarise the following text in 40 words:
   return prompt
+def convert_seconds(seconds):
+    seconds = round(seconds)
+    minutes = seconds // 60
+    hours = minutes // 60
+    minutes = minutes % 60
+    seconds = seconds % 60
+    if (int(hours) > 0 ): time_m= str(hours) + ":" +  str(minutes) + ":" + str(seconds)
+    else : time_m = str(minutes) + ":" + str(seconds)
+    return time_m
+def get_transcript(video_id, lang_video,  chunk_size):
+    global final_string
+    transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
+    t = YouTubeTranscriptApi.get_transcript(video_id,languages=[lang_video])
+    finalString = ""
+    result_text_duration=[]
+    text_duration=""
+    prev_start=0.0
+    for item in t:
+        text = item['text']
+        finalString += text + " "
+        text_duration = text_duration + " " + item['text']
+        if (len(text_duration)>chunk_size):
+             new_item = {'text': prev_text_duration, 'start': prev_start}
+             result_text_duration.append(new_item)
+             text_duration=""
+             prev_start=item['start']
+        prev_text_duration=text_duration
+    new_item = {'text': text_duration, 'start': prev_start}
+    result_text_duration.append(new_item)
+    return result_text_duration
 def split_string(string, chunk_size):
     return [string[i:i+chunk_size] for i in range(0, len(string), chunk_size)]
     #Пробуем извлеч video_id пока на английском
     video_id = video_url[-11:]
+    html_embed='<iframe width="450" height="250" src="https://www.youtube.com/embed/'+ video_id +'" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen name="video_yt" ></iframe>'
     return html_embed
     except Exception as e:
       return "No access for transcript"
     finalString = ""
     for item in t:
         text = item['text']
         finalString += text + " "
+    print ("===============================================")
+    #print("Transcript:",finalString)
     print("Transcript lenght:",len(finalString))
     print ("===============================================")
     input_string = finalString
     chunk_size = 4000
     if (lang_video=="uk"): chunk_size = 2000
     result_list = split_string(input_string, chunk_size)
+    result_list= text_video  = get_transcript(video_id, lang_video, chunk_size)
     final_answer_gpt=""
     count= 0
     for item in result_list:
+      context = item['text']
+      time_text = str(convert_seconds(item['start']))
+      time_seconds = str(round(item['start']))
       input_gpt = Prompt_T(context,lang_video)
+      time_url='<a href="//www.youtube.com/embed/'+ str(video_id) + '?rel=0&amp;autoplay=1&amp;start='+time_seconds +'" target="video_yt">'+ time_text+'</a>'
+      final_answer_gpt = final_answer_gpt  +"<p>" + time_url +" " + gpt_api (input_gpt)+"</p>"
       html_content="<h6>"+"<br>"+final_answer_gpt+"</h6>"
       yield html_content