Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Feb 21, 2024

Commit

af9f8f3

1 Parent(s): c997d4e

lines=40,

Browse files

Files changed (1) hide show

app.py +15 -5

app.py CHANGED Viewed

@@ -256,8 +256,9 @@ def process_transcript_and_screenshots(video_id):
     service = init_drive_service()
     parent_folder_id = '1GgI4YVs0KckwStVQkLa1NZ8IpaEMurkL'
     folder_id = create_folder_if_not_exists(service, video_id, parent_folder_id)
     file_name = f'{video_id}_transcript.json'
     # 检查逐字稿是否存在
     exists, file_id = check_file_exists(service, folder_id, file_name)
     if not exists:
@@ -298,8 +299,6 @@ def process_youtube_link(link):
     video_id = extract_youtube_id(link)
     global VIDEO_ID
     VIDEO_ID = video_id
     download_youtube_video(video_id, output_path=OUTPUT_PATH)
     try:
@@ -345,6 +344,7 @@ def process_youtube_link(link):
     summary_json = get_video_id_summary(video_id, formatted_simple_transcript)
     summary = summary_json["summary"]
     html_content = format_transcript_to_html(formatted_transcript)
     first_image = formatted_transcript[0]['screenshot_path']
     first_text = formatted_transcript[0]['text']
     mind_map_json = get_mind_map(video_id, formatted_simple_transcript)
@@ -360,6 +360,7 @@ def process_youtube_link(link):
             mind_map, \
             mind_map_html, \
             html_content, \
             first_image, \
             first_text,
@@ -372,7 +373,12 @@ def format_transcript_to_html(formatted_transcript):
         html_content += f"<img src='{entry['screenshot_path']}' width='500px' />"
     return html_content
 def get_embedded_youtube_link(video_id, start_time):
     int_start_time = int(start_time)
@@ -863,6 +869,8 @@ with gr.Blocks() as demo:
                     next_button = gr.Button("Next")
                 prev_button.click(fn=prev_slide, inputs=[], outputs=[slide_image, slide_text])
                 next_button.click(fn=next_slide, inputs=[], outputs=[slide_image, slide_text])
             with gr.Tab("本文"):
                 df_string_output = gr.Textbox(lines=40, label="Data Text")
             with gr.Tab("重點"):
@@ -907,7 +915,8 @@ with gr.Blocks() as demo:
             df_summarise,
             mind_map,
             mind_map_html,
-            transcript_html,
             slide_image,
             slide_text
             ]
@@ -925,6 +934,7 @@ with gr.Blocks() as demo:
             mind_map,
             mind_map_html,
             transcript_html,
             slide_image,
             slide_text
             ]

     service = init_drive_service()
     parent_folder_id = '1GgI4YVs0KckwStVQkLa1NZ8IpaEMurkL'
     folder_id = create_folder_if_not_exists(service, video_id, parent_folder_id)
+    # 逐字稿文件名
     file_name = f'{video_id}_transcript.json'
     # 检查逐字稿是否存在
     exists, file_id = check_file_exists(service, folder_id, file_name)
     if not exists:
     video_id = extract_youtube_id(link)
     global VIDEO_ID
     VIDEO_ID = video_id
     download_youtube_video(video_id, output_path=OUTPUT_PATH)
     try:
     summary_json = get_video_id_summary(video_id, formatted_simple_transcript)
     summary = summary_json["summary"]
     html_content = format_transcript_to_html(formatted_transcript)
+    simple_html_content = format_simple_transcript_to_html(formatted_simple_transcript)
     first_image = formatted_transcript[0]['screenshot_path']
     first_text = formatted_transcript[0]['text']
     mind_map_json = get_mind_map(video_id, formatted_simple_transcript)
             mind_map, \
             mind_map_html, \
             html_content, \
+            simple_html_content, \
             first_image, \
             first_text,
         html_content += f"<img src='{entry['screenshot_path']}' width='500px' />"
     return html_content
+def format_simple_transcript_to_html(formatted_transcript):
+    html_content = ""
+    for entry in formatted_transcript:
+        html_content += f"<h3>{entry['start_time']} - {entry['end_time']}</h3>"
+        html_content += f"<p>{entry['text']}</p>"
+    return html_content
 def get_embedded_youtube_link(video_id, start_time):
     int_start_time = int(start_time)
                     next_button = gr.Button("Next")
                 prev_button.click(fn=prev_slide, inputs=[], outputs=[slide_image, slide_text])
                 next_button.click(fn=next_slide, inputs=[], outputs=[slide_image, slide_text])
+            with gr.Tab("逐字稿"):
+                simple_html_content = gr.HTML(label="Simple Transcript", lines=40)
             with gr.Tab("本文"):
                 df_string_output = gr.Textbox(lines=40, label="Data Text")
             with gr.Tab("重點"):
             df_summarise,
             mind_map,
             mind_map_html,
+            transcript_html,
+            simple_html_content,
             slide_image,
             slide_text
             ]
             mind_map,
             mind_map_html,
             transcript_html,
+            simple_html_content,
             slide_image,
             slide_text
             ]