Spaces:

JunyiAcademy
/

vaitor2

Sleeping

youngtsai commited on Feb 4, 2024

Commit

a48473e

1 Parent(s): 474b2c8

print("逐字稿已存在于Google Drive中")

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,6 +108,19 @@ def upload_content_directly(service, file_name, folder_id, content):
     # 执行上传
     service.files().create(body=file_metadata, media_body=media, fields='id').execute()
 def process_file(file):
     # 读取文件
@@ -178,6 +191,7 @@ def process_youtube_link(link):
     file_name = f"{video_id}_transcript.txt"
     # 检查逐字稿是否存在
     exists, file_id = check_file_exists(service, folder_id, file_name)
     if not exists:
         # 获取逐字稿
@@ -188,9 +202,9 @@ def process_youtube_link(link):
         print("逐字稿已上传到Google Drive")
     else:
         print("逐字稿已存在于Google Drive中")
-    # 再取得 transcript
-    transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=['zh-TW'])
     # 基于逐字稿生成其他所需的输出
     questions = generate_questions(transcript)
     df_summarise = generate_df_summarise(transcript)

     # 执行上传
     service.files().create(body=file_metadata, media_body=media, fields='id').execute()
+def download_file_as_string(service, file_id):
+    """
+    从Google Drive下载文件并将其作为字符串返回。
+    """
+    request = service.files().get_media(fileId=file_id)
+    fh = io.BytesIO()
+    downloader = MediaIoBaseDownload(fh, request)
+    done = False
+    while done is False:
+        status, done = downloader.next_chunk()
+    fh.seek(0)
+    content = fh.read().decode('utf-8')
+    return content
 def process_file(file):
     # 读取文件
     file_name = f"{video_id}_transcript.txt"
     # 检查逐字稿是否存在
+    transcript = None
     exists, file_id = check_file_exists(service, folder_id, file_name)
     if not exists:
         # 获取逐字稿
         print("逐字稿已上传到Google Drive")
     else:
         print("逐字稿已存在于Google Drive中")
+        transcript_text = download_file_as_string(service, file_id)
+        transcript = json.loads(transcript_text)
     # 基于逐字稿生成其他所需的输出
     questions = generate_questions(transcript)
     df_summarise = generate_df_summarise(transcript)