Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Apr 7, 2024

Commit

f3fe8c6

1 Parent(s): dcbbabb

def generate_key_moments_keywords(transcript):

Browse files

Files changed (1) hide show

app.py +28 -15

app.py CHANGED Viewed

@@ -1069,12 +1069,6 @@ def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript,
         is_key_moments_exists = GCS_SERVICE.check_file_exists(bucket_name, blob_name)
         if not is_key_moments_exists:
             key_moments = generate_key_moments(formatted_simple_transcript, formatted_transcript)
-            # 檢查 key_moments 是否有 keywords
-            for key_moment in key_moments:
-                if "keywords" not in key_moment:
-                    transcript = key_moment["transcript"]
-                    key_moment["keywords"] = generate_key_moments_keywords(transcript)
             key_moments_json = {"key_moments": key_moments}
             key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
             upload_file_to_gcs_with_json_string(gcs_client, bucket_name, blob_name, key_moments_text)
@@ -1084,6 +1078,21 @@ def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript,
             print("key_moments已存在于GCS中")
             key_moments_text = download_blob_to_string(gcs_client, bucket_name, blob_name)
             key_moments_json = json.loads(key_moments_text)
     elif source == "drive":
         print("===get_key_moments on drive===")
@@ -1168,19 +1177,23 @@ def generate_key_moments(formatted_simple_transcript, formatted_transcript):
     return key_moments
 def generate_key_moments_keywords(transcript):
-    user_prompt = f"""transcript  extract to keyword
         保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式、數學表示式、物理化學符號，
         不用給上下文，直接給出關鍵字，使用 zh-TW，用逗號分隔， example: 關鍵字1, 關鍵字2
         transcript：{transcript}
     """
-    response = OPEN_AI_CLIENT.completions.create(
-        model="gpt-4-1106-preview",
-        messages=[
-            {"role": "system", "content": "你是一個擅長資料分析跟影片教學的老師，user 為學生，請根據以下文本提取關鍵字"},
-            {"role": "user", "content": user_prompt}
-        ],
-        max_tokens=100,
-    )
     keywords = response.choices[0].message.content.strip().split(", ")
     return keywords

         is_key_moments_exists = GCS_SERVICE.check_file_exists(bucket_name, blob_name)
         if not is_key_moments_exists:
             key_moments = generate_key_moments(formatted_simple_transcript, formatted_transcript)
             key_moments_json = {"key_moments": key_moments}
             key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
             upload_file_to_gcs_with_json_string(gcs_client, bucket_name, blob_name, key_moments_text)
             print("key_moments已存在于GCS中")
             key_moments_text = download_blob_to_string(gcs_client, bucket_name, blob_name)
             key_moments_json = json.loads(key_moments_text)
+             # 檢查 key_moments 是否有 keywords
+            print("===檢查 key_moments 是否有 keywords===")
+            has_keywords_added = False
+            for key_moment in key_moments_json["key_moments"]:
+                if "keywords" not in key_moment:
+                    transcript = key_moment["transcript"]
+                    key_moment["keywords"] = generate_key_moments_keywords(transcript)
+                    print("===keywords===")
+                    print(key_moment["keywords"])
+                    print("===keywords===")
+            if has_keywords_added:
+                key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
+                upload_file_to_gcs_with_json_string(gcs_client, bucket_name, blob_name, key_moments_text)
+                key_moments_text = download_blob_to_string(gcs_client, bucket_name, blob_name)
+                key_moments_json = json.loads(key_moments_text)
     elif source == "drive":
         print("===get_key_moments on drive===")
     return key_moments
 def generate_key_moments_keywords(transcript):
+    system_content = "你是一個擅長資料分析跟影片教學的老師，user 為學生，請根據以下文本提取關鍵字"
+    user_content = f"""transcript  extract to keyword
         保留專家名字、專業術語、年份、數字、期刊名稱、地名、數學公式、數學表示式、物理化學符號，
         不用給上下文，直接給出關鍵字，使用 zh-TW，用逗號分隔， example: 關鍵字1, 關鍵字2
         transcript：{transcript}
     """
+    messages = [
+        {"role": "system", "content": system_content},
+        {"role": "user", "content": user_content}
+    ]
+    request_payload = {
+        "model": "gpt-4-1106-preview",
+        "messages": messages,
+        "max_tokens": 100,
+    }
+    response = OPEN_AI_CLIENT.chat.completions.create(**request_payload)
     keywords = response.choices[0].message.content.strip().split(", ")
     return keywords