Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on May 25, 2024

Commit

eb776f5

1 Parent(s): 9fe5559

update

Browse files

Files changed (4) hide show

app.py +303 -114
chatbot.py +1 -1
educational_material.py +1 -1
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 import pandas as pd
 import requests
-from bs4 import BeautifulSoup
 from docx import Document
 import os
 from openai import OpenAI
@@ -22,10 +21,11 @@ import os
 import io
 import time
 import json
-from datetime import timedelta
 from urllib.parse import urlparse, parse_qs
 from google.cloud import storage
 from google.oauth2 import service_account
 from googleapiclient.discovery import build
 from googleapiclient.http import MediaFileUpload
@@ -53,6 +53,7 @@ if is_env_local:
         PASSWORD = config["PASSWORD"]
         GCS_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         DRIVE_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         OPEN_AI_KEY = config["OPEN_AI_KEY"]
         OPEN_AI_ASSISTANT_ID_GPT4_BOT1 = config["OPEN_AI_ASSISTANT_ID_GPT4_BOT1"]
         OPEN_AI_ASSISTANT_ID_GPT3_BOT1 = config["OPEN_AI_ASSISTANT_ID_GPT3_BOT1"]
@@ -71,6 +72,7 @@ else:
     PASSWORD = os.getenv("PASSWORD")
     GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
     OPEN_AI_ASSISTANT_ID_GPT4_BOT1 = os.getenv("OPEN_AI_ASSISTANT_ID_GPT4_BOT1")
     OPEN_AI_ASSISTANT_ID_GPT3_BOT1 = os.getenv("OPEN_AI_ASSISTANT_ID_GPT3_BOT1")
@@ -86,9 +88,10 @@ else:
 TRANSCRIPTS = []
 CURRENT_INDEX = 0
-CHAT_LIMIT = 10
 # CLIENTS CONFIG
 GROQ_CLIENT = Groq(api_key=GROQ_API_KEY)
 GCS_SERVICE = GoogleCloudStorage(GCS_KEY)
 GCS_CLIENT = GCS_SERVICE.client
@@ -706,7 +709,9 @@ def split_data(df_string, word_base=100000):
 def generate_content_by_open_ai(sys_content, user_content, response_format=None):
     print("LLM using OPEN AI")
     # model = "gpt-4-turbo"
-    model = "gpt-4o"
     messages = [
         {"role": "system", "content": sys_content},
         {"role": "user", "content": user_content}
@@ -724,39 +729,40 @@ def generate_content_by_open_ai(sys_content, user_content, response_format=None)
     content = response.choices[0].message.content.strip()
     return content
-def generate_content_by_bedrock(sys_content, user_content):
-    print("LLM using REDROCK")
-    messages = [
-        {"role": "user", "content": user_content +"(如果是 JSON 格式，value 的引號，請用單引號，或是用反斜線＋雙引號，避免 JSON Decoder error )"}
-    ]
-    model_id = "anthropic.claude-3-sonnet-20240229-v1:0"
-    # model_id = "anthropic.claude-3-haiku-20240307-v1:0"
-    kwargs = {
-        "modelId": model_id,
-        "contentType": "application/json",
-        "accept": "application/json",
-        "body": json.dumps({
-            "anthropic_version": "bedrock-2023-05-31",
-            "max_tokens": 4000,
-            "system": sys_content,
-            "messages": messages
-        })
-    }
-    response = BEDROCK_CLIENT.invoke_model(**kwargs)
-    response_body = json.loads(response.get('body').read())
-    content = response_body.get('content')[0].get('text')
-    return content
 def generate_content_by_LLM(sys_content, user_content, response_format=None, LLM_model=None):
     # 使用 OpenAI 生成基于上传数据的问题
-    if LLM_model == "anthropic-claude-3-sonnet":
-        print(f"LLM: {LLM_model}")
-        content = generate_content_by_bedrock(sys_content, user_content)
-    else:
-        print(f"LLM: {LLM_model}")
-        content = generate_content_by_open_ai(sys_content, user_content, response_format)
     print("=====content=====")
     print(content)
     print("=====content=====")
@@ -1221,7 +1227,6 @@ def change_questions(password, df_string):
 def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript, source, LLM_model=None):
     if source == "gcs":
         print("===get_key_moments on gcs===")
-        gcs_client = GCS_CLIENT
         bucket_name = 'video_ai_assistant'
         file_name = f'{video_id}_key_moments.json'
         blob_name = f"{video_id}/{file_name}"
@@ -1254,6 +1259,18 @@ def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript,
                 GCS_SERVICE.upload_json_string(bucket_name, blob_name, key_moments_text)
                 key_moments_text = GCS_SERVICE.download_as_string(bucket_name, blob_name)
                 key_moments_json = json.loads(key_moments_text)
     elif source == "drive":
         print("===get_key_moments on drive===")
@@ -1329,6 +1346,13 @@ def generate_key_moments(formatted_simple_transcript, formatted_transcript, LLM_
                             if start_time <= parse_time(time) <= end_time]
             moment['images'] = moment_images
         all_content += key_moments
     return all_content
@@ -1352,6 +1376,51 @@ def generate_key_moments_keywords(transcript, LLM_model=None):
     return all_content
 def get_key_moments_html(key_moments):
     css = """
     <style>
@@ -1534,7 +1603,7 @@ def get_key_moments_html(key_moments):
     key_moments_html = css
     for i, moment in enumerate(key_moments):
-        images = moment['images']
         image_elements = ""
         for j, image in enumerate(images):
@@ -1909,7 +1978,7 @@ def get_meta_data(video_id, source="gcs"):
     return meta_data_json
-def get_ai_content(password, video_id, df_string, topic, grade, level, specific_feature, content_type, source="gcs"):
     verify_password(password)
     if source == "gcs":
         print("===get_ai_content on gcs===")
@@ -1955,10 +2024,27 @@ def get_ai_content(password, video_id, df_string, topic, grade, level, specific_
             ai_content_text = json.dumps(ai_content_list, ensure_ascii=False, indent=2)
             GCS_SERVICE.upload_json_string(bucket_name, blob_name, ai_content_text)
             print("ai_content已上傳到GCS")
         else:
             ai_content_json = ai_content_json[-1]
             ai_content = ai_content_json["content"]
             prompt = ai_content_json["prompt"]
     return ai_content, ai_content, prompt, prompt
@@ -1977,7 +2063,7 @@ def generate_ai_content(password, df_string, topic, grade, level, specific_featu
     return ai_content, prompt
-def generate_exam_fine_tune_result(password, exam_result_prompt , df_string_output, exam_result, exam_result_fine_tune_prompt):
     verify_password(password)
     material = EducationalMaterial(df_string_output, "", "", "", "", "")
     try:
@@ -1985,6 +2071,20 @@ def generate_exam_fine_tune_result(password, exam_result_prompt , df_string_outp
     except:
         fine_tuned_ai_content = material.get_fine_tuned_ai_content(BEDROCK_CLIENT, "bedrock", exam_result_prompt, exam_result, exam_result_fine_tune_prompt)
     return fine_tuned_ai_content
 def return_original_exam_result(exam_result_original):
@@ -2059,6 +2159,7 @@ def get_instructions(content_subject, content_grade, key_moments, socratic_mode=
 def chat_with_any_ai(ai_type, password, video_id, user_data, transcript_state, key_moments, user_message, chat_history, content_subject, content_grade, questions_answers_json, socratic_mode=False, thread_id=None, ai_name=None):
     print(f"ai_type: {ai_type}")
     print(f"user_data: {user_data}")
     verify_password(password)
     verify_message_length(user_message, max_length=1500)
@@ -2076,7 +2177,21 @@ def chat_with_any_ai(ai_type, password, video_id, user_data, transcript_state, k
         chatbot_config = get_chatbot_config(ai_name, transcript_state, key_moments, content_subject, content_grade, video_id, socratic_mode)
         chatbot = Chatbot(chatbot_config)
         response_text = chatbot.chat(user_message, chat_history)
-        thread_id = ""
     elif ai_type == "assistant":
         client = OPEN_AI_CLIENT
         assistant_id = OPEN_AI_ASSISTANT_ID_GPT4 #GPT 4 turbo
@@ -2109,6 +2224,23 @@ def chat_with_any_ai(ai_type, password, video_id, user_data, transcript_state, k
     chat_history = update_chat_history(user_message, response_text, chat_history)
     send_btn_update, send_feedback_btn_update = update_send_and_feedback_buttons(chat_history, CHAT_LIMIT)
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history, send_btn_update, send_feedback_btn_update, thread_id
@@ -2122,10 +2254,15 @@ def get_chatbot_config(ai_name, transcript_state, key_moments, content_subject,
             "ai_client": GROQ_CLIENT,
             "ai_model_name": "groq_llama3",
         },
         "lili": {
             "ai_name": "lili",
-            "ai_client": BEDROCK_CLIENT,
-            "ai_model_name": "claude3",
         },
         "maimai": {
             "ai_name": "maimai",
@@ -2168,7 +2305,7 @@ def get_chatbot_config(ai_name, transcript_state, key_moments, content_subject,
     return chatbot_config
-def feedback_with_ai(ai_type, chat_history, thread_id=None):
     # prompt: 請依據以上的對話(chat_history)，總結我的「提問力」，並給予我是否有「問對問題」的回饋和建議
     system_content = """
         你是一個擅長引導問答素養的老師，user 為學生的提問跟回答，請精讀對話過程，針對 user 給予回饋就好，根據以下 Rule:
@@ -2217,6 +2354,22 @@ def feedback_with_ai(ai_type, chat_history, thread_id=None):
     chat_history = update_chat_history(feedback_request_message, response_text, chat_history)
     feedback_btn_update = gr.update(value="已回饋", interactive=False, variant="secondary")
     return chat_history, feedback_btn_update
 def handle_conversation_by_open_ai_chat_completions(client, model_name, user_content, system_content):
@@ -2264,6 +2417,7 @@ def handle_conversation_by_open_ai_assistant(client, user_message, instructions,
         if run_status == "completed":
             messages = client.beta.threads.messages.list(thread_id=thread.id)
             response_text = messages.data[0].content[0].text.value
         else:
             response_text = "學習精靈有點累，請稍後再試！"
@@ -2492,17 +2646,17 @@ def chat_with_opan_ai_assistant_streaming(user_message, chat_history, password,
         else:
             thread = client.beta.threads.retrieve(thread_id)
             print(f"old thread_id: {thread_id}")
         client.beta.threads.update(
             thread_id=thread_id,
-            metadata={
-                "youtube_id": video_id,
-                "user_data": user_data,
-                "content_subject": content_subject,
-                "content_grade": content_grade,
-                "assistant_id": assistant_id,
-                "is_streaming": "true",
-            }
         )
         # 向线程添加用户的消息
@@ -2527,6 +2681,22 @@ def chat_with_opan_ai_assistant_streaming(user_message, chat_history, password,
     except Exception as e:
         print(f"Error: {e}")
         raise gr.Error(f"Error: {e}")
 def create_thread_id():
     thread = OPEN_AI_CLIENT.beta.threads.create()
@@ -2571,6 +2741,26 @@ def show_all_chatbot_accordion():
     all_chatbot_select_btn_visible = gr.update(visible=False)
     return chatbot_select_accordion_visible, all_chatbot_select_btn_visible
 # --- Init params ---
 def init_params(text, request: gr.Request):
@@ -2866,19 +3056,18 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
                             worksheet_algorithm = gr.Dropdown(label="選擇教學策略或理論", choices=["Bloom認知階層理論", "Polya數學解題法", "CRA教學法"], value="Bloom認知階層理論", visible=False)
                             worksheet_content_btn = gr.Button("生成學習單 📄", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
-                            worksheet_exam_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
-                            worksheet_exam_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
-                            worksheet_exam_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as worksheet_accordion:
                             worksheet_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
-                        worksheet_exam_result_prompt = gr.Textbox(visible=False)
-                        worksheet_exam_result_original = gr.Textbox(visible=False)
-                        # worksheet_exam_result = gr.Textbox(label="初次生成結果", show_copy_button=True, interactive=True, lines=40)
-                        worksheet_exam_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
-                        worksheet_download_exam_result_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
-                        worksheet_exam_result_word_link = gr.File(label="Download Word")
             with gr.Tab("教案"):
                 with gr.Row():
                     with gr.Column(scale=1):
@@ -2887,19 +3076,19 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
                             lesson_plan_time = gr.Slider(label="選擇課程時間(分鐘)", minimum=10, maximum=120, step=5, value=40)
                             lesson_plan_btn = gr.Button("生成教案 📕", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
-                            lesson_plan_exam_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
-                            lesson_plan_exam_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
-                            lesson_plan_exam_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as lesson_plan_accordion:
                             lesson_plan_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
-                        lesson_plan_exam_result_prompt = gr.Textbox(visible=False)
-                        lesson_plan_exam_result_original = gr.Textbox(visible=False)
-                        lesson_plan_exam_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
-                        lesson_plan_download_exam_result_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
-                        lesson_plan_exam_result_word_link = gr.File(label="Download Word")
             with gr.Tab("出場券"):
                 with gr.Row():
                     with gr.Column(scale=1):
@@ -2908,19 +3097,19 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
                             exit_ticket_time = gr.Slider(label="選擇出場券時間(分鐘)", minimum=5, maximum=10, step=1, value=8)
                             exit_ticket_btn = gr.Button("生成出場券 🎟️", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
-                            exit_ticket_exam_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
-                            exit_ticket_exam_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
-                            exit_ticket_exam_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as exit_ticket_accordion:
                             exit_ticket_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
-                        exit_ticket_exam_result_prompt = gr.Textbox(visible=False)
-                        exit_ticket_exam_result_original = gr.Textbox(visible=False)
-                        exit_ticket_exam_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
-                        exit_ticket_download_exam_result_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
-                        exit_ticket_exam_result_word_link = gr.File(label="Download Word")
                 # with gr.Tab("素養導向閱讀題組"):
@@ -2940,7 +3129,7 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
     with gr.Accordion("See Details", open=False) as see_details:
         with gr.Row():
             is_env_prod = gr.Checkbox(value=False, label="is_env_prod")
-            LLM_model = gr.Dropdown(label="LLM Model", choices=["open-ai-gpt-4", "anthropic-claude-3-sonnet"], value="open-ai-gpt-4", visible=True, interactive=True)
         with gr.Tab("逐字稿本文"):
             with gr.Row() as transcript_admmin:
                 transcript_kind = gr.Textbox(value="transcript", show_label=False)
@@ -3131,7 +3320,7 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
     )
     ai_send_feedback_btn.click(
         feedback_with_ai,
-        inputs=[ai_chatbot_ai_type, ai_chatbot, ai_chatbot_thread_id],
         outputs=[ai_chatbot, ai_send_feedback_btn],
         scroll_to_output=True
     )
@@ -3468,76 +3657,76 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         {
             "button": worksheet_content_btn,
             "action": get_ai_content,
-            "inputs": [password, video_id, df_string_output, content_subject, content_grade, content_level, worksheet_algorithm, worksheet_content_type_name],
-            "outputs": [worksheet_exam_result_original, worksheet_exam_result, worksheet_prompt, worksheet_exam_result_prompt]
         },
         {
-            "button": worksheet_exam_result_fine_tune_btn,
-            "action": generate_exam_fine_tune_result,
-            "inputs": [password, worksheet_exam_result_prompt, df_string_output, worksheet_exam_result, worksheet_exam_result_fine_tune_prompt],
-            "outputs": [worksheet_exam_result]
         },
         {
-            "button": worksheet_download_exam_result_button,
             "action": download_exam_result,
-            "inputs": [worksheet_exam_result],
-            "outputs": [worksheet_exam_result_word_link]
         },
         {
-            "button": worksheet_exam_result_retrun_original,
             "action": return_original_exam_result,
-            "inputs": [worksheet_exam_result_original],
-            "outputs": [worksheet_exam_result]
         },
         # 教案相關按鈕
         {
             "button": lesson_plan_btn,
             "action": get_ai_content,
-            "inputs": [password, video_id, df_string_output, content_subject, content_grade, content_level, lesson_plan_time, lesson_plan_content_type_name],
-            "outputs": [lesson_plan_exam_result_original, lesson_plan_exam_result, lesson_plan_prompt, lesson_plan_exam_result_prompt]
         },
         {
-            "button": lesson_plan_exam_result_fine_tune_btn,
-            "action": generate_exam_fine_tune_result,
-            "inputs": [password, lesson_plan_exam_result_prompt, df_string_output, lesson_plan_exam_result, lesson_plan_exam_result_fine_tune_prompt],
-            "outputs": [lesson_plan_exam_result]
         },
         {
-            "button": lesson_plan_download_exam_result_button,
             "action": download_exam_result,
-            "inputs": [lesson_plan_exam_result],
-            "outputs": [lesson_plan_exam_result_word_link]
         },
         {
-            "button": lesson_plan_exam_result_retrun_original,
             "action": return_original_exam_result,
-            "inputs": [lesson_plan_exam_result_original],
-            "outputs": [lesson_plan_exam_result]
         },
         # 出場券相關按鈕
         {
             "button": exit_ticket_btn,
             "action": get_ai_content,
-            "inputs": [password, video_id, df_string_output, content_subject, content_grade, content_level, exit_ticket_time, exit_ticket_content_type_name],
-            "outputs": [exit_ticket_exam_result_original, exit_ticket_exam_result, exit_ticket_prompt, exit_ticket_exam_result_prompt]
         },
         {
-            "button": exit_ticket_exam_result_fine_tune_btn,
-            "action": generate_exam_fine_tune_result,
-            "inputs": [password, exit_ticket_exam_result_prompt, df_string_output, exit_ticket_exam_result, exit_ticket_exam_result_fine_tune_prompt],
-            "outputs": [exit_ticket_exam_result]
         },
         {
-            "button": exit_ticket_download_exam_result_button,
             "action": download_exam_result,
-            "inputs": [exit_ticket_exam_result],
-            "outputs": [exit_ticket_exam_result_word_link]
         },
         {
-            "button": exit_ticket_exam_result_retrun_original,
             "action": return_original_exam_result,
-            "inputs": [exit_ticket_exam_result_original],
-            "outputs": [exit_ticket_exam_result]
         }
     ]
     setup_education_buttons(education_buttons_config)
@@ -3564,4 +3753,4 @@ with gr.Blocks(theme=gr.themes.Base(primary_hue=gr.themes.colors.orange, seconda
         outputs = init_outputs
     )
-demo.launch(allowed_paths=["videos"])

 import gradio as gr
 import pandas as pd
 import requests
 from docx import Document
 import os
 from openai import OpenAI
 import io
 import time
 import json
+from datetime import datetime, timezone, timedelta
 from urllib.parse import urlparse, parse_qs
 from google.cloud import storage
+from google.cloud import bigquery
 from google.oauth2 import service_account
 from googleapiclient.discovery import build
 from googleapiclient.http import MediaFileUpload
         PASSWORD = config["PASSWORD"]
         GCS_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         DRIVE_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
+        GBQ_KEY = json.dumps(config["GOOGLE_APPLICATION_CREDENTIALS_JSON"])
         OPEN_AI_KEY = config["OPEN_AI_KEY"]
         OPEN_AI_ASSISTANT_ID_GPT4_BOT1 = config["OPEN_AI_ASSISTANT_ID_GPT4_BOT1"]
         OPEN_AI_ASSISTANT_ID_GPT3_BOT1 = config["OPEN_AI_ASSISTANT_ID_GPT3_BOT1"]
     PASSWORD = os.getenv("PASSWORD")
     GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+    GBQ_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
     OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
     OPEN_AI_ASSISTANT_ID_GPT4_BOT1 = os.getenv("OPEN_AI_ASSISTANT_ID_GPT4_BOT1")
     OPEN_AI_ASSISTANT_ID_GPT3_BOT1 = os.getenv("OPEN_AI_ASSISTANT_ID_GPT3_BOT1")
 TRANSCRIPTS = []
 CURRENT_INDEX = 0
+CHAT_LIMIT = 5
 # CLIENTS CONFIG
+GBQ_CLIENT = bigquery.Client.from_service_account_info(json.loads(GBQ_KEY))
 GROQ_CLIENT = Groq(api_key=GROQ_API_KEY)
 GCS_SERVICE = GoogleCloudStorage(GCS_KEY)
 GCS_CLIENT = GCS_SERVICE.client
 def generate_content_by_open_ai(sys_content, user_content, response_format=None):
     print("LLM using OPEN AI")
     # model = "gpt-4-turbo"
+    model = "gpt-4o"
+    print(f"model: {model}")
     messages = [
         {"role": "system", "content": sys_content},
         {"role": "user", "content": user_content}
     content = response.choices[0].message.content.strip()
     return content
+# def generate_content_by_bedrock(sys_content, user_content):
+#     print("LLM using REDROCK")
+#     messages = [
+#         {"role": "user", "content": user_content +"(如果是 JSON 格式，value 的引號，請用單引號，或是用反斜線＋雙引號，避免 JSON Decoder error )"}
+#     ]
+#     model_id = "anthropic.claude-3-sonnet-20240229-v1:0"
+#     print(f"model_id: {model_id}")
+#     # model_id = "anthropic.claude-3-haiku-20240307-v1:0"
+#     kwargs = {
+#         "modelId": model_id,
+#         "contentType": "application/json",
+#         "accept": "application/json",
+#         "body": json.dumps({
+#             "anthropic_version": "bedrock-2023-05-31",
+#             "max_tokens": 4000,
+#             "system": sys_content,
+#             "messages": messages
+#         })
+#     }
+#     response = BEDROCK_CLIENT.invoke_model(**kwargs)
+#     response_body = json.loads(response.get('body').read())
+#     content = response_body.get('content')[0].get('text')
+#     return content
 def generate_content_by_LLM(sys_content, user_content, response_format=None, LLM_model=None):
     # 使用 OpenAI 生成基于上传数据的问题
+    # if LLM_model == "anthropic-claude-3-sonnet":
+    #     print(f"LLM: {LLM_model}")
+    #     content = generate_content_by_bedrock(sys_content, user_content)
+    # else:
+    print(f"LLM: {LLM_model}")
+    content = generate_content_by_open_ai(sys_content, user_content, response_format)
     print("=====content=====")
     print(content)
     print("=====content=====")
 def get_key_moments(video_id, formatted_simple_transcript, formatted_transcript, source, LLM_model=None):
     if source == "gcs":
         print("===get_key_moments on gcs===")
         bucket_name = 'video_ai_assistant'
         file_name = f'{video_id}_key_moments.json'
         blob_name = f"{video_id}/{file_name}"
                 GCS_SERVICE.upload_json_string(bucket_name, blob_name, key_moments_text)
                 key_moments_text = GCS_SERVICE.download_as_string(bucket_name, blob_name)
                 key_moments_json = json.loads(key_moments_text)
+            # 檢查 key_moments 是否有 suggested_images
+            print("===檢查 key_moments 是否有 suggested_images===")
+            has_suggested_images_added = False
+            for key_moment in key_moments_json["key_moments"]:
+                if "suggested_images" not in key_moment:
+                    key_moment["suggested_images"] = generate_key_moments_suggested_images(key_moment)
+                    has_suggested_images_added = True
+            if has_suggested_images_added:
+                key_moments_text = json.dumps(key_moments_json, ensure_ascii=False, indent=2)
+                GCS_SERVICE.upload_json_string(bucket_name, blob_name, key_moments_text)
+                key_moments_text = GCS_SERVICE.download_as_string(bucket_name, blob_name)
+                key_moments_json = json.loads(key_moments_text)
     elif source == "drive":
         print("===get_key_moments on drive===")
                             if start_time <= parse_time(time) <= end_time]
             moment['images'] = moment_images
+            # 檢查是否有 suggested_images
+            if "suggested_images" not in moment:
+                moment["suggested_images"] = generate_key_moments_suggested_images(moment, LLM_model)
+                print("===moment_suggested_images===")
+                print(moment["suggested_images"])
+                print("===moment_suggested_images===")
         all_content += key_moments
     return all_content
     return all_content
+def generate_key_moments_suggested_images(key_moment, LLM_model=None):
+    # Prepare the text and keywords
+    text = key_moment["text"]
+    keywords = ', '.join(key_moment["keywords"])
+    images = key_moment["images"]
+    images_list_prompt = ""
+    for i, image_url in enumerate(images):
+        images_list_prompt += f"\n圖片 {i+1}: {image_url}"
+    # Prepare the user prompt with text and keywords
+    sys_content = "你是一個擅長資料分析跟影片教學的老師，user 為學生，請精讀資料文本，自行判斷資料的種類，使用 zh-TW"
+    user_content = f"""
+    # Rule:
+    1. 保留有圖表或是數據的圖片
+    2.根據以下的文本和關鍵字，選擇出最合適的圖片。
+        - 文本: {text}
+        - 關鍵字: {keywords}
+    3. 總是保留最後一張，除非他是一張空白圖片，或是一張沒有任何內容的圖片
+    # Restrictions:
+    1. 不要有相似或是概念重複的圖片
+    2. 移除整張圖片是黑色、藍色或是白色的圖片
+    3. 移除沒有任何內容的圖片
+    4. 不需要理會字幕的差益，只需要看圖片的內容
+    請根據這些信息，圖片列表如下:
+    {images_list_prompt}
+    回傳 JSON LIST 就好，不用回傳任何敘述脈絡，也不要 ```json 包覆
+    EXAMPLE:
+    {{
+        "suggested_images": ["圖片1的 image_url", "圖片2 的 image_url", "圖片3的 image_url"]
+    }}
+    """
+    response_format = { "type": "json_object" }
+    response = generate_content_by_LLM(sys_content, user_content, response_format, LLM_model)
+    print("===generate_key_moments_suggested_images===")
+    print(response)
+    print("===generate_key_moments_suggested_images===")
+    suggested_images = json.loads(response)["suggested_images"]
+    return suggested_images
 def get_key_moments_html(key_moments):
     css = """
     <style>
     key_moments_html = css
     for i, moment in enumerate(key_moments):
+        images = moment['suggested_images']
         image_elements = ""
         for j, image in enumerate(images):
     return meta_data_json
+def get_ai_content(password, user_data, video_id, df_string, topic, grade, level, specific_feature, content_type, source="gcs"):
     verify_password(password)
     if source == "gcs":
         print("===get_ai_content on gcs===")
             ai_content_text = json.dumps(ai_content_list, ensure_ascii=False, indent=2)
             GCS_SERVICE.upload_json_string(bucket_name, blob_name, ai_content_text)
             print("ai_content已上傳到GCS")
+            # insert_log_to_bigquery usage
+            data_endpoint = "chat_completions"
         else:
             ai_content_json = ai_content_json[-1]
             ai_content = ai_content_json["content"]
             prompt = ai_content_json["prompt"]
+            # insert_log_to_bigquery usage
+            data_endpoint = "gcs"
+         # send data to GBQ
+        user_id = user_data
+        route = "get_ai_content"
+        endpoint = data_endpoint
+        event_response = {"event_response": str(ai_content)}
+        event_response_json = json.dumps(event_response)
+        prompt = ai_content_json
+        prompt_json = json.dumps(prompt)
+        feature = content_type
+        insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature)
     return ai_content, ai_content, prompt, prompt
     return ai_content, prompt
+def generate_ai_content_fine_tune_result(password, user_data, exam_result_prompt , df_string_output, exam_result, exam_result_fine_tune_prompt, content_type):
     verify_password(password)
     material = EducationalMaterial(df_string_output, "", "", "", "", "")
     try:
     except:
         fine_tuned_ai_content = material.get_fine_tuned_ai_content(BEDROCK_CLIENT, "bedrock", exam_result_prompt, exam_result, exam_result_fine_tune_prompt)
+     # send data to GBQ
+    user_id = user_data
+    route = "generate_ai_content_fine_tune_result"
+    endpoint = "chat_completions"
+    event_response = {"event_response": str(fine_tuned_ai_content)}
+    event_response_json = json.dumps(event_response)
+    prompt = {
+        "exam_result_prompt": exam_result_prompt,
+        "exam_result_fine_tune_prompt": exam_result_fine_tune_prompt
+    }
+    prompt_json = json.dumps(prompt)
+    feature = content_type
+    insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature)
     return fine_tuned_ai_content
 def return_original_exam_result(exam_result_original):
 def chat_with_any_ai(ai_type, password, video_id, user_data, transcript_state, key_moments, user_message, chat_history, content_subject, content_grade, questions_answers_json, socratic_mode=False, thread_id=None, ai_name=None):
     print(f"ai_type: {ai_type}")
     print(f"user_data: {user_data}")
+    print(f"===thread_id:{thread_id}===")
     verify_password(password)
     verify_message_length(user_message, max_length=1500)
         chatbot_config = get_chatbot_config(ai_name, transcript_state, key_moments, content_subject, content_grade, video_id, socratic_mode)
         chatbot = Chatbot(chatbot_config)
         response_text = chatbot.chat(user_message, chat_history)
+        # if thread_id is none, create random thread_id + timestamp
+        if thread_id is None or thread_id == "":
+            thread_id = "thread_" + str(uuid.uuid4()) + str(int(time.time()))
+        print(f"===thread_id:{thread_id}===")
+        metadata = {
+            "video_id": video_id,
+            "user_data": user_data,
+            "content_subject": content_subject,
+            "content_grade": content_grade,
+            "socratic_mode": str(socratic_mode),
+            "assistant_id": ai_name,
+            "is_streaming": "false",
+        }
     elif ai_type == "assistant":
         client = OPEN_AI_CLIENT
         assistant_id = OPEN_AI_ASSISTANT_ID_GPT4 #GPT 4 turbo
     chat_history = update_chat_history(user_message, response_text, chat_history)
     send_btn_update, send_feedback_btn_update = update_send_and_feedback_buttons(chat_history, CHAT_LIMIT)
+    user_id = user_data
+    route = "chat_with_any_ai"
+    endpoint = ai_type #chat_completions or assistant
+    event_response = {
+        "event_response": str(response_text),
+    }
+    event_response_json = json.dumps(event_response)
+    prompt = {
+        "thread_id": thread_id,
+        "metadata": metadata,
+        "user_message": user_message
+    }
+    prompt_json = json.dumps(prompt)
+    feature = "vaitor_chatbot"
+    insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature)
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history, send_btn_update, send_feedback_btn_update, thread_id
             "ai_client": GROQ_CLIENT,
             "ai_model_name": "groq_llama3",
         },
+        # "lili": {
+        #     "ai_name": "lili",
+        #     "ai_client": BEDROCK_CLIENT,
+        #     "ai_model_name": "claude3",
+        # },
         "lili": {
             "ai_name": "lili",
+            "ai_client": GROQ_CLIENT,
+            "ai_model_name": "groq_llama3",
         },
         "maimai": {
             "ai_name": "maimai",
     return chatbot_config
+def feedback_with_ai(user_data, ai_type, chat_history, thread_id=None):
     # prompt: 請依據以上的對話(chat_history)，總結我的「提問力」，並給予我是否有「問對問題」的回饋和建議
     system_content = """
         你是一個擅長引導問答素養的老師，user 為學生的提問跟回答，請精讀對話過程，針對 user 給予回饋就好，根據以下 Rule:
     chat_history = update_chat_history(feedback_request_message, response_text, chat_history)
     feedback_btn_update = gr.update(value="已回饋", interactive=False, variant="secondary")
+    user_id = user_data
+    route = "feedback_with_ai"
+    endpoint = ai_type #chat_completions or assistant
+    event_response = {
+        "event_response": str(response_text),
+    }
+    event_response_json = json.dumps(event_response)
+    prompt = {
+        "thread_id": thread_id,
+        "metadata": None,
+        "user_message": user_content
+    }
+    prompt_json = json.dumps(prompt)
+    feature = "vaitor_chatbot"
+    insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature)
     return chat_history, feedback_btn_update
 def handle_conversation_by_open_ai_chat_completions(client, model_name, user_content, system_content):
         if run_status == "completed":
             messages = client.beta.threads.messages.list(thread_id=thread.id)
+            response = messages
             response_text = messages.data[0].content[0].text.value
         else:
             response_text = "學習精靈有點累，請稍後再試！"
         else:
             thread = client.beta.threads.retrieve(thread_id)
             print(f"old thread_id: {thread_id}")
+        metadata = {
+            "youtube_id": video_id,
+            "user_data": user_data,
+            "content_subject": content_subject,
+            "content_grade": content_grade,
+            "assistant_id": assistant_id,
+            "is_streaming": "true",
+        }
         client.beta.threads.update(
             thread_id=thread_id,
+            metadata=metadata
         )
         # 向线程添加用户的消息
     except Exception as e:
         print(f"Error: {e}")
         raise gr.Error(f"Error: {e}")
+    user_id = user_data
+    route = "chat_with_opan_ai_assistant_streaming"
+    endpoint = "assistant_streaming"
+    event_response = {
+        "event_response": partial_messages
+    }
+    event_response_json = json.dumps(event_response)
+    prompt = {
+        "thread_id": thread_id,
+        "metadata": metadata,
+        "user_message": user_message
+    }
+    prompt_json = json.dumps(prompt)
+    feature = "vaitor_chatbot"
+    insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature)
 def create_thread_id():
     thread = OPEN_AI_CLIENT.beta.threads.create()
     all_chatbot_select_btn_visible = gr.update(visible=False)
     return chatbot_select_accordion_visible, all_chatbot_select_btn_visible
+def insert_log_to_bigquery(user_id, route, endpoint, event_response_json, prompt_json, feature):
+    table_id = "junyiacademy.streaming_log.log_video_ai_usage"
+    rows_to_insert = [
+        {
+            "user_id": user_id,
+            "route": route,
+            "endpoint": endpoint,
+            "event_response": event_response_json,
+            "event_timestamp": datetime.now(timezone.utc).isoformat(),
+            "prompt": prompt_json,
+            "feature": feature
+        }
+    ]
+    errors = GBQ_CLIENT.insert_rows_json(table_id, rows_to_insert)
+    if errors:
+        print(f"Encountered errors while inserting rows: {errors}")
+    else:
+        print("Rows have been successfully inserted.")
 # --- Init params ---
 def init_params(text, request: gr.Request):
                             worksheet_algorithm = gr.Dropdown(label="選擇教學策略或理論", choices=["Bloom認知階層理論", "Polya數學解題法", "CRA教學法"], value="Bloom認知階層理論", visible=False)
                             worksheet_content_btn = gr.Button("生成學習單 📄", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
+                            worksheet_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
+                            worksheet_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
+                            worksheet_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as worksheet_accordion:
                             worksheet_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
+                        worksheet_result_prompt = gr.Textbox(visible=False)
+                        worksheet_result_original = gr.Textbox(visible=False)
+                        worksheet_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
+                        worksheet_download_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
+                        worksheet_result_word_link = gr.File(label="Download Word")
             with gr.Tab("教案"):
                 with gr.Row():
                     with gr.Column(scale=1):
                             lesson_plan_time = gr.Slider(label="選擇課程時間(分鐘)", minimum=10, maximum=120, step=5, value=40)
                             lesson_plan_btn = gr.Button("生成教案 📕", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
+                            lesson_plan_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
+                            lesson_plan_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
+                            lesson_plan_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as lesson_plan_accordion:
                             lesson_plan_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
+                        lesson_plan_result_prompt = gr.Textbox(visible=False)
+                        lesson_plan_result_original = gr.Textbox(visible=False)
+                        lesson_plan_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
+                        lesson_plan_download_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
+                        lesson_plan_result_word_link = gr.File(label="Download Word")
             with gr.Tab("出場券"):
                 with gr.Row():
                     with gr.Column(scale=1):
                             exit_ticket_time = gr.Slider(label="選擇出場券時間(分鐘)", minimum=5, maximum=10, step=1, value=8)
                             exit_ticket_btn = gr.Button("生成出場券 🎟️", variant="primary", visible=True)
                         with gr.Accordion("微調", open=False):
+                            exit_ticket_result_fine_tune_prompt = gr.Textbox(label="根據結果，輸入你想更改的想法")
+                            exit_ticket_result_fine_tune_btn = gr.Button("微調結果", variant="primary")
+                            exit_ticket_result_retrun_original = gr.Button("返回原始結果")
                         with gr.Accordion("prompt", open=False) as exit_ticket_accordion:
                             exit_ticket_prompt = gr.Textbox(label="worksheet_prompt", show_copy_button=True, lines=40)
                     with gr.Column(scale=2):
                         # 生成對應不同模式的結果
+                        exit_ticket_result_prompt = gr.Textbox(visible=False)
+                        exit_ticket_result_original = gr.Textbox(visible=False)
+                        exit_ticket_result = gr.Markdown(label="初次生成結果", latex_delimiters = [{"left": "$", "right": "$", "display": False}])
+                        exit_ticket_download_button = gr.Button("轉成 word，完成後請點擊右下角 download 按鈕", variant="primary")
+                        exit_ticket_result_word_link = gr.File(label="Download Word")
                 # with gr.Tab("素養導向閱讀題組"):
     with gr.Accordion("See Details", open=False) as see_details:
         with gr.Row():
             is_env_prod = gr.Checkbox(value=False, label="is_env_prod")
+            LLM_model = gr.Dropdown(label="LLM Model", choices=["open-ai-gpt-4o", "anthropic-claude-3-sonnet"], value="open-ai-gpt-4o", visible=True, interactive=True)
         with gr.Tab("逐字稿本文"):
             with gr.Row() as transcript_admmin:
                 transcript_kind = gr.Textbox(value="transcript", show_label=False)
     )
     ai_send_feedback_btn.click(
         feedback_with_ai,
+        inputs=[user_data, ai_chatbot_ai_type, ai_chatbot, ai_chatbot_thread_id],
         outputs=[ai_chatbot, ai_send_feedback_btn],
         scroll_to_output=True
     )
         {
             "button": worksheet_content_btn,
             "action": get_ai_content,
+            "inputs": [password, user_data, video_id, df_string_output, content_subject, content_grade, content_level, worksheet_algorithm, worksheet_content_type_name],
+            "outputs": [worksheet_result_original, worksheet_result, worksheet_prompt, worksheet_result_prompt]
         },
         {
+            "button": worksheet_result_fine_tune_btn,
+            "action": generate_ai_content_fine_tune_result,
+            "inputs": [password, user_data, worksheet_result_prompt, df_string_output, worksheet_result, worksheet_result_fine_tune_prompt, worksheet_content_type_name],
+            "outputs": [worksheet_result]
         },
         {
+            "button": worksheet_download_button,
             "action": download_exam_result,
+            "inputs": [worksheet_result],
+            "outputs": [worksheet_result_word_link]
         },
         {
+            "button": worksheet_result_retrun_original,
             "action": return_original_exam_result,
+            "inputs": [worksheet_result_original],
+            "outputs": [worksheet_result]
         },
         # 教案相關按鈕
         {
             "button": lesson_plan_btn,
             "action": get_ai_content,
+            "inputs": [password, user_data, video_id, df_string_output, content_subject, content_grade, content_level, lesson_plan_time, lesson_plan_content_type_name],
+            "outputs": [lesson_plan_result_original, lesson_plan_result, lesson_plan_prompt, lesson_plan_result_prompt]
         },
         {
+            "button": lesson_plan_result_fine_tune_btn,
+            "action": generate_ai_content_fine_tune_result,
+            "inputs": [password, user_data, lesson_plan_result_prompt, df_string_output, lesson_plan_result, lesson_plan_result_fine_tune_prompt, lesson_plan_content_type_name],
+            "outputs": [lesson_plan_result]
         },
         {
+            "button": lesson_plan_download_button,
             "action": download_exam_result,
+            "inputs": [lesson_plan_result],
+            "outputs": [lesson_plan_result_word_link]
         },
         {
+            "button": lesson_plan_result_retrun_original,
             "action": return_original_exam_result,
+            "inputs": [lesson_plan_result_original],
+            "outputs": [lesson_plan_result]
         },
         # 出場券相關按鈕
         {
             "button": exit_ticket_btn,
             "action": get_ai_content,
+            "inputs": [password, user_data, video_id, df_string_output, content_subject, content_grade, content_level, exit_ticket_time, exit_ticket_content_type_name],
+            "outputs": [exit_ticket_result_original, exit_ticket_result, exit_ticket_prompt, exit_ticket_result_prompt]
         },
         {
+            "button": exit_ticket_result_fine_tune_btn,
+            "action": generate_ai_content_fine_tune_result,
+            "inputs": [password, user_data, exit_ticket_result_prompt, df_string_output, exit_ticket_result, exit_ticket_result_fine_tune_prompt, exit_ticket_content_type_name],
+            "outputs": [exit_ticket_result]
         },
         {
+            "button": exit_ticket_download_button,
             "action": download_exam_result,
+            "inputs": [exit_ticket_result],
+            "outputs": [exit_ticket_result_word_link]
         },
         {
+            "button": exit_ticket_result_retrun_original,
             "action": return_original_exam_result,
+            "inputs": [exit_ticket_result_original],
+            "outputs": [exit_ticket_result]
         }
     ]
     setup_education_buttons(education_buttons_config)
         outputs = init_outputs
     )
+demo.launch(allowed_paths=["videos"], server_name="0.0.0.0", server_port=7860)

chatbot.py CHANGED Viewed

@@ -87,7 +87,7 @@ class Chatbot:
             "Content-Type": "application/json",
             "x-api-key": self.jutor_chat_key,
         }
-        model = "gpt-4-turbo"
         print("======model======")
         print(model)
         # model = "gpt-3.5-turbo-0125"

             "Content-Type": "application/json",
             "x-api-key": self.jutor_chat_key,
         }
+        model = "gpt-4o"
         print("======model======")
         print(model)
         # model = "gpt-3.5-turbo-0125"

educational_material.py CHANGED Viewed

@@ -99,7 +99,7 @@ class EducationalMaterial:
         OPEN_AI_CLIENT = AI_Client
         messages = [{"role": "system", "content": system_content}, {"role": "user", "content": user_content}]
         request_payload = {
-            "model": "gpt-4-turbo",
             "messages": messages,
             "max_tokens": 4000,
             "temperature": 0.9,

         OPEN_AI_CLIENT = AI_Client
         messages = [{"role": "system", "content": system_content}, {"role": "user", "content": user_content}]
         request_payload = {
+            "model": "gpt-4o",
             "messages": messages,
             "max_tokens": 4000,
             "temperature": 0.9,

requirements.txt CHANGED Viewed

@@ -2,7 +2,6 @@ gradio==4.8.0
 pandas
 openai>=1.16.2
 requests
-beautifulsoup4
 python-docx
 youtube-transcript-api
 moviepy
@@ -12,6 +11,7 @@ google-api-python-client
 google-auth-httplib2
 google-auth-oauthlib
 google-cloud-storage
 groq
 yt_dlp
 uuid

 pandas
 openai>=1.16.2
 requests
 python-docx
 youtube-transcript-api
 moviepy
 google-auth-httplib2
 google-auth-oauthlib
 google-cloud-storage
+google-cloud-bigquery
 groq
 yt_dlp
 uuid