Spaces:

JunyiAcademy
/

vaitor2

Sleeping

App Files Files Community

youngtsai commited on Mar 5, 2024

Commit

11cdb15

1 Parent(s): 1e6cfb0

pw

Browse files

Files changed (1) hide show

app.py +137 -13

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ from bs4 import BeautifulSoup
 from docx import Document
 import os
 from openai import OpenAI
 import json
 from youtube_transcript_api import YouTubeTranscriptApi
@@ -55,11 +57,24 @@ TRANSCRIPTS = []
 CURRENT_INDEX = 0
 VIDEO_ID = ""
 OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
 OPEN_AI_CLIENT = OpenAI(api_key=OPEN_AI_KEY)
 DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 # ====gcs====
 def init_gcs_client(service_account_key_string):
     """使用服务账号密钥文件创建 GCS 客户端"""
@@ -293,7 +308,9 @@ def update_file_on_drive(service, file_id, file_content):
 # ----  Main Functions ----
-def process_file(file):
     # 读取文件
     if file.name.endswith('.csv'):
         df = pd.read_csv(file)
@@ -476,7 +493,9 @@ def process_transcript_and_screenshots_on_gcs(video_id):
     return updated_transcript_json
-def process_youtube_link(link):
     # 使用 YouTube API 获取逐字稿
     # 假设您已经获取了 YouTube 视频的逐字稿并存储在变量 `transcript` 中
     video_id = extract_youtube_id(link)
@@ -870,7 +889,9 @@ def get_questions(video_id, df_string, source="gcs"):
     print("=====get_questions=====")
     return q1, q2, q3
-def change_questions(df_string):
     questions = generate_questions(df_string)
     q1 = questions[0] if len(questions) > 0 else ""
     q2 = questions[1] if len(questions) > 1 else ""
@@ -882,7 +903,9 @@ def change_questions(df_string):
     print("=====get_questions=====")
     return q1, q2, q3
-def respond(user_message, data, chat_history, socratic_mode=False):
     print("=== 變數：user_message ===")
     print(user_message)
     print("=== 變數：chat_history ===")
@@ -966,7 +989,96 @@ def respond(user_message, data, chat_history, socratic_mode=False):
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history
-def chat_with_youtube_transcript(youtube_id, thread_id, trascript, user_message, chat_history, socratic_mode=False):
     # 先計算 user_message 是否超過 500 個字
     if len(user_message) > 1500:
         error_msg = "你的訊息太長了，請縮短訊息長度至五百字以內"
@@ -1068,6 +1180,7 @@ def chat_with_youtube_transcript(youtube_id, thread_id, trascript, user_message,
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history, thread.id
 def poll_run_status(run_id, thread_id, timeout=600, poll_interval=5):
     """
     Polls the status of a Run and handles different statuses appropriately.
@@ -1177,8 +1290,9 @@ HEAD = """
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column(scale=2):
             file_upload = gr.File(label="Upload your CSV or Word file", visible=False)
-            youtube_link = gr.Textbox(label="Enter YouTube Link")
             video_id = gr.Textbox(label="video_id", visible=False)
             youtube_link_btn = gr.Button("Submit_YouTube_Link")
             web_link = gr.Textbox(label="Enter Web Page Link", visible=False)
@@ -1188,6 +1302,10 @@ with gr.Blocks() as demo:
             msg = gr.Textbox(label="Message")
             send_button = gr.Button("Send")
         with gr.Column(scale=3):
             with gr.Tab("圖文"):
                 transcript_html = gr.HTML(label="YouTube Transcript and Video")
@@ -1260,27 +1378,33 @@ with gr.Blocks() as demo:
     # chat_with_youtube_transcript
     send_button.click(
         chat_with_youtube_transcript,
-        inputs=[video_id, thread_id, df_string_output, msg, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     # 连接按钮点击事件
     btn_1.click(
         chat_with_youtube_transcript,
-        inputs=[video_id, thread_id, df_string_output, btn_1, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     btn_2.click(
         chat_with_youtube_transcript,
-        inputs=[video_id, thread_id, df_string_output, btn_2, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     btn_3.click(
         chat_with_youtube_transcript,
-        inputs=[video_id, thread_id, df_string_output, btn_3, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
-    btn_create_question.click(change_questions, inputs = [df_string_output], outputs = [btn_1, btn_2, btn_3])
     # file_upload.change(process_file, inputs=file_upload, outputs=df_string_output)
     file_upload.change(process_file, inputs=file_upload, outputs=[btn_1, btn_2, btn_3, df_summarise, df_string_output])
@@ -1288,7 +1412,7 @@ with gr.Blocks() as demo:
     # 当输入 YouTube 链接时触发
     youtube_link.change(
         process_youtube_link,
-        inputs=youtube_link,
         outputs=[
             video_id,
             btn_1,
@@ -1307,7 +1431,7 @@ with gr.Blocks() as demo:
     youtube_link_btn.click(
         process_youtube_link,
-        inputs=youtube_link,
         outputs=[
             video_id,
             btn_1,

 from docx import Document
 import os
 from openai import OpenAI
+from groq import Groq
 import json
 from youtube_transcript_api import YouTubeTranscriptApi
 CURRENT_INDEX = 0
 VIDEO_ID = ""
+PASSWORD = os.getenv("PASSWORD")
 OPEN_AI_KEY = os.getenv("OPEN_AI_KEY")
 OPEN_AI_CLIENT = OpenAI(api_key=OPEN_AI_KEY)
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+GROQ_CLIENT = Groq(api_key=GROQ_API_KEY)
 DRIVE_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
 GCS_KEY = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+# 驗證 password
+def verify_password(password):
+    if password == PASSWORD:
+        return True
+    else:
+        raise gr.Error("密碼錯誤")
 # ====gcs====
 def init_gcs_client(service_account_key_string):
     """使用服务账号密钥文件创建 GCS 客户端"""
 # ----  Main Functions ----
+def process_file(password, file):
+    verify_password(password)
     # 读取文件
     if file.name.endswith('.csv'):
         df = pd.read_csv(file)
     return updated_transcript_json
+def process_youtube_link(password, link):
+    verify_password(password)
     # 使用 YouTube API 获取逐字稿
     # 假设您已经获取了 YouTube 视频的逐字稿并存储在变量 `transcript` 中
     video_id = extract_youtube_id(link)
     print("=====get_questions=====")
     return q1, q2, q3
+def change_questions(password, df_string):
+    verify_password(password)
     questions = generate_questions(df_string)
     q1 = questions[0] if len(questions) > 0 else ""
     q2 = questions[1] if len(questions) > 1 else ""
     print("=====get_questions=====")
     return q1, q2, q3
+def respond(password, user_message, data, chat_history, socratic_mode=False):
+    verify_password(password)
     print("=== 變數：user_message ===")
     print(user_message)
     print("=== 變數：chat_history ===")
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history
+def chat_with_groq(password, user_message, data, chat_history, socratic_mode=False):
+    verify_password(password)
+    print("=== 變數：user_message ===")
+    print(user_message)
+    print("=== 變數：chat_history ===")
+    print(chat_history)
+    data_json = json.loads(data)
+    for entry in data_json:
+        entry.pop('embed_url', None)  # Remove 'embed_url' if it exists
+        entry.pop('screenshot_path', None)
+    if socratic_mode:
+        sys_content = f"""
+            你是一個擅長資料分析跟影片教學的老師，user 為學生
+            請用 {data} 為資料文本，自行判斷資料的種類，
+            並進行對話，使用 台灣人的口與表達，及繁體中文zh-TW
+            如果是影片類型，不用解釋逐字稿格式，直接回答學生問題
+            請你用蘇格拉底式的提問方式，引導學生思考，並且給予學生一些提示
+            不要直接給予答案，讓學生自己思考
+            但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生自己去找答案
+            如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
+            或者你可以問學生一些問題，幫助學生更好的理解資料
+            如果學生的問題與資料文本無關，請告訴學生你無法回答超出範圍的問題
+            最後，在你回答的開頭標註【蘇格拉底助教】
+        """
+    else:
+        sys_content = f"""
+            你是一個擅長資料分析跟影片教學的老師，user 為學生
+            請用 {data} 為資料文本，自行判斷資料的種類，
+            並進行對話，使用 zh-TW
+            如果是影片類型，不用解釋逐字稿格式，直接回答學生問題
+            但可以給予一些提示跟引導，例如給予影片的時間軸，讓學生可以找到相對應的時間點
+            如果學生問了一些問題你無法判斷，請告訴學生你無法判斷，並建議學生可以問其他問題
+            或者你可以問學生一些問題，幫助學生更好的理解資料
+            如果學生的問題與資料文本無關，請告訴學生你無法回答超出範圍的問題
+        """
+    messages = [
+        {"role": "system", "content": sys_content}
+    ]
+    # if chat_history is not none, append role, content to messages
+    # chat_history = [(user, assistant), (user, assistant), ...]
+    # In the list, first one is user, then assistant
+    if chat_history is not None:
+        # 如果超過10則訊息，只保留最後10則訊息
+        if len(chat_history) > 10:
+            chat_history = chat_history[-10:]
+        for chat in chat_history:
+            old_messages = [
+                {"role": "user", "content": chat[0]},
+                {"role": "assistant", "content": chat[1]}
+            ]
+            messages += old_messages
+    else:
+        pass
+    messages.append({"role": "user", "content": user_message})
+    request_payload = {
+        "model": "mixtral-8x7b-32768",
+        "messages": messages,
+        "max_tokens": 4000  # 設定一個較大的值，可根據需要調整
+    }
+    response = GROQ_CLIENT.chat.completions.create(**request_payload)
+    response_text = response.choices[0].message.content.strip()
+    # 更新聊天历史
+    new_chat_history = (user_message, response_text)
+    if chat_history is None:
+        chat_history = [new_chat_history]
+    else:
+        chat_history.append(new_chat_history)
+    # 返回聊天历史和空字符串清空输入框
+    return "", chat_history
+def chat_with_youtube_transcript(password, youtube_id, thread_id, trascript, user_message, chat_history, socratic_mode=False):
+    verify_password(password)
     # 先計算 user_message 是否超過 500 個字
     if len(user_message) > 1500:
         error_msg = "你的訊息太長了，請縮短訊息長度至五百字以內"
     # 返回聊天历史和空字符串清空输入框
     return "", chat_history, thread.id
 def poll_run_status(run_id, thread_id, timeout=600, poll_interval=5):
     """
     Polls the status of a Run and handles different statuses appropriately.
 with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column(scale=2):
+            password = gr.Textbox(label="Password", type="password", elem_id="password_input")
             file_upload = gr.File(label="Upload your CSV or Word file", visible=False)
+            youtube_link = gr.Textbox(label="Enter YouTube Link", elem_id="youtube_link_input")
             video_id = gr.Textbox(label="video_id", visible=False)
             youtube_link_btn = gr.Button("Submit_YouTube_Link")
             web_link = gr.Textbox(label="Enter Web Page Link", visible=False)
             msg = gr.Textbox(label="Message")
             send_button = gr.Button("Send")
+            groq_chatbot = gr.Chatbot(label="groq mode chatbot")
+            groq_msg = gr.Textbox(label="Message")
+            groq_send_button = gr.Button("Send")
         with gr.Column(scale=3):
             with gr.Tab("圖文"):
                 transcript_html = gr.HTML(label="YouTube Transcript and Video")
     # chat_with_youtube_transcript
     send_button.click(
         chat_with_youtube_transcript,
+        inputs=[password, video_id, thread_id, df_string_output, msg, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
+    # GROQ 模式
+    groq_send_button.click(
+        chat_with_groq,
+        inputs=[password, groq_msg, df_string_output, groq_chatbot, socratic_mode_btn],
+        outputs=[groq_msg, groq_chatbot]
+    )
     # 连接按钮点击事件
     btn_1.click(
         chat_with_youtube_transcript,
+        inputs=[password, video_id, thread_id, df_string_output, btn_1, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     btn_2.click(
         chat_with_youtube_transcript,
+        inputs=[password, video_id, thread_id, df_string_output, btn_2, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
     btn_3.click(
         chat_with_youtube_transcript,
+        inputs=[password, video_id, thread_id, df_string_output, btn_3, chatbot, socratic_mode_btn],
         outputs=[msg, chatbot, thread_id]
     )
+    btn_create_question.click(change_questions, inputs = [password, df_string_output], outputs = [btn_1, btn_2, btn_3])
     # file_upload.change(process_file, inputs=file_upload, outputs=df_string_output)
     file_upload.change(process_file, inputs=file_upload, outputs=[btn_1, btn_2, btn_3, df_summarise, df_string_output])
     # 当输入 YouTube 链接时触发
     youtube_link.change(
         process_youtube_link,
+        inputs=[password,youtube_link],
         outputs=[
             video_id,
             btn_1,
     youtube_link_btn.click(
         process_youtube_link,
+        inputs=[password, youtube_link],
         outputs=[
             video_id,
             btn_1,