Spaces:

AlserFurma
/

LipSyncAI

Sleeping

App Files Files Community

AlserFurma commited on Dec 1, 2025

Commit

1873d97

verified ·

1 Parent(s): 2790177

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -34

app.py CHANGED Viewed

@@ -29,17 +29,17 @@ try:
     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
     tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-kaz")
-    # Перевод ru → kk
     translator = pipeline(
         "translation",
         model="facebook/nllb-200-distilled-600M",
         device=0 if device == "cuda" else -1
     )
-    # Генерация вопросов → стабильная модель
     qa_model = pipeline(
         "text2text-generation",
-        model="google/t5-base",
         device=0 if device == "cuda" else -1
     )
@@ -55,35 +55,33 @@ except Exception as e:
 def generate_quiz(text: str):
     prompt = (
-        "Ты — генератор учебных вопросов.\n"
-        "Верни ТОЛЬКО JSON, строго по формату:\n"
         "{\n"
         "  \"question\": \"...\",\n"
         "  \"correct\": \"...\",\n"
         "  \"wrong\": \"...\"\n"
         "}\n"
-        "Без комментариев, без пояснений.\n"
         f"TEXT: {text}"
     )
-    # --- 1. Генерация ---
     out = qa_model(prompt, max_new_tokens=200)[0]["generated_text"].strip()
-    # --- 2. Повторная попытка при пустом выводе ---
     if not out:
         out = qa_model(prompt, max_new_tokens=200)[0]["generated_text"].strip()
         if not out:
             raise ValueError("Модель дважды вернула пустой ответ.")
-    # --- 3. Попытка извлечь JSON из текста ---
     try:
         json_str = out[out.index("{"): out.rindex("}") + 1]
     except Exception:
-        # fallback — попытка вытащить вручную
-        q = re.search(r'"?question"?\s*[:=]\s*[\'"](.+?)[\'"]', out, re.I)
-        c = re.search(r'"?correct"?\s*[:=]\s*[\'"](.+?)[\'"]', out, re.I)
-        w = re.search(r'"?wrong"?\s*[:=]\s*[\'"](.+?)[\'"]', out, re.I)
         if q and c and w:
             json_str = json.dumps({
                 "question": q.group(1),
@@ -93,7 +91,6 @@ def generate_quiz(text: str):
         else:
             raise ValueError(f"Модель вывела неподходящий формат:\n{out}")
-    # чистка JSON
     json_str = json_str.replace("\n", "")
     try:
@@ -106,7 +103,7 @@ def generate_quiz(text: str):
     wrong = data.get("wrong", "").strip()
     if not (question and correct and wrong):
-        raise ValueError(f"Некорректные данные JSON:\n{data}")
     options = [correct, wrong]
     random.shuffle(options)
@@ -115,7 +112,7 @@ def generate_quiz(text: str):
 # =========================
-# Синтез голоса на казахском
 # =========================
 def synthesize_audio(text_ru: str):
@@ -128,7 +125,7 @@ def synthesize_audio(text_ru: str):
     waveform = output.waveform.squeeze().cpu().numpy()
     audio = (waveform * 32767).astype("int16")
-    sr = getattr(tts_model.config, 'sampling_rate', 22050)
     tmp = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     wavfile.write(tmp.name, sr, audio)
@@ -137,7 +134,7 @@ def synthesize_audio(text_ru: str):
 # =========================
-# Talking Head API
 # =========================
 def make_talking_head(image_path: str, audio_path: str):
@@ -162,7 +159,7 @@ def start_lesson(image: Image.Image, text: str, state):
     if image is None:
         return None, "Загрузите фото", [], state
     if not text:
-        return None, "Введите текст лекции", [], state
     if len(text) > 500:
         return None, "Текст слишком длинный", [], state
@@ -194,15 +191,15 @@ def start_lesson(image: Image.Image, text: str, state):
 # =========================
-# Шаг 2 — реакция на ответ
 # =========================
 def answer_selected(selected_option: str, state):
     if not state:
         return None, "Ошибка: урок не запущен"
-    correct = state.get("correct")
-    image_path = state.get("image_path")
     if selected_option == correct:
         reply_ru = "Молодец!"
@@ -218,22 +215,16 @@ def answer_selected(selected_option: str, state):
 # =========================
-# UI
 # =========================
-title = "🎓 Интерактивный бейне-лектор"
-description = (
-    "Загрузите фото + текст лекции (рус.). Система задаст вопрос и предложит варианты.\n"
-    "Ответ — и лектор отреагирует (қазақша)."
-)
 with gr.Blocks() as demo:
-    gr.Markdown(f"# {title}\n{description}")
     with gr.Row():
         with gr.Column():
             inp_image = gr.Image(type="pil", label="Фото лектора")
-            inp_text = gr.Textbox(lines=4, label="Текст лекции (до 500 символов)")
             btn_start = gr.Button("Запустить урок")
         with gr.Column():
@@ -248,8 +239,8 @@ with gr.Blocks() as demo:
     btn_start.click(
         start_lesson,
-        inputs=[inp_image, inp_text, state],
-        outputs=[out_video, out_question, btn_opt1, btn_opt2, state]
     )
     btn_opt1.click(answer_selected, [btn_opt1, state], [out_react, out_status])

     tts_model = VitsModel.from_pretrained("facebook/mms-tts-kaz").to(device)
     tts_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-kaz")
+    # Перевод ru -> kk
     translator = pipeline(
         "translation",
         model="facebook/nllb-200-distilled-600M",
         device=0 if device == "cuda" else -1
     )
+    # Генерация учебных вопросов (стабильная CPU-модель)
     qa_model = pipeline(
         "text2text-generation",
+        model="t5-base",   # <-- ВАЖНО: существующая стабильная модель!
         device=0 if device == "cuda" else -1
     )
 def generate_quiz(text: str):
     prompt = (
+        "Сгенерируй учебный вопрос по тексту и дай один правильный и один неправильный ответ. "
+        "Верни ТОЛЬКО JSON без комментариев:\n"
         "{\n"
         "  \"question\": \"...\",\n"
         "  \"correct\": \"...\",\n"
         "  \"wrong\": \"...\"\n"
         "}\n"
         f"TEXT: {text}"
     )
+    # 1. Генерация
     out = qa_model(prompt, max_new_tokens=200)[0]["generated_text"].strip()
+    # 2. Повторная попытка при пустом выводе
     if not out:
         out = qa_model(prompt, max_new_tokens=200)[0]["generated_text"].strip()
         if not out:
             raise ValueError("Модель дважды вернула пустой ответ.")
+    # 3. Извлечение JSON
     try:
         json_str = out[out.index("{"): out.rindex("}") + 1]
     except Exception:
+        # fallback
+        q = re.search(r'"?question"?\s*[:=]\s*[\'"](.+?)[\'"]', out)
+        c = re.search(r'"?correct"?\s*[:=]\s*[\'"](.+?)[\'"]', out)
+        w = re.search(r'"?wrong"?\s*[:=]\s*[\'"](.+?)[\'"]', out)
         if q and c and w:
             json_str = json.dumps({
                 "question": q.group(1),
         else:
             raise ValueError(f"Модель вывела неподходящий формат:\n{out}")
     json_str = json_str.replace("\n", "")
     try:
     wrong = data.get("wrong", "").strip()
     if not (question and correct and wrong):
+        raise ValueError("JSON не содержит нужных полей")
     options = [correct, wrong]
     random.shuffle(options)
 # =========================
+# Синтез речи
 # =========================
 def synthesize_audio(text_ru: str):
     waveform = output.waveform.squeeze().cpu().numpy()
     audio = (waveform * 32767).astype("int16")
+    sr = getattr(tts_model.config, "sampling_rate", 22050)
     tmp = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     wavfile.write(tmp.name, sr, audio)
 # =========================
+# Talking Head
 # =========================
 def make_talking_head(image_path: str, audio_path: str):
     if image is None:
         return None, "Загрузите фото", [], state
     if not text:
+        return None, "Введите текст", [], state
     if len(text) > 500:
         return None, "Текст слишком длинный", [], state
 # =========================
+# Шаг 2 — реакция
 # =========================
 def answer_selected(selected_option: str, state):
     if not state:
         return None, "Ошибка: урок не запущен"
+    correct = state["correct"]
+    image_path = state["image_path"]
     if selected_option == correct:
         reply_ru = "Молодец!"
 # =========================
+# Интерфейс
 # =========================
 with gr.Blocks() as demo:
+    gr.Markdown("# 🎓 Интерактивный бейне-лектор")
     with gr.Row():
         with gr.Column():
             inp_image = gr.Image(type="pil", label="Фото лектора")
+            inp_text = gr.Textbox(lines=4, label="Текст лекции (рус.)")
             btn_start = gr.Button("Запустить урок")
         with gr.Column():
     btn_start.click(
         start_lesson,
+        [inp_image, inp_text, state],
+        [out_video, out_question, btn_opt1, btn_opt2, state]
     )
     btn_opt1.click(answer_selected, [btn_opt1, state], [out_react, out_status])