Spaces:

habulaj
/

subapi

Running

App Files Files Community

habulaj commited on Jan 28

Commit

8247684

verified ·

1 Parent(s): 52a8efd

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -2

app.py CHANGED Viewed

@@ -850,8 +850,7 @@ async def generate_subtitle_groq(request: GroqRequest):
         return JSONResponse(content={
             "srt": srt_filtered,
-            "srt_word": srt_word,
-            "processed_audio_url": processed_audio_url
         })
     except HTTPException:
@@ -861,6 +860,89 @@ async def generate_subtitle_groq(request: GroqRequest):
         traceback.print_exc()
         raise HTTPException(status_code=500, detail=f"Erro interno: {str(e)}")
 @app.get("/subtitle")
 async def generate_subtitle(
     file: str,

         return JSONResponse(content={
             "srt": srt_filtered,
+            "srt_word": srt_word
         })
     except HTTPException:
         traceback.print_exc()
         raise HTTPException(status_code=500, detail=f"Erro interno: {str(e)}")
+class GeminiSubtitleRequest(BaseModel):
+    url: str
+    has_bg_music: Optional[bool] = False
+    context: Optional[str] = "N/A"
+    model: Optional[str] = "flash" # 'flash' or 'thinking'
+@app.post("/subtitle/gemini")
+async def generate_subtitle_gemini(request: GeminiSubtitleRequest):
+    """
+    Endpoint PRINCIPAL:
+    1. Baixa e Processa áudio (Demucs opcional + Filtros FFmpeg)
+    2. Gera SRT base via Groq (Whisper)
+    3. Envia Áudio Processado + SRT Base + Prompt para Gemini
+    4. Gemini analisa entonação/contexto e traduz/corrige.
+    """
+    if not chatbots:
+        raise HTTPException(status_code=500, detail="Chatbot não inicializado")
+    try:
+        # 1. Obter SRT base + Caminho do áudio processado
+        print("🚀 Iniciando pipeline completo de legendagem Gemini...")
+        srt_filtered, srt_word, processed_audio_url = await get_groq_srt_base(
+            url=request.url,
+            language="en",
+            temperature=0.4,
+            has_bg_music=request.has_bg_music
+        )
+        # Converter URL /static/xyz.mp3 para path local
+        # processed_audio_url ex: "/static/audio_..."
+        filename = processed_audio_url.split("/")[-1]
+        processed_audio_path = os.path.join("static", filename)
+        if not os.path.exists(processed_audio_path):
+             raise HTTPException(status_code=500, detail=f"Arquivo de áudio processado não encontrado: {processed_audio_path}")
+        # 2. Selecionar Modelo Gemini
+        requested_model = request.model.lower()
+        chatbot_key = 'thinking' if 'thinking' in requested_model else 'flash'
+        chatbot = chatbots.get(chatbot_key, chatbots['default'])
+        print(f"🧠 [Gemini] Enviando SRT + Áudio para análise ({chatbot_key})...")
+        # 3. Montar Prompt
+        processed_context = request.context if request.context else "N/A"
+        prompt = f\"\"\"
+Traduza essa legenda pro português do Brasil, corrija qualquer erro de formatação, pontuação e mantenha timestamps e os textos nos seus respectivos blocos de legenda.
+Deve traduzir exatamente o texto da legenda observando o contexto, não é pra migrar, por exemplo, textos de um bloco de legenda pra outro. Deve traduzir exatamente o texto de cada bloco de legenda, manter sempre as palavras, nunca retirar.
+Mande o SRT completo, sem textos adicionais na resposta, apenas o SRT traduzido. Também analise o áudio anexado pra ver se algo foi legendado incorretamente ou errado, ou se algo não for legendado. Se não for, inclua, sem mudar o timestamp já existente. A legenda acima é uma base gerada pelo Whisper que precisa ser analisada e traduzida, não o resultado final.
+A legenda deve ser totalmente traduzida corretamente analisando o contexto e a entonação de falar. Se alguém estiver gritando, ESCREVA MAIÚSCULO! etc... Adapte gírias e qualquer coisa do tipo. Não deve ser literal a tradução, deve se adaptar.
+INSTRUÇÕES/CONTEXTO DO USUÁRIO: {processed_context}
+--- LEGENDA BASE (WHISPER) ---
+{srt_filtered}
+\"\"\"
+        # 4. Enviar para Gemini
+        response = await chatbot.ask(prompt, audio=processed_audio_path)
+        content = response.get("content", "")
+        if response.get("error"):
+            raise HTTPException(status_code=500, detail=f"Erro no Gemini: {content}")
+        # Limpar markdown do SRT se houver
+        cleaned_srt = clean_and_validate_srt(content)
+        return JSONResponse(content={
+            "srt": cleaned_srt,
+            "original_srt": srt_filtered,
+            "used_audio_processed": True
+        })
+    except Exception as e:
+        import traceback
+        traceback.print_exc()
+        raise HTTPException(status_code=500, detail=str(e))
 @app.get("/subtitle")
 async def generate_subtitle(
     file: str,