Spaces:

habulaj
/

subapi

Running

App Files Files Community

habulaj commited on Mar 9

Commit

8777a3d

verified ·

1 Parent(s): 42b76f9

Update main.py

Browse files

Files changed (1) hide show

main.py +1 -12

main.py CHANGED Viewed

@@ -492,7 +492,7 @@ async def generate_subtitle(request: GeminiSubtitleRequest):
         if not os.path.exists(processed_audio_path): processed_audio_path = os.path.join("static", "processed", filename)
         # Contexto padrão solicitado caso não haja
-        default_context = "Separe as legendas quando houver muito texto concentrado em apenas uma. Divida o conteúdo de forma adequada e faça a tradução com precisão. Se necessário, use o timing das falas (palavra por palavra) como referência para separar as legendas corretamente. NUNCA legende músicas, apenas diálogos falados."
         if request.context and request.context.strip() != "N/A":
             contexto_final = f"{default_context}\n\nCONTEXTO ADICIONAL DO USUÁRIO:\n{request.context.strip()}"
@@ -508,14 +508,6 @@ Deve traduzir exatamente o texto da legenda observando o contexto, não é pra m
 Mande o SRT completo, sem textos adicionais na resposta, apenas o SRT traduzido. A legenda acima é uma base gerada pelo Whisper que precisa ser limpa e traduzida, não o resultado final.
 A legenda deve ser totalmente traduzida corretamente analisando o contexto e a entonação de falar. Se alguém estiver gritando, ESCREVA MAIÚSCULO! etc... Adapte gírias e qualquer coisa do tipo. Não deve ser literal a tradução, deve se adaptar.
-TIMING E TIMESTAMPS:
-- Abaixo da legenda base (SRT), você receberá também os TIMESTAMPS POR PALAVRA (word-level) gerados pelo Whisper.
-- Esses timestamps indicam o início e fim exato de cada palavra falada no áudio.
-- USE esses timestamps para verificar se os blocos de legenda estão sincronizados corretamente.
-- Se perceber que uma palavra está no bloco errado (começa depois do timestamp do bloco seguinte, por exemplo), MOVA-A para o bloco correto.
-- Se precisar criar novos blocos ou ajustar timestamps, baseie-se nos timestamps word-level para garantir precisão.
-- Os timestamps por palavra são a fonte de verdade para saber QUANDO cada palavra é falada.
 MÚSICA E LETRAS:
 - NUNCA LEGENDE MÚSICAS OU CANÇÕES.
 - Se houver música de fundo ou pessoas cantando uma música, IGNORE COMPLETAMENTE e não inclua na legenda.
@@ -588,9 +580,6 @@ INSTRUÇÕES/CONTEXTO DO USUÁRIO (OPCIONAL): {contexto_final}
 --- LEGENDA BASE (WHISPER) ---
 {srt_filtered}
---- TIMESTAMPS POR PALAVRA (WORD-LEVEL) ---
-{word_level_text}
 """
         model_obj = get_gemini_model(request.model)
         response_gemini = await client.generate_content(prompt, files=[processed_audio_path], model=model_obj)

         if not os.path.exists(processed_audio_path): processed_audio_path = os.path.join("static", "processed", filename)
         # Contexto padrão solicitado caso não haja
+        default_context = "NUNCA legende músicas, apenas diálogos falados. Nunca altere o timing das legendas, deve ser exatamente igual ao original de referência."
         if request.context and request.context.strip() != "N/A":
             contexto_final = f"{default_context}\n\nCONTEXTO ADICIONAL DO USUÁRIO:\n{request.context.strip()}"
 Mande o SRT completo, sem textos adicionais na resposta, apenas o SRT traduzido. A legenda acima é uma base gerada pelo Whisper que precisa ser limpa e traduzida, não o resultado final.
 A legenda deve ser totalmente traduzida corretamente analisando o contexto e a entonação de falar. Se alguém estiver gritando, ESCREVA MAIÚSCULO! etc... Adapte gírias e qualquer coisa do tipo. Não deve ser literal a tradução, deve se adaptar.
 MÚSICA E LETRAS:
 - NUNCA LEGENDE MÚSICAS OU CANÇÕES.
 - Se houver música de fundo ou pessoas cantando uma música, IGNORE COMPLETAMENTE e não inclua na legenda.
 --- LEGENDA BASE (WHISPER) ---
 {srt_filtered}
 """
         model_obj = get_gemini_model(request.model)
         response_gemini = await client.generate_content(prompt, files=[processed_audio_path], model=model_obj)