Spaces:

dieumercimvemba
/

dm

Running

App Files Files Community

dieumercimvemba commited on Dec 21, 2025

Commit

89d6539

verified ·

1 Parent(s): 0c56516

Ajout des paramètres Avancer

Browse files

Files changed (1) hide show

data/generate_subtitles.py +20 -28

data/generate_subtitles.py CHANGED Viewed

@@ -1,50 +1,42 @@
 # Fichier: /data/generate_subtitles.py
 import sys
-import whisper
-import torch
 import json
 import os
-def format_timestamp(seconds: float):
-    """Formatage SRT standard (00:00:00,000)"""
-    td = float(seconds)
-    hours = int(td // 3600)
-    minutes = int((td % 3600) // 60)
-    secs = int(td % 60)
-    msecs = int((td - int(td)) * 1000)
-    return f"{hours:02d}:{minutes:02d}:{secs:02d},{msecs:03d}"
 def run():
-    # On attend 2 arguments : l'audio d'entrée et le SRT de sortie
-    if len(sys.argv) < 3:
-        error = {"status": "error", "message": "Usage: python3 generate_subtitles.py <input_audio> <output_srt>"}
         print(json.dumps(error))
         sys.exit(1)
     input_audio = sys.argv[1]
     output_srt = sys.argv[2]
     try:
-        # Chargement du modèle Whisper (base est idéal pour le français)
-        model = whisper.load_model("base")
-        # Transcription avec calcul des segments
-        result = model.transcribe(input_audio, language="fr", fp16=torch.cuda.is_available())
-        # Création du fichier SRT personnalisé
-        with open(output_srt, "w", encoding="utf-8") as srt:
-            for i, segment in enumerate(result['segments'], start=1):
-                start = format_timestamp(segment['start'])
-                end = format_timestamp(segment['end'])
-                text = segment['text'].strip()
-                srt.write(f"{i}\n{start} --> {end}\n{text}\n\n")
         # Réponse JSON pour n8n
         response = {
             "status": "success",
-            "input_file": input_audio,
             "output_file": output_srt,
-            "full_text": result["text"]
         }
         print(json.dumps(response))

 # Fichier: /data/generate_subtitles.py
 import sys
+import stable_whisper
 import json
 import os
 def run():
+    # On attend 3 arguments : l'audio, le SRT de sortie, et le TEXTE ORIGINAL
+    if len(sys.argv) < 4:
+        error = {"status": "error", "message": "Usage: python3 generate_subtitles.py <input_audio> <output_srt> <original_text>"}
         print(json.dumps(error))
         sys.exit(1)
     input_audio = sys.argv[1]
     output_srt = sys.argv[2]
+    original_text = sys.argv[3]
     try:
+        # 1. Chargement de stable-whisper (plus précis pour le timing)
+        model = stable_whisper.load_model("base")
+        # 2. Transcription forcée avec le texte original (initial_prompt)
+        # Cela empêche Whisper d'inventer des mots si Tacotron prononce mal
+        result = model.transcribe(
+            input_audio,
+            language="fr",
+            initial_prompt=original_text,
+            vad=True # Détecte le silence pour s'arrêter pile quand l'audio finit
+        )
+        # 3. Génération du SRT avec balises Karaoké (word_level=True)
+        # C'est ce paramètre qui permet au bleu de défiler mot par mot
+        result.to_srt_vtt(output_srt, word_level=True)
         # Réponse JSON pour n8n
         response = {
             "status": "success",
             "output_file": output_srt,
+            "text_detected": result.text
         }
         print(json.dumps(response))