Spaces:

RobotsMali
/

RobotsMali_Video_captionning

Sleeping

App Files Files Community

binaryMao commited on Oct 30, 2025

Commit

fcf99ec

verified ·

1 Parent(s): 8f9582a

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -19

app.py CHANGED Viewed

@@ -8,12 +8,14 @@ torch.set_grad_enabled(False)
 import gradio as gr
 import numpy as np
 import soundfile as sf
 from moviepy.editor import VideoFileClip, CompositeVideoClip, ImageClip
 from PIL import Image, ImageDraw, ImageFont
 from nemo.collections import asr as nemo_asr
-# ---------------- GLOBAL CONFIG ---------------- #
 os.environ["NEMO_FORCE_CPU"] = "1"
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
@@ -44,10 +46,10 @@ def load_model(name):
     return model, device
-# ---------------- EXTRACT AUDIO (FORCE MONO) ---------------- #
 def extract_audio(video_path, wav_path):
     if os.path.getsize(video_path) > MAX_VIDEO_BYTES:
-        raise RuntimeError("⚠️ Vidéo trop lourde (>200MB). Compressez avant l’upload.")
     os.system(f"ffmpeg -y -i '{video_path}' -ac 1 -ar {SR} -vn '{wav_path}' >/dev/null 2>&1")
     audio, sr = sf.read(wav_path)
     return len(audio)/sr
@@ -65,7 +67,7 @@ def transcribe(model, device, wav_path, model_key):
     x = torch.tensor(audio, dtype=torch.float32).unsqueeze(0).to(device)
     ln = torch.tensor([x.shape[1]]).to(device)
-    # ✅ Real timestamps for Soloni
     if "Soloni" in model_key and hasattr(model, "decode_and_align"):
         try:
             with torch.no_grad():
@@ -77,14 +79,14 @@ def transcribe(model, device, wav_path, model_key):
         except:
             pass
-    # ✅ Universal fallback (Soloba + QuartzNet + backup Soloni)
     out = model.transcribe([wav_path])[0]
     text = out.text.strip() if hasattr(out, "text") else str(out).strip()
     words = text.split()
     if not words:
         return []
-    wps = max(2.0, len(words) / total_s)  # words per second
     subs, t = [], 0
     for w in words:
         d = 1 / wps
@@ -106,15 +108,23 @@ def burn(video_path, subs):
     layers = []
     for s, e, w in subs:
-        if e <= s:
-            continue
-        img = Image.new("RGBA", (W, int(H*0.12)), (0, 0, 0, 140))
         draw = ImageDraw.Draw(img)
         text = w.upper()
-        tw, th = draw.textsize(text, font=font)
-        draw.text(((W-tw)//2, (H*0.12-th)//2), text, font=font, fill=(255,255,255))
         img_clip = ImageClip(np.array(img)).set_start(s).set_duration(e-s).set_position(("center", int(H*0.85)))
         layers.append(img_clip)
@@ -122,7 +132,6 @@ def burn(video_path, subs):
     final = CompositeVideoClip([clip] + layers)
     out = "RobotsMali_Subtitled.mp4"
     final.write_videofile(out, codec="libx264", audio_codec="aac", fps=clip.fps, verbose=False, logger=None)
     clip.close()
     final.close()
     return out
@@ -135,18 +144,15 @@ def pipeline(video, model_name, progress=gr.Progress()):
     with tempfile.TemporaryDirectory() as td:
         wav = f"{td}/audio.wav"
-        progress(0.4, "🔊 Extraction audio…")
         extract_audio(video, wav)
-        progress(0.7, "🧠 Transcription…")
         subs = transcribe(model, device, wav, model_name)
-        if not subs:
-            return "⚠️ Aucun mot reconnu.", None
     progress(0.95, "🎞️ Incrustation…")
     out = burn(video, subs)
-    return f"✅ Sous-titres générés avec **{model_name}**", out
 # ---------------- UI ---------------- #
@@ -157,7 +163,7 @@ h1 { text-align:center; font-weight:800; color:#005BFF; margin-bottom:6px; }
 """
 with gr.Blocks(css=CSS, title="RobotsMali Caption Studio") as demo:
-    gr.Markdown("<h1>RobotsMali Caption Studio</h1><p>Sous-titrage Automatique en Bambara</p>")
     video = gr.File(label="🎥 Importer une vidéo")
     model = gr.Dropdown(list(ASR_MODELS.keys()), value="Soloni 114M TDT CTC V1", label="🧠 Modèle ASR")
     run = gr.Button("🚀 Générer les sous-titres")

 import gradio as gr
 import numpy as np
 import soundfile as sf
 from moviepy.editor import VideoFileClip, CompositeVideoClip, ImageClip
 from PIL import Image, ImageDraw, ImageFont
 from nemo.collections import asr as nemo_asr
+# ---------------- CONFIG ---------------- #
 os.environ["NEMO_FORCE_CPU"] = "1"
 os.environ["TOKENIZERS_PARALLELISM"] = "false"
     return model, device
+# ---------------- EXTRACT AUDIO ---------------- #
 def extract_audio(video_path, wav_path):
     if os.path.getsize(video_path) > MAX_VIDEO_BYTES:
+        raise RuntimeError("⚠️ Vidéo > 200MB. Compressez avant l’upload.")
     os.system(f"ffmpeg -y -i '{video_path}' -ac 1 -ar {SR} -vn '{wav_path}' >/dev/null 2>&1")
     audio, sr = sf.read(wav_path)
     return len(audio)/sr
     x = torch.tensor(audio, dtype=torch.float32).unsqueeze(0).to(device)
     ln = torch.tensor([x.shape[1]]).to(device)
+    # ✅ Soloni real timestamps
     if "Soloni" in model_key and hasattr(model, "decode_and_align"):
         try:
             with torch.no_grad():
         except:
             pass
+    # ✅ Universal fallback for Soloba + QuartzNet
     out = model.transcribe([wav_path])[0]
     text = out.text.strip() if hasattr(out, "text") else str(out).strip()
     words = text.split()
     if not words:
         return []
+    wps = max(2.0, len(words) / total_s)
     subs, t = [], 0
     for w in words:
         d = 1 / wps
     layers = []
     for s, e, w in subs:
+        if e <= s: continue
+        img = Image.new("RGBA", (W, int(H*0.12)), (0,0,0,140))
         draw = ImageDraw.Draw(img)
         text = w.upper()
+        # ✅ Pillow 10+ compatible text size
+        try:
+            bbox = draw.textbbox((0,0), text, font=font)
+            tw, th = bbox[2]-bbox[0], bbox[3]-bbox[1]
+        except:
+            tw, th = draw.textsize(text, font=font)
+        x = (W - tw) // 2
+        y = (int(H*0.12) - th) // 2
+        draw.text((x, y), text, font=font, fill=(255,255,255))
         img_clip = ImageClip(np.array(img)).set_start(s).set_duration(e-s).set_position(("center", int(H*0.85)))
         layers.append(img_clip)
     final = CompositeVideoClip([clip] + layers)
     out = "RobotsMali_Subtitled.mp4"
     final.write_videofile(out, codec="libx264", audio_codec="aac", fps=clip.fps, verbose=False, logger=None)
     clip.close()
     final.close()
     return out
     with tempfile.TemporaryDirectory() as td:
         wav = f"{td}/audio.wav"
+        progress(0.5, "🔊 Extraction audio…")
         extract_audio(video, wav)
+        progress(0.75, "🧠 Transcription…")
         subs = transcribe(model, device, wav, model_name)
     progress(0.95, "🎞️ Incrustation…")
     out = burn(video, subs)
+    return f"✅ Sous-titrage généré avec **{model_name}**", out
 # ---------------- UI ---------------- #
 """
 with gr.Blocks(css=CSS, title="RobotsMali Caption Studio") as demo:
+    gr.Markdown("<h1>RobotsMali Caption Studio</h1><p>Sous-titrage automatique en Bambara</p>")
     video = gr.File(label="🎥 Importer une vidéo")
     model = gr.Dropdown(list(ASR_MODELS.keys()), value="Soloni 114M TDT CTC V1", label="🧠 Modèle ASR")
     run = gr.Button("🚀 Générer les sous-titres")