Spaces:

Realmeas
/

Myblinkcaption

Paused

App Files Files Community

Realmeas commited on Oct 17, 2025

Commit

90e9f32

verified ·

1 Parent(s): 47d8439

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -8,7 +8,7 @@
 #    - Lyrics mode: Enable word_timestamps for music-like precision.
 #    - Trim: Skip short/silent segments (<0.5s).
 # 4. Enhancements: Word emphasis (e.g., wrap "wow" in bold/color tags).
-# 5. Translation: Optional to 120+ langs via argostranslate (pre-install common packs).
 # 6. ASS subtitle creation: Styled with fonts/colors/sizes/positions/animations/emojis.
 # 7. Burn to video: FFmpeg overlays HD output, no watermark.
 # 8. UI: Simple, free, viral-ready for Reels/YouTube.
@@ -21,10 +21,7 @@ from transformers import pipeline
 import torch
 import ffmpeg
 from yt_dlp import YoutubeDL
-from googletrans import Translator  # Fallback to googletrans for simplicity (argos heavy for 120+ langs)
-# Note: For argostranslate, uncomment below and pre-install packs in HF Space Dockerfile if needed.
-# from argostranslate import package, translate
-# package.update_package_index()  # Run once
 # Model options (lighter for speed)
 MODEL_CHOICES = {
@@ -96,13 +93,13 @@ def transcribe_audio(audio_path, model_name, lyrics_mode, progress=gr.Progress()
     # Generate kwargs for accuracy boost (transcribe task, auto lang for Hinglish)
     generate_kwargs = {"task": "transcribe", "language": None}  # Auto-detect Hindi/English mix
     if lyrics_mode:
-        generate_kwargs["word_timestamps"] = True  # Lyrics precision
     progress(0.5, desc="Transcribing...")
     result = pipe(audio_path, generate_kwargs=generate_kwargs)
-    # Extract segments, trim silences (short <0.5s)
-    segments = result.get('chunks', [])
     trimmed_segments = [s for s in segments if (s['end'] - s['start']) > 0.5]
     progress(1, desc="Transcription complete!")
@@ -112,7 +109,10 @@ def translate_text(text, target_lang):
     """Optional translation (Blink-like: 120+ langs)."""
     if target_lang == "en":  # No translate
         return text
-    return translator.translate(text, dest=target_lang).text
 def create_ass_subtitles(segments, font, color, size, position, emphasis_words, target_lang, progress=gr.Progress()):
     """Create ASS subtitles (styled like Blink: fonts/colors/emojis/highlights/animations)."""
@@ -147,10 +147,10 @@ Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
         end = f"{int(seg['end']*100)}"
         text = translate_text(seg['text'].strip(), target_lang)
-        # Word emphasis/highlights (e.g., make "wow" pop with bold/color)
         for word in emphasis_words:
             if word.lower() in text.lower():
-                text = text.replace(word, f"{{\\b1\\c{&HFF0000&}}}" + word + "{\\b0}")
         # Add emoji example (Blink-like: one-click emojis)
         if "!" in text:
@@ -213,7 +213,7 @@ def main_process(
         raise gr.Error("No speech detected!")
     # Emphasis words
-    emphasis_words = emphasis_words_str.split(',') if emphasis_words_str else []
     # Create styled ASS
     ass_path = create_ass_subtitles(segments, font, color, size, position, emphasis_words, target_lang, progress)
@@ -232,9 +232,9 @@ def main_process(
         f.write(srt_content)
         srt_path = f.name
-    # Preview thumbnail (simple FFmpeg extract)
     thumb_path = video_path.rsplit('.', 1)[0] + '_thumb.jpg'
-    ffmpeg.input(video_path, ss=1).output(thumb_path, vframes=1).run(quiet=True)
     return output_video, srt_path, thumb_path

 #    - Lyrics mode: Enable word_timestamps for music-like precision.
 #    - Trim: Skip short/silent segments (<0.5s).
 # 4. Enhancements: Word emphasis (e.g., wrap "wow" in bold/color tags).
+# 5. Translation: Optional to 120+ langs via googletrans (stable version).
 # 6. ASS subtitle creation: Styled with fonts/colors/sizes/positions/animations/emojis.
 # 7. Burn to video: FFmpeg overlays HD output, no watermark.
 # 8. UI: Simple, free, viral-ready for Reels/YouTube.
 import torch
 import ffmpeg
 from yt_dlp import YoutubeDL
+from googletrans import Translator  # Stable version now
 # Model options (lighter for speed)
 MODEL_CHOICES = {
     # Generate kwargs for accuracy boost (transcribe task, auto lang for Hinglish)
     generate_kwargs = {"task": "transcribe", "language": None}  # Auto-detect Hindi/English mix
     if lyrics_mode:
+        generate_kwargs["word_timestamps"] = True  # Lyrics precision (supported in v3)
     progress(0.5, desc="Transcribing...")
     result = pipe(audio_path, generate_kwargs=generate_kwargs)
+    # Extract segments, trim silences (short <0.5s) - FIXED: 'segments' not 'chunks'
+    segments = result.get('segments', [])
     trimmed_segments = [s for s in segments if (s['end'] - s['start']) > 0.5]
     progress(1, desc="Transcription complete!")
     """Optional translation (Blink-like: 120+ langs)."""
     if target_lang == "en":  # No translate
         return text
+    try:
+        return translator.translate(text, dest=target_lang).text
+    except Exception:
+        return text  # Fallback on error
 def create_ass_subtitles(segments, font, color, size, position, emphasis_words, target_lang, progress=gr.Progress()):
     """Create ASS subtitles (styled like Blink: fonts/colors/emojis/highlights/animations)."""
         end = f"{int(seg['end']*100)}"
         text = translate_text(seg['text'].strip(), target_lang)
+        # Word emphasis/highlights (case-insensitive check, FIXED)
         for word in emphasis_words:
             if word.lower() in text.lower():
+                text = text.replace(word, f"{{\\b1\\c&HFF0000&}}{word}{{\\b0}}", 1)  # Red bold, limit to 1 replace
         # Add emoji example (Blink-like: one-click emojis)
         if "!" in text:
         raise gr.Error("No speech detected!")
     # Emphasis words
+    emphasis_words = [w.strip() for w in emphasis_words_str.split(',') if w.strip()] if emphasis_words_str else []
     # Create styled ASS
     ass_path = create_ass_subtitles(segments, font, color, size, position, emphasis_words, target_lang, progress)
         f.write(srt_content)
         srt_path = f.name
+    # Preview thumbnail (simple FFmpeg extract, FIXED: use run)
     thumb_path = video_path.rsplit('.', 1)[0] + '_thumb.jpg'
+    ffmpeg.input(video_path, ss=1).output(thumb_path, vframes=1).run(quiet=True, overwrite_output=True)
     return output_video, srt_path, thumb_path