Spaces:

ex510
/

auto_cliper

Sleeping

App Files Files Community

aliSaac510 commited on Feb 19

Commit

276a4df

1 Parent(s): 0890748

fix arabic fonts

Browse files

Files changed (7) hide show

core/analyze.py +1 -1
core/free_translator.py +24 -59
core/stt.py +1 -1
core/subtitle_manager.py +1 -7
fix_fonts.py +26 -0
requirements.txt +2 -1
test_arabic.png +0 -0

core/analyze.py CHANGED Viewed

@@ -70,7 +70,7 @@ def analyze_transcript(transcript):
     for attempt in range(max_retries):
         try:
             response = client.chat.completions.create(
-                model="deepseek/deepseek-chat",
                 messages=[
                     {"role": "system", "content": "You are a helpful assistant that outputs only valid JSON."},
                     {"role": "user", "content": prompt}

     for attempt in range(max_retries):
         try:
             response = client.chat.completions.create(
+                model="nvidia/nemotron-3-nano-30b-a3b:free",
                 messages=[
                     {"role": "system", "content": "You are a helpful assistant that outputs only valid JSON."},
                     {"role": "user", "content": prompt}

core/free_translator.py CHANGED Viewed

@@ -1,70 +1,35 @@
-import os
-import json
-import urllib.request
 import urllib.parse
 class FreeTranslator:
     def __init__(self):
         pass
-    def translate_text(self, text, target_language_code, source_language_code="en"):
-        """ترجمة مجانية باستخدام MyMemory API بدون httpx"""
-        if not text.strip():
-            return "", []
-        # Handle same language case
-        if source_language_code.lower() == target_language_code.lower():
-            return text, []
-        target_lang = target_language_code.lower()
-        source_lang = source_language_code.lower()
         try:
-            # استخدام urllib بدلاً من requests لتجنب مشكلة httpx
-            url = "https://api.mymemory.translated.net/get"
-            params = {
-                'q': text,
-                'langpair': f'{source_lang}|{target_lang}'
-            }
-            # بناء URL مع parameters
-            full_url = url + '?' + urllib.parse.urlencode(params)
-            # استخدام urllib.request بدلاً من requests
-            req = urllib.request.Request(full_url)
-            req.add_header('User-Agent', 'Mozilla/5.0')
-            with urllib.request.urlopen(req, timeout=10) as response:
-                if response.status == 200:
-                    data = json.loads(response.read().decode())
-                    if data.get('responseStatus') == 200:
-                        translated_text = data['responseData']['translatedText']
-                        # تحديد الكلمات المهمة
-                        words = translated_text.split()
-                        highlight_words = []
-                        # كلمات حماسية شائعة
-                        exciting_words = [
-                            "amazing", "incredible", "awesome", "fantastic", "perfect", "best", "ultimate",
-                            "رائع", "مذهل", "أفضل", "مثالي", "خرافي", "لا يصدق", "عجيب"
-                        ]
-                        for word in words:
-                            clean_word = word.lower().strip(".,!?")
-                            if clean_word in exciting_words:
-                                highlight_words.append(word)
-                        # إذا مفيش كلمات حماسية، نختار أطول كلمتين
-                        if not highlight_words and len(words) >= 2:
-                            sorted_words = sorted(words, key=len, reverse=True)
-                            highlight_words = sorted_words[:2]
-                        return translated_text, highlight_words
-            # fallback: إرجاع النص الأصلي
-            return text, []
         except Exception as e:
-            print(f"⚠️ Error in free translation: {e}")
-            return text, []

+import requests
 import urllib.parse
+from deep_translator import GoogleTranslator
 class FreeTranslator:
     def __init__(self):
+        # deep-translator does not need base_url or API key
         pass
+    def translate_text(self, text, target_language_code, source_language_code="en"):
+        """
+        Translates text using deep-translator (Google Translate Web Interface).
+        Free, no API key required, and better context handling.
+        """
+        if not text or not text.strip():
+            return text, "No text provided"
+        # If source and target are same, return original
+        if source_language_code == target_language_code:
+            return text, None
         try:
+            # deep-translator handles long text and context better
+            # Note: GoogleTranslator auto-detects source if not provided, but we pass it for accuracy.
+            # 'auto' is supported by deep-translator if source is unknown.
+            src = source_language_code if source_language_code else 'auto'
+            translator = GoogleTranslator(source=src, target=target_language_code)
+            translated = translator.translate(text)
+            return translated, None
         except Exception as e:
+            # Fallback or error reporting
+            return text, f"Translation error: {str(e)}"

core/stt.py CHANGED Viewed

@@ -308,7 +308,7 @@ class STT:
         segments_iter, info = self.model.transcribe(
             video_path,
-            beam_size=5,
             word_timestamps=True,           # Always needed for standards & highlight_word
             language=actual_stt_lang,
             vad_filter=vad_filter,

         segments_iter, info = self.model.transcribe(
             video_path,
+            beam_size=1,
             word_timestamps=True,           # Always needed for standards & highlight_word
             language=actual_stt_lang,
             vad_filter=vad_filter,

core/subtitle_manager.py CHANGED Viewed

@@ -1,7 +1,6 @@
 """
 SubtitleManager — Viral YouTube Shorts Caption Engine
 Styles tuned for 2024-2025 Shorts/Reels/TikTok viral aesthetics.
 ✅ Fixes & Improvements:
    - Shadow layers now actually rendered (was `pass` in original)
    - active_word_index (int) replaces unreliable id() comparison
@@ -288,19 +287,15 @@ def _is_arabic_script(text: str) -> bool:
 def _prepare_display_text(raw: str, is_rtl: bool, language: str = None) -> str:
     """
     Prepares text for correct rendering in Pillow (PIL.ImageDraw).
     Pipeline for Arabic/Persian/Urdu:
       1. ArabicReshaper.reshape() — converts Unicode isolated codepoints to
          contextual presentation forms + joins ligatures.
          This is MANDATORY for Pillow because FreeType does NOT do this.
       2. bidi.get_display()       — reorders characters right-to-left.
     Pipeline for Hebrew:
       bidi.get_display() only — Hebrew has no contextual shaping requirement.
     Pipeline for Latin/Cyrillic:
       uppercase only.
     Pipeline for CJK/Thai/Devanagari:
       as-is (no uppercase, no bidi needed at the Pillow level).
     """
@@ -672,7 +667,6 @@ class SubtitleManager:
     ) -> list:
         """
         Generates all caption ImageClips ready for compositing.
         Arabic caption_style recommendations:
           "cairo_bold"   → best for Egyptian/Gulf social media content
           "tajawal_bold" → modern geometric, dark background, great readability
@@ -873,7 +867,7 @@ class SubtitleManager:
         caption_mode: str = "sentence",
         caption_style: str = "classic",
     ):
-        clips = SubtitleManager.create_caption_clips(
             transcript_data,
             size          = size,
             language      = language,

 """
 SubtitleManager — Viral YouTube Shorts Caption Engine
 Styles tuned for 2024-2025 Shorts/Reels/TikTok viral aesthetics.
 ✅ Fixes & Improvements:
    - Shadow layers now actually rendered (was `pass` in original)
    - active_word_index (int) replaces unreliable id() comparison
 def _prepare_display_text(raw: str, is_rtl: bool, language: str = None) -> str:
     """
     Prepares text for correct rendering in Pillow (PIL.ImageDraw).
     Pipeline for Arabic/Persian/Urdu:
       1. ArabicReshaper.reshape() — converts Unicode isolated codepoints to
          contextual presentation forms + joins ligatures.
          This is MANDATORY for Pillow because FreeType does NOT do this.
       2. bidi.get_display()       — reorders characters right-to-left.
     Pipeline for Hebrew:
       bidi.get_display() only — Hebrew has no contextual shaping requirement.
     Pipeline for Latin/Cyrillic:
       uppercase only.
     Pipeline for CJK/Thai/Devanagari:
       as-is (no uppercase, no bidi needed at the Pillow level).
     """
     ) -> list:
         """
         Generates all caption ImageClips ready for compositing.
         Arabic caption_style recommendations:
           "cairo_bold"   → best for Egyptian/Gulf social media content
           "tajawal_bold" → modern geometric, dark background, great readability
         caption_mode: str = "sentence",
         caption_style: str = "classic",
     ):
+        clips = SubtitleManager.create_caption_clips(
             transcript_data,
             size          = size,
             language      = language,

fix_fonts.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import os
+import glob
+from test_font import test_arabic_render
+def cleanup_fonts():
+    # List of potentially corrupt font files
+    fonts_to_check = ["Tajawal-Bold.ttf", "Cairo-Bold.ttf", "NotoSansArabic-Bold.ttf", "Rubik-Bold.ttf", "Montserrat-Bold.ttf"]
+    print("🧹 Cleaning up potentially corrupt font files...")
+    for font in fonts_to_check:
+        if os.path.exists(font):
+            try:
+                size = os.path.getsize(font)
+                # Delete if small (likely HTML error page) or just force refresh
+                print(f"   found {font} ({size} bytes) -> DELETING to force re-download.")
+                os.remove(font)
+            except Exception as e:
+                print(f"   ❌ Could not delete {font}: {e}")
+        else:
+            print(f"   {font} not found (good).")
+    print("\n🔄 Re-running font test (this will trigger new downloads)...")
+    test_arabic_render()
+if __name__ == "__main__":
+    cleanup_fonts()

requirements.txt CHANGED Viewed

@@ -16,4 +16,5 @@ openai>=1.0.0
 scipy
 json_repair
 tiktoken
-pydantic

 scipy
 json_repair
 tiktoken
+pydantic
+deep-translator

test_arabic.png ADDED Viewed