Spaces:

armyneo
/

srtconvert

Runtime error

App Files Files Community

armyneo commited on Nov 28, 2025

Commit

f41a98c

verified ·

1 Parent(s): 18c13e3

fix for turkish characters

Browse files

Files changed (1) hide show

app.py +55 -19

app.py CHANGED Viewed

@@ -76,7 +76,6 @@ def translate_en_tr(text: str) -> str:
             continue
         try:
-            # docs'a uygun çağrı
             result = client.translation(
                 text=line,
                 model=HF_MODEL,
@@ -84,8 +83,7 @@ def translate_en_tr(text: str) -> str:
             translated = _extract_translation_text(result)
         except Exception as e:
             print("HF translation error:", repr(e))
-            # fallback: orijinal satırı kullan
-            translated = line
         out_lines.append(translated)
@@ -100,7 +98,8 @@ def parse_srt(path: Path):
     """
     SRT -> [{index, start, end, text}, ...]
     """
-    raw = path.read_text(encoding="utf-8-sig", errors="ignore").strip()
     blocks = re.split(r"\n\s*\n", raw)
     subs = []
@@ -148,21 +147,48 @@ def parse_srt(path: Path):
 # ======================================================
-# 3) KARAKTER ÇIKARMA + TEXT TEMİZLEME
 # ======================================================
 speaker_pattern = re.compile(
-    r'^\s*(?:>{1,3}\s*)?(?:-+\s*)?'
-    r'(?P<name>(?:[A-Z][A-Z0-9.\']+(?:\s+[A-Z][A-Z0-9.\']+){0,4}))'
-    r'\s*:\s*(?P<after>.*)$'
 )
 def extract_character_and_clean_text(block: str):
     """
     block içinden:
-      - Character: ilk NAME:
       - TEXT: NAME: prefix'leri atılmış metin
     """
     if not block:
         return "", ""
@@ -179,13 +205,21 @@ def extract_character_and_clean_text(block: str):
         m = speaker_pattern.match(original)
         if m:
             name = m.group("name").strip()
-            if not character:
-                character = name
             after = m.group("after").rstrip()
-            if after:
-                out_lines.append(after)
-        else:
-            out_lines.append(original)
     out_lines = [ln for ln in out_lines if ln.strip()]
     return character, "\n".join(out_lines)
@@ -254,7 +288,7 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
         row = table.add_row()
         cells = row.cells
-        # Character -> ÇEVİRME
         cells[0].text = character
         # TC -> MM.SS
@@ -315,10 +349,12 @@ with gr.Blocks() as demo:
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
-          - **Character**: `WOMAN:`, `LEWIS:`, `NURSE:` gibi isimler çıkarılır (**çeviri yok**).
           - **TC**: sadece **MM.SS** (start time).
-          - **TEXT**: `NAME:` prefix'leri atılmış metin.
-        - İstersen TEXT'i **Helsinki-NLP/opus-mt-tc-big-en-tr** ile Türkçe'ye çevir.
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )

             continue
         try:
             result = client.translation(
                 text=line,
                 model=HF_MODEL,
             translated = _extract_translation_text(result)
         except Exception as e:
             print("HF translation error:", repr(e))
+            translated = line  # fallback: orijinal satır
         out_lines.append(translated)
     """
     SRT -> [{index, start, end, text}, ...]
     """
+    # Türkçe karakterleri korumak için utf-8-sig + errors="replace"
+    raw = path.read_text(encoding="utf-8-sig", errors="replace").strip()
     blocks = re.split(r"\n\s*\n", raw)
     subs = []
 # ======================================================
+# 3) KARAKTER ÇIKARMA + TEXT TEMİZLEME (TR HARFLER + GÜVENLİ HEURİSTİK)
 # ======================================================
+# Unicode harf tabanlı name-word:
+#  - [^\W\d_] = herhangi bir Unicode harfi (A-Z, a-z, Ç,Ğ,İ,Ö,Ş,Ü,ç,ğ,ı,ö,ş,ü vs.)
+#  - sonrasında harf, nokta, apostrof, tire gelebilir
+name_word = r"[^\W\d_][^\W\d_.'-]*"
 speaker_pattern = re.compile(
+    rf'^\s*(?:>{1,3}\s*)?(?:-+\s*)?'
+    rf'(?P<name>(?:{name_word}(?:\s+{name_word}){{0,4}}))'
+    rf'\s*:\s*(?P<after>.*)$',
+    flags=re.UNICODE,
 )
+def looks_like_speaker_name(name: str) -> bool:
+    """
+    Çok agresif olmamak için:
+    - Sadece büyük harf oranı yüksek olan isimleri speaker olarak kabul et.
+      Örnek:
+        "DR. GREENE" -> EVET (çoğu büyük harf)
+        "HEMSİRE SELMA" -> EVET
+        "Doktor" -> HAYIR (ilk harf büyük ama tümü değil, normal cümle olabilir)
+        "Merhaba" -> HAYIR
+    """
+    letters = [ch for ch in name if ch.isalpha()]
+    if not letters:
+        return False
+    upper_count = sum(1 for ch in letters if ch.isupper())
+    ratio = upper_count / len(letters)
+    return ratio >= 0.8
 def extract_character_and_clean_text(block: str):
     """
     block içinden:
+      - Character: ilk NAME: (büyük oranda uppercase olan)
       - TEXT: NAME: prefix'leri atılmış metin
+    Eğer satır "normal cümle" ise (örn. Türkçe SRT):
+      - "Doğrusu: böyle değil." -> Character boş, TEXT = satırın tamamı
     """
     if not block:
         return "", ""
         m = speaker_pattern.match(original)
         if m:
             name = m.group("name").strip()
             after = m.group("after").rstrip()
+            # Sadece gerçekten speaker'e benzeyen isimleri ayır
+            if looks_like_speaker_name(name):
+                if not character:
+                    character = name
+                if after:
+                    out_lines.append(after)
+                # bu satırı TEXT'e orijinal haliyle eklemiyoruz
+                continue
+        # buraya düştüyse:
+        # - ya pattern tutmadı
+        # - ya da name speaker gibi görünmüyor => satırı olduğu gibi TEXT'e koy
+        out_lines.append(original)
     out_lines = [ln for ln in out_lines if ln.strip()]
     return character, "\n".join(out_lines)
         row = table.add_row()
         cells = row.cells
+        # Character (Türkçe harfler dahil; ama sadece yoğun uppercase ise dolduruluyor)
         cells[0].text = character
         # TC -> MM.SS
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
+          - **Character**:
+            - `WOMAN:`, `DR. GREENE:`, `HEMSİRE SELMA:` gibi *büyük harf ağırlıklı* isimler otomatik alınır.
+            - Normal Türkçe cümleler (ör. "Doktor: bugün erken geldiniz.") bozulmaz, TEXT'e tam gider.
           - **TC**: sadece **MM.SS** (start time).
+          - **TEXT**: `NAME:` prefix'i speaker olarak algılanamadıysa **tam satır**.
+        - İstersen TEXT'i **Helsinki-NLP/opus-mt-tc-big-en-tr** ile Türkçe'ye çevir (Character asla çevrilmez).
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )