Spaces:

armyneo
/

srtconvert

Running

App Files Files Community

armyneo commited on Dec 4, 2025

Commit

db31285

verified ·

1 Parent(s): be8f198

update to checkbox

Browse files

Files changed (1) hide show

app.py +86 -46

app.py CHANGED Viewed

@@ -2,7 +2,10 @@ import re
 import io
 import zipfile
 from pathlib import Path
-from typing import Tuple, Any, Optional
 import gradio as gr
 from docx import Document
@@ -11,22 +14,19 @@ from docx.oxml.ns import qn
 from huggingface_hub import InferenceClient
 # ======================================================
-# 1) HUGGING FACE INFERENCE API (EN -> TR ÇEVİRİ)
 # ======================================================
 HF_MODEL = "Helsinki-NLP/opus-mt-tc-big-en-tr"
-# HF token (Space → Settings → Variables and secrets → HF_TOKEN = hf_...)
-import os
 HF_TOKEN = os.environ.get("HF_TOKEN")
 if HF_TOKEN:
-    # Token varsa: daha yüksek limit, özel modellere erişim vs.
-    client = InferenceClient(model=HF_MODEL, token=HF_TOKEN)
 else:
-    # Token yoksa: public, düşük limit ama çalışır
-    client = InferenceClient(model=HF_MODEL)
 def _extract_translation_text(result: Any) -> str:
@@ -64,35 +64,67 @@ def _extract_translation_text(result: Any) -> str:
     return str(result)
-def translate_en_tr(text: str) -> str:
     """
-    EN -> TR çeviri (HF Inference API).
-    Satır satır gönderiyoruz, satır yapısı korunuyor.
-    Hata olursa orijinal metni döndürür (app crash etmez).
     """
-    text = text.strip()
-    if not text:
-        return text
-    lines = text.splitlines()
-    out_lines = []
-    for line in lines:
-        if not line.strip():
-            out_lines.append("")
             continue
-        try:
-            # client zaten model=HF_MODEL ile bağlı
-            result = client.translation(line)
-            translated = _extract_translation_text(result)
-        except Exception as e:
-            print("HF translation error:", repr(e))
-            translated = line  # fallback
-        out_lines.append(translated)
-    return "\n".join(out_lines)
 # ======================================================
@@ -202,7 +234,7 @@ def parse_srt(path: Path):
 name_word = r"[^\W\d_][^\W\d_.'-]*"
 speaker_pattern = re.compile(
-    rf'^\s*(?:>{1,3}\s*)?(?:-+\s*)?'
     rf'(?P<name>(?:{name_word}(?:\s+{name_word}){{0,4}}))'
     rf'\s*:\s*(?P<after>.*)$',
     flags=re.UNICODE,
@@ -306,6 +338,7 @@ def style_header_cell(cell, text: str):
 def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str]:
     """
     Tek SRT -> styled DOCX (bytes, filename)
     """
     subs = parse_srt(srt_path)
     doc = Document()
@@ -319,6 +352,11 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
     for idx, label in enumerate(headers):
         style_header_cell(hdr_cells[idx], label)
     for sub in subs:
         raw_text = sub["text"]
         if not raw_text.strip():
@@ -328,23 +366,24 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
         if not clean_txt.strip():
             continue
-        row = table.add_row()
-        cells = row.cells
-        # Character (asla çevrilmez)
-        cells[0].text = character
-        # TC -> MM.SS
-        cells[1].text = start_time_to_mm_ss(sub["start"])
-        # note -> boş
-        cells[2].text = ""
-        # TEXT -> isteğe bağlı EN->TR
-        if translate_to_tr:
-            cells[3].text = translate_en_tr(clean_txt)
-        else:
-            cells[3].text = clean_txt
     buffer = io.BytesIO()
     doc.save(buffer)
@@ -361,6 +400,7 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
 def process_srt_files(files, translate_to_tr: bool):
     """
     Çoklu SRT al, hepsini DOCX'e çevir, tek ZIP döndür.
     """
     if not files:
         return None
@@ -370,7 +410,7 @@ def process_srt_files(files, translate_to_tr: bool):
     zip_buffer = io.BytesIO()
     with zipfile.ZipFile(zip_buffer, "w", zipfile.ZIP_DEFLATED) as zf:
         for path in paths:
-            doc_bytes, doc_name = srt_to_docx_bytes(path, translate_to_tr)
             zf.writestr(doc_name, doc_bytes)
     zip_buffer.seek(0)

 import io
 import zipfile
 from pathlib import Path
+from typing import Tuple, Any, Optional, List
+import os
+import time
 import gradio as gr
 from docx import Document
 from huggingface_hub import InferenceClient
 # ======================================================
+# 1) HUGGING FACE INFERENCE API (EN -> TR ÇEVİRİ) - BATCH
 # ======================================================
 HF_MODEL = "Helsinki-NLP/opus-mt-tc-big-en-tr"
+# Space → Settings → Variables and secrets → HF_TOKEN
 HF_TOKEN = os.environ.get("HF_TOKEN")
+# Token varsa kullan, yoksa anonim client
 if HF_TOKEN:
+    client = InferenceClient(token=HF_TOKEN)
 else:
+    client = InferenceClient()
 def _extract_translation_text(result: Any) -> str:
     return str(result)
+def _translate_batch_en_tr(
+    texts: List[str],
+    max_batch_size: int = 200,
+    max_retries: int = 2,
+    base_sleep: float = 2.0,
+) -> List[str]:
     """
+    Çoklu TEXT listesi alır, en az istekle EN->TR çevirir.
+    - texts: orijinal metin listesi
+    - return: aynı uzunlukta, çevrilmiş (veya hata durumunda orijinal) metin listesi
     """
+    if not texts:
+        return texts
+    result_texts: List[str] = list(texts)
+    # Çok düşük olasılıkla metin içinde geçebilecek, "garip" bir ayracı seçiyoruz
+    SEP = "\n[[BLOCK-SEPARATOR-6b8b4567-ICETEA]]\n"
+    n = len(texts)
+    for start_idx in range(0, n, max_batch_size):
+        end_idx = min(start_idx + max_batch_size, n)
+        batch_indices = list(range(start_idx, end_idx))
+        batch_texts = [texts[i] for i in batch_indices]
+        # Tamamen boş batch ise atla
+        if not any(t.strip() for t in batch_texts):
             continue
+        joined = SEP.join(batch_texts)
+        translated_joined: Optional[str] = None
+        for attempt in range(max_retries + 1):
+            try:
+                resp = client.translation(joined, model=HF_MODEL)
+                translated_joined = _extract_translation_text(resp)
+                break
+            except Exception as e:
+                print("HF translation error (batch):", repr(e))
+                if attempt < max_retries:
+                    time.sleep(base_sleep * (attempt + 1))
+                else:
+                    translated_joined = None
+        # Çeviri tamamen patladıysa: bu batch orijinal kalsın
+        if translated_joined is None:
+            continue
+        parts = translated_joined.split(SEP)
+        # Ayracı model bozduysa / sayılar tutmazsa -> batch orijinal kalsın
+        if len(parts) != len(batch_texts):
+            print(
+                "HF translation: mismatch between batch size and split parts, "
+                "keeping original texts for this batch."
+            )
+            continue
+        # Başarılı: result_texts içine yaz
+        for i, part in zip(batch_indices, parts):
+            result_texts[i] = part
+    return result_texts
 # ======================================================
 name_word = r"[^\W\d_][^\W\d_.'-]*"
 speaker_pattern = re.compile(
+    rf'^\s*(?:>{{1,3}}\s*)?(?:-+\s*)?'
     rf'(?P<name>(?:{name_word}(?:\s+{name_word}){{0,4}}))'
     rf'\s*:\s*(?P<after>.*)$',
     flags=re.UNICODE,
 def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str]:
     """
     Tek SRT -> styled DOCX (bytes, filename)
+    translate_to_tr=False ise *hiçbir şekilde* HF API çağrılmaz.
     """
     subs = parse_srt(srt_path)
     doc = Document()
     for idx, label in enumerate(headers):
         style_header_cell(hdr_cells[idx], label)
+    # Önce tüm satırları topla, sonra gerekiyorsa toplu çeviri yap
+    characters: List[str] = []
+    tcs: List[str] = []
+    texts: List[str] = []
     for sub in subs:
         raw_text = sub["text"]
         if not raw_text.strip():
         if not clean_txt.strip():
             continue
+        characters.append(character)
+        tcs.append(start_time_to_mm_ss(sub["start"]))
+        texts.append(clean_txt)
+    # Kullanıcı checkbox'ı işaretlemediyse: hiç çeviri yok (HF API çağrısı YOK)
+    if bool(translate_to_tr):
+        texts = _translate_batch_en_tr(texts)
+    # else: texts olduğu gibi kalıyor
+    # Tabloya yaz
+    for character, tc, text in zip(characters, tcs, texts):
+        row = table.add_row()
+        cells = row.cells
+        cells[0].text = character          # Character (asla çevrilmez)
+        cells[1].text = tc                 # TC (MM.SS)
+        cells[2].text = ""                 # note
+        cells[3].text = text               # TEXT (çevirildiyse TR, değilse orijinal)
     buffer = io.BytesIO()
     doc.save(buffer)
 def process_srt_files(files, translate_to_tr: bool):
     """
     Çoklu SRT al, hepsini DOCX'e çevir, tek ZIP döndür.
+    translate_to_tr False ise HF API'ye hiç gitmez.
     """
     if not files:
         return None
     zip_buffer = io.BytesIO()
     with zipfile.ZipFile(zip_buffer, "w", zipfile.ZIP_DEFLATED) as zf:
         for path in paths:
+            doc_bytes, doc_name = srt_to_docx_bytes(path, bool(translate_to_tr))
             zf.writestr(doc_name, doc_bytes)
     zip_buffer.seek(0)