Spaces:

armyneo
/

srtconvert

Running

App Files Files Community

armyneo commited on Nov 28, 2025

Commit

18c13e3

verified ·

1 Parent(s): 3023c6b

new model addition

Browse files

Files changed (1) hide show

app.py +73 -108

app.py CHANGED Viewed

@@ -3,126 +3,98 @@ import re
 import io
 import zipfile
 from pathlib import Path
-from typing import Tuple, List
-import requests
 import gradio as gr
 from docx import Document
 from docx.oxml import OxmlElement
 from docx.oxml.ns import qn
-# ----------------------------------------------------
-# 1) HUGGING FACE INFERENCE API (EN -> TR)
-# ----------------------------------------------------
-HF_TOKEN = os.getenv("HF_TOKEN")
 if not HF_TOKEN:
     raise RuntimeError(
         "HF_TOKEN environment variable is not set. "
-        "Add it in Space Settings → Variables and secrets."
     )
-# Küçük EN→TR modeli
-MODEL_ID = "Helsinki-NLP/opus-mt-en-tr"
-API_URL = f"https://api-inference.huggingface.co/models/{MODEL_ID}"
-HEADERS = {"Authorization": f"Bearer {HF_TOKEN}"}
-MAX_BATCH_SIZE = 16  # satırları parça parça yollayalım
-def _hf_translate_batch(lines: List[str]) -> List[str]:
     """
-    HF Inference API'ye tek batch istek.
-    lines: boş olmayan EN string listesi.
-    return: TR string listesi (aynı uzunlukta).
     """
-    if not lines:
-        return []
-    payload = {"inputs": lines}
-    resp = requests.post(API_URL, headers=HEADERS, json=payload, timeout=120)
-    resp.raise_for_status()
-    data = resp.json()
-    out: List[str] = []
-    # Çıkan JSON bazen:
-    #  - [[{"translation_text": "..."}], ...]
-    #  - [{"translation_text": "..."}, ...]
-    #  - [{"generated_text": "..."}, ...]
-    for item in data:
-        obj = item
-        if isinstance(item, list) and item:
-            obj = item[0]
-        if isinstance(obj, dict):
-            if "translation_text" in obj:
-                out.append(obj["translation_text"])
-            elif "generated_text" in obj:
-                out.append(obj["generated_text"])
-            else:
-                out.append("")
-        else:
-            out.append(str(obj))
-    # Güvenlik için uzunluk eşitle
-    if len(out) < len(lines):
-        out.extend([""] * (len(lines) - len(out)))
-    elif len(out) > len(lines):
-        out = out[: len(lines)]
-    return out
 def translate_en_tr(text: str) -> str:
     """
-    EN->TR çeviri (satır yapısını korur).
-    - Satırları böler.
-    - Boş olmayanları batch batch Inference API'ye yollar.
-    - Aynı sırayla geri yerleştirir.
-    Hata durumunda orijinal text'i döner.
     """
-    text = (text or "").strip()
     if not text:
         return text
     lines = text.splitlines()
-    idxs = [i for i, ln in enumerate(lines) if ln.strip()]
-    to_translate = [lines[i] for i in idxs]
-    if not to_translate:
-        return text
-    translated_all: List[str] = []
-    try:
-        # Parça parça gönder (MAX_BATCH_SIZE)
-        for start in range(0, len(to_translate), MAX_BATCH_SIZE):
-            chunk = to_translate[start : start + MAX_BATCH_SIZE]
-            chunk_out = _hf_translate_batch(chunk)
-            translated_all.extend(chunk_out)
-    except Exception as e:
-        # Çeviri patlarsa tümünü orijinal bırak
-        print("HF translation error:", repr(e))
-        return text
-    # Uzunluk makyajı
-    if len(translated_all) < len(to_translate):
-        translated_all.extend([""] * (len(to_translate) - len(translated_all)))
-    elif len(translated_all) > len(to_translate):
-        translated_all = translated_all[: len(to_translate)]
-    out_lines = list(lines)
-    for j, idx in enumerate(idxs):
-        out_lines[idx] = translated_all[j]
     return "\n".join(out_lines)
-# ----------------------------------------------------
 # 2) SRT PARSER
-# ----------------------------------------------------
 def parse_srt(path: Path):
     """
@@ -175,15 +147,10 @@ def parse_srt(path: Path):
     return subs
-# ----------------------------------------------------
 # 3) KARAKTER ÇIKARMA + TEXT TEMİZLEME
-# ----------------------------------------------------
-# Örnek eşleşmeler:
-#   WOMAN: ...
-#   DR. LEWIS: ...
-#   >>> NURSE: ...
-#   -NURSE: ...
 speaker_pattern = re.compile(
     r'^\s*(?:>{1,3}\s*)?(?:-+\s*)?'
     r'(?P<name>(?:[A-Z][A-Z0-9.\']+(?:\s+[A-Z][A-Z0-9.\']+){0,4}))'
@@ -202,7 +169,7 @@ def extract_character_and_clean_text(block: str):
     lines = block.splitlines()
     character = ""
-    out_lines: List[str] = []
     for line in lines:
         original = line.strip()
@@ -218,7 +185,6 @@ def extract_character_and_clean_text(block: str):
             if after:
                 out_lines.append(after)
         else:
-            # NAME: ile başlamayan satırlar olduğu gibi kalsın
             out_lines.append(original)
     out_lines = [ln for ln in out_lines if ln.strip()]
@@ -228,7 +194,6 @@ def extract_character_and_clean_text(block: str):
 def start_time_to_mm_ss(start: str) -> str:
     """
     'HH:MM:SS,mmm' -> 'MM.SS'
-    (toplam dakika . saniye)
     """
     hms, *_ = start.split(",")
     h, m, s = [int(x) for x in hms.split(":")]
@@ -238,9 +203,9 @@ def start_time_to_mm_ss(start: str) -> str:
     return f"{total_minutes:02d}.{seconds:02d}"
-# ----------------------------------------------------
 # 4) DOCX OLUŞTURMA
-# ----------------------------------------------------
 def style_header_cell(cell, text: str):
     """
@@ -289,10 +254,10 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
         row = table.add_row()
         cells = row.cells
-        # Character -> ASLA çevirmiyoruz
         cells[0].text = character
-        # TC -> MM.SS (start time)
         cells[1].text = start_time_to_mm_ss(sub["start"])
         # note -> boş
@@ -312,9 +277,9 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
     return buffer.getvalue(), out_name
-# ----------------------------------------------------
-# 5) GRADIO ÇAĞRI FONKSİYONU (MULTI SRT -> ZIP)
-# ----------------------------------------------------
 def process_srt_files(files, translate_to_tr: bool):
     """
@@ -339,21 +304,21 @@ def process_srt_files(files, translate_to_tr: bool):
     return out_zip_path
-# ----------------------------------------------------
 # 6) GRADIO UI
-# ----------------------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown(
         """
-        # SRT → DOCX (Character / TC / TEXT) + EN→TR (HF Inference API)
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
           - **Character**: `WOMAN:`, `LEWIS:`, `NURSE:` gibi isimler çıkarılır (**çeviri yok**).
-          - **TC**: sadece **MM.SS** (start time'dan).
           - **TEXT**: `NAME:` prefix'leri atılmış metin.
-        - İstersen TEXT'i **Hugging Face Inference API** ile EN→TR çevir.
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )
@@ -367,7 +332,7 @@ with gr.Blocks() as demo:
         )
     translate_chk = gr.Checkbox(
-        label="Translate TEXT (EN → TR, via HF Inference API)",
         value=False,
     )

 import io
 import zipfile
 from pathlib import Path
+from typing import Tuple
 import gradio as gr
 from docx import Document
 from docx.oxml import OxmlElement
 from docx.oxml.ns import qn
+from huggingface_hub import InferenceClient
+# ======================================================
+# 1) HF INFERENCE API: EN -> TR ÇEVİRİ
+# ======================================================
+HF_TOKEN = os.environ.get("HF_TOKEN")
 if not HF_TOKEN:
+    # Space içinde: Settings → Variables and secrets → New variable → Name=HF_TOKEN, Value=<token>
     raise RuntimeError(
         "HF_TOKEN environment variable is not set. "
+        "Go to your Space → Settings → Variables and secrets and add HF_TOKEN."
     )
+# EN→TR modeli
+HF_MODEL = "Helsinki-NLP/opus-mt-tc-big-en-tr"
+client = InferenceClient(
+    provider="hf-inference",   # yeni router
+    api_key=HF_TOKEN,
+)
+def _extract_translation_text(result) -> str:
     """
+    InferenceClient dönüş tipini güvenli çıkar:
+    - str
+    - {"translation_text": "..."}
+    - [{"translation_text": "..."}]
+    vb.
     """
+    if isinstance(result, str):
+        return result
+    if isinstance(result, dict) and "translation_text" in result:
+        return result["translation_text"]
+    if isinstance(result, list) and result:
+        item = result[0]
+        if isinstance(item, str):
+            return item
+        if isinstance(item, dict) and "translation_text" in item:
+            return item["translation_text"]
+    # son çare: string'e dök
+    return str(result)
 def translate_en_tr(text: str) -> str:
     """
+    EN -> TR çeviri (HF Inference API).
+    Satır satır gönderiyoruz, satır yapısı korunuyor.
+    Hata olursa orijinal satırı geri döner.
     """
+    text = text.strip()
     if not text:
         return text
     lines = text.splitlines()
+    out_lines = []
+    for line in lines:
+        if not line.strip():
+            out_lines.append("")
+            continue
+        try:
+            # docs'a uygun çağrı
+            result = client.translation(
+                text=line,
+                model=HF_MODEL,
+            )
+            translated = _extract_translation_text(result)
+        except Exception as e:
+            print("HF translation error:", repr(e))
+            # fallback: orijinal satırı kullan
+            translated = line
+        out_lines.append(translated)
     return "\n".join(out_lines)
+# ======================================================
 # 2) SRT PARSER
+# ======================================================
 def parse_srt(path: Path):
     """
     return subs
+# ======================================================
 # 3) KARAKTER ÇIKARMA + TEXT TEMİZLEME
+# ======================================================
 speaker_pattern = re.compile(
     r'^\s*(?:>{1,3}\s*)?(?:-+\s*)?'
     r'(?P<name>(?:[A-Z][A-Z0-9.\']+(?:\s+[A-Z][A-Z0-9.\']+){0,4}))'
     lines = block.splitlines()
     character = ""
+    out_lines = []
     for line in lines:
         original = line.strip()
             if after:
                 out_lines.append(after)
         else:
             out_lines.append(original)
     out_lines = [ln for ln in out_lines if ln.strip()]
 def start_time_to_mm_ss(start: str) -> str:
     """
     'HH:MM:SS,mmm' -> 'MM.SS'
     """
     hms, *_ = start.split(",")
     h, m, s = [int(x) for x in hms.split(":")]
     return f"{total_minutes:02d}.{seconds:02d}"
+# ======================================================
 # 4) DOCX OLUŞTURMA
+# ======================================================
 def style_header_cell(cell, text: str):
     """
         row = table.add_row()
         cells = row.cells
+        # Character -> ÇEVİRME
         cells[0].text = character
+        # TC -> MM.SS
         cells[1].text = start_time_to_mm_ss(sub["start"])
         # note -> boş
     return buffer.getvalue(), out_name
+# ======================================================
+# 5) GRADIO: ÇOKLU SRT -> ZIP(DOCX)
+# ======================================================
 def process_srt_files(files, translate_to_tr: bool):
     """
     return out_zip_path
+# ======================================================
 # 6) GRADIO UI
+# ======================================================
 with gr.Blocks() as demo:
     gr.Markdown(
         """
+        # SRT → DOCX (Character / TC / TEXT) + EN→TR Çeviri (HF Inference)
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
           - **Character**: `WOMAN:`, `LEWIS:`, `NURSE:` gibi isimler çıkarılır (**çeviri yok**).
+          - **TC**: sadece **MM.SS** (start time).
           - **TEXT**: `NAME:` prefix'leri atılmış metin.
+        - İstersen TEXT'i **Helsinki-NLP/opus-mt-tc-big-en-tr** ile Türkçe'ye çevir.
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )
         )
     translate_chk = gr.Checkbox(
+        label="Translate TEXT (EN → TR, only TEXT, not Character)",
         value=False,
     )