Spaces:

armyneo
/

srtconvert

Running

App Files Files Community

armyneo commited on Nov 28, 2025

Commit

3023c6b

verified ·

1 Parent(s): 420e1ab

translate inference

Browse files

Files changed (1) hide show

app.py +91 -30

app.py CHANGED Viewed

@@ -1,57 +1,121 @@
 import re
 import io
 import zipfile
 from pathlib import Path
 from typing import Tuple, List
 import gradio as gr
 from docx import Document
 from docx.oxml import OxmlElement
 from docx.oxml.ns import qn
-from transformers import pipeline
 # ----------------------------------------------------
-# 1) ÇEVİRİ MODELİ (daha hafif model kullanalım)
 # ----------------------------------------------------
-# "tc-big" çok ağır, CPU basic'te sıkıntı çıkarabiliyor.
-MODEL_NAME = "Helsinki-NLP/opus-mt-en-tr"
-# Public model, token yok. CPU kullan (device=-1).
-translator = pipeline(
-    "translation",
-    model=MODEL_NAME,
-    device=-1,
-)
 def translate_en_tr(text: str) -> str:
     """
-    EN->TR çeviri.
-    Satır yapısını korumak için satırları ayırıyoruz ama
-    modeli batch halde tek seferde çağırıyoruz.
     """
     text = (text or "").strip()
     if not text:
         return text
     lines = text.splitlines()
-    # Boş olmayan satırların indekslerini topla
-    non_empty_idx: List[int] = [i for i, ln in enumerate(lines) if ln.strip()]
-    to_translate: List[str] = [lines[i] for i in non_empty_idx]
     if not to_translate:
         return text
-    # Batch çeviri (tek model çağrısı)
-    outputs = translator(to_translate, max_length=512)
-    translated = [o["translation_text"] for o in outputs]
-    # Çevirilen satırları eski yerlerine koy
     out_lines = list(lines)
-    for j, idx in enumerate(non_empty_idx):
-        out_lines[idx] = translated[j]
     return "\n".join(out_lines)
@@ -138,7 +202,7 @@ def extract_character_and_clean_text(block: str):
     lines = block.splitlines()
     character = ""
-    out_lines = []
     for line in lines:
         original = line.strip()
@@ -255,12 +319,10 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
 def process_srt_files(files, translate_to_tr: bool):
     """
     Çoklu SRT al, hepsini DOCX'e çevir, tek ZIP döndür.
-    Gradio output için path döndürüyoruz.
     """
     if not files:
         return None
-    # Gr.File(type="filepath") -> string path listesi
     paths = [Path(p) for p in files]
     zip_buffer = io.BytesIO()
@@ -270,7 +332,6 @@ def process_srt_files(files, translate_to_tr: bool):
             zf.writestr(doc_name, doc_bytes)
     zip_buffer.seek(0)
     out_zip_path = "converted_subtitles.zip"
     with open(out_zip_path, "wb") as f:
         f.write(zip_buffer.read())
@@ -285,14 +346,14 @@ def process_srt_files(files, translate_to_tr: bool):
 with gr.Blocks() as demo:
     gr.Markdown(
         """
-        # SRT → DOCX (Character / TC / TEXT) + EN→TR Çeviri
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
           - **Character**: `WOMAN:`, `LEWIS:`, `NURSE:` gibi isimler çıkarılır (**çeviri yok**).
           - **TC**: sadece **MM.SS** (start time'dan).
           - **TEXT**: `NAME:` prefix'leri atılmış metin.
-        - İstersen TEXT'i **EN→TR** çevir.
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )
@@ -306,7 +367,7 @@ with gr.Blocks() as demo:
         )
     translate_chk = gr.Checkbox(
-        label="Translate TEXT (EN → TR, only TEXT, not Character)",
         value=False,
     )

+import os
 import re
 import io
 import zipfile
 from pathlib import Path
 from typing import Tuple, List
+import requests
 import gradio as gr
 from docx import Document
 from docx.oxml import OxmlElement
 from docx.oxml.ns import qn
 # ----------------------------------------------------
+# 1) HUGGING FACE INFERENCE API (EN -> TR)
 # ----------------------------------------------------
+HF_TOKEN = os.getenv("HF_TOKEN")
+if not HF_TOKEN:
+    raise RuntimeError(
+        "HF_TOKEN environment variable is not set. "
+        "Add it in Space Settings → Variables and secrets."
+    )
+# Küçük EN→TR modeli
+MODEL_ID = "Helsinki-NLP/opus-mt-en-tr"
+API_URL = f"https://api-inference.huggingface.co/models/{MODEL_ID}"
+HEADERS = {"Authorization": f"Bearer {HF_TOKEN}"}
+MAX_BATCH_SIZE = 16  # satırları parça parça yollayalım
+def _hf_translate_batch(lines: List[str]) -> List[str]:
+    """
+    HF Inference API'ye tek batch istek.
+    lines: boş olmayan EN string listesi.
+    return: TR string listesi (aynı uzunlukta).
+    """
+    if not lines:
+        return []
+    payload = {"inputs": lines}
+    resp = requests.post(API_URL, headers=HEADERS, json=payload, timeout=120)
+    resp.raise_for_status()
+    data = resp.json()
+    out: List[str] = []
+    # Çıkan JSON bazen:
+    #  - [[{"translation_text": "..."}], ...]
+    #  - [{"translation_text": "..."}, ...]
+    #  - [{"generated_text": "..."}, ...]
+    for item in data:
+        obj = item
+        if isinstance(item, list) and item:
+            obj = item[0]
+        if isinstance(obj, dict):
+            if "translation_text" in obj:
+                out.append(obj["translation_text"])
+            elif "generated_text" in obj:
+                out.append(obj["generated_text"])
+            else:
+                out.append("")
+        else:
+            out.append(str(obj))
+    # Güvenlik için uzunluk eşitle
+    if len(out) < len(lines):
+        out.extend([""] * (len(lines) - len(out)))
+    elif len(out) > len(lines):
+        out = out[: len(lines)]
+    return out
 def translate_en_tr(text: str) -> str:
     """
+    EN->TR çeviri (satır yapısını korur).
+    - Satırları böler.
+    - Boş olmayanları batch batch Inference API'ye yollar.
+    - Aynı sırayla geri yerleştirir.
+    Hata durumunda orijinal text'i döner.
     """
     text = (text or "").strip()
     if not text:
         return text
     lines = text.splitlines()
+    idxs = [i for i, ln in enumerate(lines) if ln.strip()]
+    to_translate = [lines[i] for i in idxs]
     if not to_translate:
         return text
+    translated_all: List[str] = []
+    try:
+        # Parça parça gönder (MAX_BATCH_SIZE)
+        for start in range(0, len(to_translate), MAX_BATCH_SIZE):
+            chunk = to_translate[start : start + MAX_BATCH_SIZE]
+            chunk_out = _hf_translate_batch(chunk)
+            translated_all.extend(chunk_out)
+    except Exception as e:
+        # Çeviri patlarsa tümünü orijinal bırak
+        print("HF translation error:", repr(e))
+        return text
+    # Uzunluk makyajı
+    if len(translated_all) < len(to_translate):
+        translated_all.extend([""] * (len(to_translate) - len(translated_all)))
+    elif len(translated_all) > len(to_translate):
+        translated_all = translated_all[: len(to_translate)]
     out_lines = list(lines)
+    for j, idx in enumerate(idxs):
+        out_lines[idx] = translated_all[j]
     return "\n".join(out_lines)
     lines = block.splitlines()
     character = ""
+    out_lines: List[str] = []
     for line in lines:
         original = line.strip()
 def process_srt_files(files, translate_to_tr: bool):
     """
     Çoklu SRT al, hepsini DOCX'e çevir, tek ZIP döndür.
     """
     if not files:
         return None
     paths = [Path(p) for p in files]
     zip_buffer = io.BytesIO()
             zf.writestr(doc_name, doc_bytes)
     zip_buffer.seek(0)
     out_zip_path = "converted_subtitles.zip"
     with open(out_zip_path, "wb") as f:
         f.write(zip_buffer.read())
 with gr.Blocks() as demo:
     gr.Markdown(
         """
+        # SRT → DOCX (Character / TC / TEXT) + EN→TR (HF Inference API)
         - Bir veya birden fazla **.srt** yükle.
         - Her satır için:
           - **Character**: `WOMAN:`, `LEWIS:`, `NURSE:` gibi isimler çıkarılır (**çeviri yok**).
           - **TC**: sadece **MM.SS** (start time'dan).
           - **TEXT**: `NAME:` prefix'leri atılmış metin.
+        - İstersen TEXT'i **Hugging Face Inference API** ile EN→TR çevir.
         - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
         """
     )
         )
     translate_chk = gr.Checkbox(
+        label="Translate TEXT (EN → TR, via HF Inference API)",
         value=False,
     )