Spaces:

armyneo
/

srtconvert

Running

App Files Files Community

armyneo commited on Nov 28, 2025

Commit

948e65a

verified ·

1 Parent(s): f41a98c

fix turkish characters 2

Browse files

Files changed (1) hide show

app.py +46 -123

app.py CHANGED Viewed

@@ -91,15 +91,57 @@ def translate_en_tr(text: str) -> str:
 # ======================================================
-# 2) SRT PARSER
 # ======================================================
 def parse_srt(path: Path):
     """
     SRT -> [{index, start, end, text}, ...]
     """
-    # Türkçe karakterleri korumak için utf-8-sig + errors="replace"
-    raw = path.read_text(encoding="utf-8-sig", errors="replace").strip()
     blocks = re.split(r"\n\s*\n", raw)
     subs = []
@@ -264,123 +306,4 @@ def srt_to_docx_bytes(srt_path: Path, translate_to_tr: bool) -> Tuple[bytes, str
     """
     Tek SRT -> styled DOCX (bytes, filename)
     """
-    subs = parse_srt(srt_path)
-    doc = Document()
-    # TABLE: Character | TC | note | TEXT
-    table = doc.add_table(rows=1, cols=4)
-    table.style = "Table Grid"
-    hdr_cells = table.rows[0].cells
-    headers = ["Character", "TC", "note", "TEXT"]
-    for idx, label in enumerate(headers):
-        style_header_cell(hdr_cells[idx], label)
-    for sub in subs:
-        raw_text = sub["text"]
-        if not raw_text.strip():
-            continue
-        character, clean_txt = extract_character_and_clean_text(raw_text)
-        if not clean_txt.strip():
-            continue
-        row = table.add_row()
-        cells = row.cells
-        # Character (Türkçe harfler dahil; ama sadece yoğun uppercase ise dolduruluyor)
-        cells[0].text = character
-        # TC -> MM.SS
-        cells[1].text = start_time_to_mm_ss(sub["start"])
-        # note -> boş
-        cells[2].text = ""
-        # TEXT -> isteğe bağlı TR çeviri
-        if translate_to_tr:
-            cells[3].text = translate_en_tr(clean_txt)
-        else:
-            cells[3].text = clean_txt
-    buffer = io.BytesIO()
-    doc.save(buffer)
-    buffer.seek(0)
-    out_name = srt_path.with_suffix(".docx").name
-    return buffer.getvalue(), out_name
-# ======================================================
-# 5) GRADIO: ÇOKLU SRT -> ZIP(DOCX)
-# ======================================================
-def process_srt_files(files, translate_to_tr: bool):
-    """
-    Çoklu SRT al, hepsini DOCX'e çevir, tek ZIP döndür.
-    """
-    if not files:
-        return None
-    paths = [Path(p) for p in files]
-    zip_buffer = io.BytesIO()
-    with zipfile.ZipFile(zip_buffer, "w", zipfile.ZIP_DEFLATED) as zf:
-        for path in paths:
-            doc_bytes, doc_name = srt_to_docx_bytes(path, translate_to_tr)
-            zf.writestr(doc_name, doc_bytes)
-    zip_buffer.seek(0)
-    out_zip_path = "converted_subtitles.zip"
-    with open(out_zip_path, "wb") as f:
-        f.write(zip_buffer.read())
-    return out_zip_path
-# ======================================================
-# 6) GRADIO UI
-# ======================================================
-with gr.Blocks() as demo:
-    gr.Markdown(
-        """
-        # SRT → DOCX (Character / TC / TEXT) + EN→TR Çeviri (HF Inference)
-        - Bir veya birden fazla **.srt** yükle.
-        - Her satır için:
-          - **Character**:
-            - `WOMAN:`, `DR. GREENE:`, `HEMSİRE SELMA:` gibi *büyük harf ağırlıklı* isimler otomatik alınır.
-            - Normal Türkçe cümleler (ör. "Doktor: bugün erken geldiniz.") bozulmaz, TEXT'e tam gider.
-          - **TC**: sadece **MM.SS** (start time).
-          - **TEXT**: `NAME:` prefix'i speaker olarak algılanamadıysa **tam satır**.
-        - İstersen TEXT'i **Helsinki-NLP/opus-mt-tc-big-en-tr** ile Türkçe'ye çevir (Character asla çevrilmez).
-        - Çıktı: Tüm DOCX'leri içeren tek bir **ZIP**.
-        """
-    )
-    with gr.Row():
-        srt_files = gr.File(
-            label="Upload .srt files",
-            file_types=[".srt"],
-            file_count="multiple",
-            type="filepath",
-        )
-    translate_chk = gr.Checkbox(
-        label="Translate TEXT (EN → TR, only TEXT, not Character)",
-        value=False,
-    )
-    out_zip = gr.File(label="Download ZIP of DOCX files")
-    convert_btn = gr.Button("Convert")
-    convert_btn.click(
-        fn=process_srt_files,
-        inputs=[srt_files, translate_chk],
-        outputs=out_zip,
-    )
-if __name__ == "__main__":
-    demo.launch()

 # ======================================================
+# 2) SRT PARSER + ENCODING OTOMATİK TESPİTİ
 # ======================================================
+def read_srt_text(path: Path) -> str:
+    """
+    SRT dosyasını binary okuyup birkaç encoding dener:
+      - utf-8-sig
+      - utf-8
+      - cp1254 (Windows-1254, Türkçe)
+      - iso-8859-9
+      - latin-1
+    En az '�' (replacement) ve kontrol karakteri üreten encoding'i seçer.
+    Böylece 'Hastan�z' yerine 'Hastanız' gibi doğru TR karakterler gelir.
+    """
+    raw_bytes = path.read_bytes()
+    encodings = ["utf-8-sig", "utf-8", "cp1254", "iso-8859-9", "latin-1"]
+    best_txt = None
+    best_score = None
+    best_enc = None
+    for enc in encodings:
+        try:
+            txt = raw_bytes.decode(enc, errors="replace")
+        except LookupError:
+            continue
+        # '�' sayısı + garip kontrol karakterleri
+        bad_repl = txt.count("�")
+        bad_ctrl = sum(
+            1 for ch in txt
+            if ord(ch) < 32 and ch not in "\n\r\t"
+        )
+        score = bad_repl * 10 + bad_ctrl
+        if best_score is None or score < best_score:
+            best_score = score
+            best_txt = txt
+            best_enc = enc
+    print(f"[SRT ENCODING] {path.name}: {best_enc} (score={best_score})")
+    return best_txt if best_txt is not None else raw_bytes.decode("utf-8", errors="replace")
 def parse_srt(path: Path):
     """
     SRT -> [{index, start, end, text}, ...]
+    Encoding, read_srt_text ile otomatik tespit edilir (TR charset dahil).
     """
+    raw = read_srt_text(path).strip()
     blocks = re.split(r"\n\s*\n", raw)
     subs = []
     """
     Tek SRT -> styled DOCX (bytes, filename)
     """
+    subs = parse_srt_