Spaces:

leicam
/

EditorAutomaticoXML

Sleeping

leicam commited on Oct 7, 2025

Commit

fb81b2f

verified ·

1 Parent(s): 21b6fcf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -60,20 +60,33 @@ def parse_transcript_full(txt: str) -> List[Segment]:
     lines = [l.strip() for l in txt.splitlines() if l.strip()]
     results: List[Segment] = []
-    pat_range = re.compile(r"^\s*(\d{2}:\d{2}:\d{2}[:;]\d{2})\s*[-—]\s*(\d{2}:\d{2}:\d{2}[:;]\d{2})\s+(.*)$")
     for l in lines:
         m = pat_range.match(l)
         if m:
             s, e, text = m.groups()
             try:
                 s_f = parse_timecode_to_frames(s)
                 e_f = parse_timecode_to_frames(e)
                 if e_f > s_f:
                     results.append(Segment(s, e, s_f, e_f, text, 0.0))
-            except Exception:
                 continue
     return results
 # ============ MANUAL TIMECODES ============

     lines = [l.strip() for l in txt.splitlines() if l.strip()]
     results: List[Segment] = []
+    # Aceita vários formatos: com ou sem colchetes, - ou —
+    pat_range = re.compile(r"^\[?\s*(\d{2}:\d{2}:\d{2}[:;]\d{2})\s*[-—–]\s*(\d{2}:\d{2}:\d{2}[:;]\d{2})\s*\]?\s*(.*)$")
     for l in lines:
+        # Pula linhas com apenas "Desconhecido"
+        if l.strip() == "Desconhecido":
+            continue
         m = pat_range.match(l)
         if m:
             s, e, text = m.groups()
+            text = text.strip()
+            # Pula se não tiver texto
+            if not text or text == "Desconhecido":
+                continue
             try:
                 s_f = parse_timecode_to_frames(s)
                 e_f = parse_timecode_to_frames(e)
                 if e_f > s_f:
                     results.append(Segment(s, e, s_f, e_f, text, 0.0))
+            except Exception as ex:
+                print(f"Erro ao processar linha: {l[:50]}... -> {ex}")
                 continue
+    print(f"✓ {len(results)} segmentos encontrados na transcrição")
     return results
 # ============ MANUAL TIMECODES ============