Spaces:

ksrgszk
/

SubAligner

Sleeping

App Files Files Community

ksrgszk commited on Jan 21

Commit

f77247f

1 Parent(s): 46859fa

Add application file

Browse files

Files changed (2) hide show

app.py +70 -6
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -239,7 +239,8 @@ def transcribe_with_bcut(media_path):
         "ResourceFileType": "mp3",
         "model_id": "8",
     })
-    r = requests.post(API_REQ_UPLOAD, data=payload, headers=headers)
     r.raise_for_status()
     resp_data = r.json()["data"]
     in_boss_key = resp_data["in_boss_key"]
@@ -251,7 +252,7 @@ def transcribe_with_bcut(media_path):
     for i, url in enumerate(upload_urls):
         start = i * per_size
         end = (i + 1) * per_size
-        rr = requests.put(url, data=file_binary[start:end], headers=headers)
         rr.raise_for_status()
         etags.append(rr.headers.get("Etag"))
     commit_payload = json.dumps({
@@ -261,15 +262,15 @@ def transcribe_with_bcut(media_path):
         "UploadId": upload_id,
         "model_id": "8",
     })
-    r = requests.post(API_COMMIT_UPLOAD, data=commit_payload, headers=headers)
     r.raise_for_status()
     download_url = r.json()["data"]["download_url"]
-    r = requests.post(API_CREATE_TASK, json={"resource": download_url, "model_id": "8"}, headers=headers)
     r.raise_for_status()
     task_id = r.json()["data"]["task_id"]
     result = None
     for _ in range(600):
-        rr = requests.get(API_QUERY_RESULT, params={"model_id": 7, "task_id": task_id}, headers=headers)
         rr.raise_for_status()
         jd = rr.json()["data"]
         if jd.get("state") == 4:
@@ -326,6 +327,53 @@ def transcribe_only_with_vc(media_path, fmt="srt"):
     srt_text = "\n".join(lines)
     return srt_text, rec
 @app.route("/", methods=["GET"])
 def index():
     html = """
@@ -372,6 +420,7 @@ def index():
               <label>引擎</label>
               <select id="engineSel">
                 <option value="videocaptioner">VideoCaptioner(Bcut API)</option>
                 <option value="ffsubsync">ffsubsync(CPU)</option>
                 <option value="whisper">whisper(较慢)</option>
               </select>
@@ -436,6 +485,7 @@ def index():
           if(!f){ro.textContent='请选择音频或视频文件';return;}
           const fd = new FormData();
           fd.append('file', f);
           ro.textContent='转写中...';
           try{
             const r = await fetch('/api/transcribe',{method:'POST',body:fd});
@@ -491,6 +541,8 @@ def api_align():
             srt_text, items = align_with_whisper(media_path, segs, fmt=fmt)
         elif engine in ("videocaptioner","vc","bcut"):
             srt_text, items = align_with_vc(media_path, segs, fmt=fmt)
         else:
             srt_text, items = align_with_ffsubsync(media_path, segs, fmt=fmt)
         try:
@@ -519,7 +571,19 @@ def api_transcribe():
         ext = os.path.splitext(getattr(f, "filename", "") or "")[1] or ".dat"
         media_path = os.path.join(temp_dir, f"{uuid.uuid4()}_media{ext}")
         f.save(media_path)
-        srt_text, items = transcribe_only_with_vc(media_path)
         try:
             os.remove(media_path)
         except Exception:

         "ResourceFileType": "mp3",
         "model_id": "8",
     })
+    proxies = {"http": None, "https": None}
+    r = requests.post(API_REQ_UPLOAD, data=payload, headers=headers, proxies=proxies)
     r.raise_for_status()
     resp_data = r.json()["data"]
     in_boss_key = resp_data["in_boss_key"]
     for i, url in enumerate(upload_urls):
         start = i * per_size
         end = (i + 1) * per_size
+        rr = requests.put(url, data=file_binary[start:end], headers=headers, proxies=proxies)
         rr.raise_for_status()
         etags.append(rr.headers.get("Etag"))
     commit_payload = json.dumps({
         "UploadId": upload_id,
         "model_id": "8",
     })
+    r = requests.post(API_COMMIT_UPLOAD, data=commit_payload, headers=headers, proxies=proxies)
     r.raise_for_status()
     download_url = r.json()["data"]["download_url"]
+    r = requests.post(API_CREATE_TASK, json={"resource": download_url, "model_id": "8"}, headers=headers, proxies=proxies)
     r.raise_for_status()
     task_id = r.json()["data"]["task_id"]
     result = None
     for _ in range(600):
+        rr = requests.get(API_QUERY_RESULT, params={"model_id": 7, "task_id": task_id}, headers=headers, proxies=proxies)
         rr.raise_for_status()
         jd = rr.json()["data"]
         if jd.get("state") == 4:
     srt_text = "\n".join(lines)
     return srt_text, rec
+# Faster-Whisper
+def transcribe_with_fast(media_path, model_name=None, device=None):
+    try:
+        from faster_whisper import WhisperModel
+    except Exception as e:
+        raise RuntimeError("缺少 faster-whisper 依赖") from e
+    model_name = model_name or os.environ.get("FAST_WHISPER_MODEL", "tiny")
+    device = device or os.environ.get("FAST_DEVICE", "cpu")
+    model = WhisperModel(model_name, device=device)
+    segments, _ = model.transcribe(media_path, vad_filter=True)
+    rec = []
+    for s in segments:
+        rec.append({
+            "text": (s.text or "").strip(),
+            "start": float(s.start or 0.0),
+            "end": float(s.end or (s.start or 0.0))
+        })
+    return rec
+def align_with_fast(media_path, segments, fmt="srt", model_name=None):
+    rec = transcribe_with_fast(media_path, model_name=model_name)
+    items = []
+    for s in [x.strip() for x in segments if x.strip()]:
+        sn = normalize_zh(s)
+        best = None
+        best_score = -1.0
+        for r in rec:
+            rn = normalize_zh(r["text"])
+            if not rn:
+                continue
+            score = similarity(sn, rn)
+            if rn.find(sn) != -1:
+                score = 1.0
+            if score > best_score:
+                best_score = score
+                best = r
+        if best:
+            items.append({"text": s, "start": best["start"], "end": best["end"]})
+    lines = []
+    for i, it in enumerate(items, start=1):
+        lines.append(str(i))
+        lines.append(f"{srt_time(int(it['start']*1000))} --> {srt_time(int(it['end']*1000))}")
+        lines.append(it["text"])
+        lines.append("")
+    srt_text = "\n".join(lines)
+    return srt_text, items
 @app.route("/", methods=["GET"])
 def index():
     html = """
               <label>引擎</label>
               <select id="engineSel">
                 <option value="videocaptioner">VideoCaptioner(Bcut API)</option>
+                <option value="fast">Faster-Whisper(本地, tiny)</option>
                 <option value="ffsubsync">ffsubsync(CPU)</option>
                 <option value="whisper">whisper(较慢)</option>
               </select>
           if(!f){ro.textContent='请选择音频或视频文件';return;}
           const fd = new FormData();
           fd.append('file', f);
+          fd.append('engine', document.getElementById('engineSel').value);
           ro.textContent='转写中...';
           try{
             const r = await fetch('/api/transcribe',{method:'POST',body:fd});
             srt_text, items = align_with_whisper(media_path, segs, fmt=fmt)
         elif engine in ("videocaptioner","vc","bcut"):
             srt_text, items = align_with_vc(media_path, segs, fmt=fmt)
+        elif engine in ("fast",):
+            srt_text, items = align_with_fast(media_path, segs, fmt=fmt)
         else:
             srt_text, items = align_with_ffsubsync(media_path, segs, fmt=fmt)
         try:
         ext = os.path.splitext(getattr(f, "filename", "") or "")[1] or ".dat"
         media_path = os.path.join(temp_dir, f"{uuid.uuid4()}_media{ext}")
         f.save(media_path)
+        engine = request.form.get("engine","fast")
+        if engine in ("fast",):
+            rec = transcribe_with_fast(media_path)
+            lines = []
+            for i, it in enumerate(rec, start=1):
+                lines.append(str(i))
+                lines.append(f"{srt_time(int(it['start']*1000))} --> {srt_time(int(it['end']*1000))}")
+                lines.append(it["text"])
+                lines.append("")
+            srt_text = "\n".join(lines)
+            items = rec
+        else:
+            srt_text, items = transcribe_only_with_vc(media_path)
         try:
             os.remove(media_path)
         except Exception:

requirements.txt CHANGED Viewed

@@ -5,3 +5,4 @@ ffsubsync
 pysubs2
 openai-whisper
 textdistance

 pysubs2
 openai-whisper
 textdistance
+faster-whisper