moderntranscribe

Sleeping

App Files Files Community

staraks commited on Nov 21, 2025

Commit

cf38d7d

verified ·

1 Parent(s): 9f68e0b

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -38

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 # app.py
-# Improved Whisper Transcriber (per-file selection after unzip, model availability check, SRT export)
 # Requirements: gradio, whisper, pydub, pyzipper, python-docx, ffmpeg
 import os
@@ -329,13 +329,11 @@ def convert_to_wav_if_needed(input_path):
 def whisper_available_models():
     """Return set of model names if whisper provides helper; otherwise conservative fallback."""
     try:
-        # many whisper forks expose available_models()
         models = whisper.available_models()
         if isinstance(models, (list, tuple, set)):
             return set(models)
     except Exception:
         pass
-    # fallback: offer the common set but note we can't verify at startup
     return set(["tiny", "base", "small", "medium", "large", "large-v3"])
@@ -343,12 +341,10 @@ AVAILABLE_MODEL_SET = whisper_available_models()
 def safe_model_choices(prefer_default="small"):
-    # hide entries not in AVAILABLE_MODEL_SET
     base_choices = ["small", "medium", "large", "large-v3", "base", "tiny"]
     choices = [m for m in base_choices if m in AVAILABLE_MODEL_SET]
     if not choices:
-        choices = base_choices  # if we couldn't detect, still present choices
-    # ensure prefer_default exists
     if prefer_default in choices:
         default = prefer_default
     else:
@@ -371,12 +367,7 @@ def get_whisper_model(name, device=None):
 # ---------- SRT export ----------
 def segments_to_srt(segments):
-    """
-    segments: iterable of dicts with 'start','end','text' or whisper segments
-    returns srt_text
-    """
     def fmt_time(t):
-        # t in seconds
         h = int(t // 3600)
         m = int((t % 3600) // 60)
         s = int(t % 60)
@@ -391,16 +382,12 @@ def segments_to_srt(segments):
         lines.append(str(i))
         lines.append(f"{fmt_time(start)} --> {fmt_time(end)}")
         lines.append(text)
-        lines.append("")  # blank line
     return "\n".join(lines)
 # ---------- ZIP extraction + mapping for UI ----------
 def extract_zip_and_map(zip_path, zip_password=None):
-    """
-    Extracts supported audio files into temp dir and builds EXTRACT_MAP mapping friendly basename -> full path.
-    Returns list of friendly basenames and log string.
-    """
     global EXTRACT_MAP
     EXTRACT_MAP = {}
     temp_extract_dir = os.path.join(tempfile.gettempdir(), "extracted_audio")
@@ -437,12 +424,9 @@ def extract_zip_and_map(zip_path, zip_password=None):
                 fullp = os.path.normpath(os.path.join(temp_extract_dir, info.filename))
                 if not os.path.exists(fullp):
                     continue
-                # friendly basename (avoid collisions)
                 base = os.path.basename(info.filename)
-                # if collision, append suffix
                 key = base
                 if key in EXTRACT_MAP:
-                    # create unique by adding index
                     idx = count.get(base, 1) + 1
                     count[base] = idx
                     name_only, extn = os.path.splitext(base)
@@ -454,7 +438,6 @@ def extract_zip_and_map(zip_path, zip_password=None):
         if not EXTRACT_MAP:
             logs.append("No supported audio files found in ZIP.")
             return [], "\n".join(logs)
-        # return sorted friendly names
         friendly = sorted(EXTRACT_MAP.keys())
         return friendly, "\n".join(logs)
     except Exception as e:
@@ -468,14 +451,12 @@ def transcribe_single_file(path, model_name="small", device_choice="auto", enabl
     try:
         if not path:
             return None, "", "No file provided."
-        # normalize path if it's a file-like dict
         p = path.name if hasattr(path, "name") else str(path)
         device = None if device_choice == "auto" else device_choice
         model = get_whisper_model(model_name, device=device)
         logs.append(f"Loaded model: {model_name}")
         wav = convert_to_wav_if_needed(p)
         logs.append(f"Converted to WAV: {os.path.basename(wav)}")
-        # call whisper transcribe
         result = model.transcribe(wav)
         text = result.get("text", "").strip()
         if enable_memory:
@@ -484,7 +465,6 @@ def transcribe_single_file(path, model_name="small", device_choice="auto", enabl
         srt_path = None
         if generate_srt and result.get("segments"):
             srt_text = segments_to_srt(result["segments"])
-            # save srt in temp dir
             srt_fp = os.path.join(tempfile.gettempdir(), f"{os.path.splitext(os.path.basename(p))[0]}.srt")
             with open(srt_fp, "w", encoding="utf-8") as fh:
                 fh.write(srt_text)
@@ -496,7 +476,6 @@ def transcribe_single_file(path, model_name="small", device_choice="auto", enabl
                 logs.append("Memory updated.")
             except Exception:
                 pass
-        # cleanup intermediate wav if created
         if wav and os.path.exists(wav) and wav != p:
             try:
                 os.unlink(wav)
@@ -515,7 +494,6 @@ def batch_transcribe(friendly_selected, uploaded_files, model_name, device_name,
     srt_files = []
     out_doc = None
     paths = []
-    # selected from zip (friendly names)
     if friendly_selected:
         for key in friendly_selected:
             p = EXTRACT_MAP.get(key)
@@ -523,7 +501,6 @@ def batch_transcribe(friendly_selected, uploaded_files, model_name, device_name,
                 paths.append(p)
             else:
                 logs.append(f"Warning: selected file not found in extract map: {key}")
-    # uploaded files
     if uploaded_files:
         if isinstance(uploaded_files, (list, tuple)):
             for f in uploaded_files:
@@ -548,7 +525,6 @@ def batch_transcribe(friendly_selected, uploaded_files, model_name, device_name,
             logs.append(f"Merged transcript saved: {out_doc}")
         except Exception as e:
             logs.append(f"Merge failed: {e}")
-    # if multiple SRTs, if desired we could zip them; here we just return first SRT if any
     srt_return = srt_files[0] if srt_files else None
     return combined, "\n".join(logs), out_doc, srt_return
@@ -559,22 +535,57 @@ print("DEBUG: building Gradio UI", flush=True)
 available_choices, default_choice = safe_model_choices(prefer_default="small")
 CSS = """
-:root{ --accent:#4f46e5; --muted:#6b7280; --card:#ffffff; --bg:#f7f8fb; }
-body { background: var(--bg); font-family: Inter, system-ui, -apple-system, "Segoe UI", Roboto, "Helvetica Neue", Arial; }
 .header { padding: 14px; border-radius: 10px; background: linear-gradient(90deg, rgba(79,70,229,0.08), rgba(99,102,241,0.02)); margin-bottom: 12px; display:flex;align-items:center;gap:12px; }
 .app-icon { width:50px;height:50px;border-radius:10px;background:linear-gradient(135deg,var(--accent),#06b6d4);display:flex;align-items:center;justify-content:center;color:white;font-weight:700;font-size:20px; }
 .card { background:var(--card); border-radius:10px; padding:12px; box-shadow: 0 6px 20px rgba(16,24,40,0.04); }
-.transcript-area { white-space:pre-wrap; font-family: ui-monospace, SFMono-Regular, Menlo, Monaco, "Roboto Mono", monospace; background:#0f172a; color:#e6eef8; padding:12px; border-radius:8px; min-height:200px; }
 .small-note { color:var(--muted); font-size:12px;}
 """
-with gr.Blocks(title="Whisper Transcriber (improved)", css=CSS) as demo:
     with gr.Row(elem_classes="header"):
         with gr.Column(scale=0):
             gr.HTML("<div class='app-icon'>WT</div>")
         with gr.Column():
             gr.Markdown("<h3 style='margin:0'>Whisper Transcriber — improved</h3>")
-            gr.Markdown("<div class='small-note'>Per-file selection after unzip, SRT export, model availability checks.</div>")
     with gr.Tabs():
         # Single Audio Tab
@@ -604,7 +615,6 @@ with gr.Blocks(title="Whisper Transcriber (improved)", css=CSS) as demo:
                     return None, "", None, "No audio file provided."
                 path = audio_file if isinstance(audio_file, str) else (audio_file.name if hasattr(audio_file, "name") else str(audio_file))
                 text, srt_path, logs = transcribe_single_file(path, model_name=model_name, device_choice=device, enable_memory=mem_on, generate_srt=srt_on)
-                # set audio preview to original file
                 preview = audio_file
                 return preview, text, srt_path, logs
@@ -642,7 +652,6 @@ with gr.Blocks(title="Whisper Transcriber (improved)", css=CSS) as demo:
                     return [], "No ZIP provided."
                 zip_path = zip_file.name if hasattr(zip_file, "name") else str(zip_file)
                 friendly, logs = extract_zip_and_map(zip_path, password)
-                # Show friendly names and logs
                 return friendly, logs
             batch_extract_btn.click(fn=_do_extract, inputs=[batch_zip, zip_password], outputs=[batch_select, batch_extract_logs])
@@ -745,7 +754,7 @@ with gr.Blocks(title="Whisper Transcriber (improved)", css=CSS) as demo:
             mem_clear_btn.click(fn=_clear_mem, inputs=[], outputs=[mem_status])
             mem_view_btn.click(fn=_view_mem, inputs=[], outputs=[mem_status])
-        # Settings Tab
         with gr.TabItem("Settings"):
             with gr.Row():
                 with gr.Column():
@@ -756,12 +765,34 @@ with gr.Blocks(title="Whisper Transcriber (improved)", css=CSS) as demo:
                         gr.Markdown("- Provide `fine_tune.py` if you plan to use the Fine-tune workflow.")
                 with gr.Column():
                     with gr.Group(elem_classes="card"):
                         gr.Markdown("### Diagnostics")
                         diag_btn = gr.Button("Show memory summary")
                         diag_out = gr.Textbox(label="Diagnostics", lines=12, interactive=False)
-                        diag_btn.click(fn=lambda: (lambda: _view_mem())(), inputs=[], outputs=[diag_out])
-# Launch
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", 7860))
     print("DEBUG: launching improved Gradio on port", port, flush=True)

 # app.py
+# Whisper Transcriber — Full improved app.py with Dark/Light toggle
 # Requirements: gradio, whisper, pydub, pyzipper, python-docx, ffmpeg
 import os
 def whisper_available_models():
     """Return set of model names if whisper provides helper; otherwise conservative fallback."""
     try:
         models = whisper.available_models()
         if isinstance(models, (list, tuple, set)):
             return set(models)
     except Exception:
         pass
     return set(["tiny", "base", "small", "medium", "large", "large-v3"])
 def safe_model_choices(prefer_default="small"):
     base_choices = ["small", "medium", "large", "large-v3", "base", "tiny"]
     choices = [m for m in base_choices if m in AVAILABLE_MODEL_SET]
     if not choices:
+        choices = base_choices
     if prefer_default in choices:
         default = prefer_default
     else:
 # ---------- SRT export ----------
 def segments_to_srt(segments):
     def fmt_time(t):
         h = int(t // 3600)
         m = int((t % 3600) // 60)
         s = int(t % 60)
         lines.append(str(i))
         lines.append(f"{fmt_time(start)} --> {fmt_time(end)}")
         lines.append(text)
+        lines.append("")
     return "\n".join(lines)
 # ---------- ZIP extraction + mapping for UI ----------
 def extract_zip_and_map(zip_path, zip_password=None):
     global EXTRACT_MAP
     EXTRACT_MAP = {}
     temp_extract_dir = os.path.join(tempfile.gettempdir(), "extracted_audio")
                 fullp = os.path.normpath(os.path.join(temp_extract_dir, info.filename))
                 if not os.path.exists(fullp):
                     continue
                 base = os.path.basename(info.filename)
                 key = base
                 if key in EXTRACT_MAP:
                     idx = count.get(base, 1) + 1
                     count[base] = idx
                     name_only, extn = os.path.splitext(base)
         if not EXTRACT_MAP:
             logs.append("No supported audio files found in ZIP.")
             return [], "\n".join(logs)
         friendly = sorted(EXTRACT_MAP.keys())
         return friendly, "\n".join(logs)
     except Exception as e:
     try:
         if not path:
             return None, "", "No file provided."
         p = path.name if hasattr(path, "name") else str(path)
         device = None if device_choice == "auto" else device_choice
         model = get_whisper_model(model_name, device=device)
         logs.append(f"Loaded model: {model_name}")
         wav = convert_to_wav_if_needed(p)
         logs.append(f"Converted to WAV: {os.path.basename(wav)}")
         result = model.transcribe(wav)
         text = result.get("text", "").strip()
         if enable_memory:
         srt_path = None
         if generate_srt and result.get("segments"):
             srt_text = segments_to_srt(result["segments"])
             srt_fp = os.path.join(tempfile.gettempdir(), f"{os.path.splitext(os.path.basename(p))[0]}.srt")
             with open(srt_fp, "w", encoding="utf-8") as fh:
                 fh.write(srt_text)
                 logs.append("Memory updated.")
             except Exception:
                 pass
         if wav and os.path.exists(wav) and wav != p:
             try:
                 os.unlink(wav)
     srt_files = []
     out_doc = None
     paths = []
     if friendly_selected:
         for key in friendly_selected:
             p = EXTRACT_MAP.get(key)
                 paths.append(p)
             else:
                 logs.append(f"Warning: selected file not found in extract map: {key}")
     if uploaded_files:
         if isinstance(uploaded_files, (list, tuple)):
             for f in uploaded_files:
             logs.append(f"Merged transcript saved: {out_doc}")
         except Exception as e:
             logs.append(f"Merge failed: {e}")
     srt_return = srt_files[0] if srt_files else None
     return combined, "\n".join(logs), out_doc, srt_return
 available_choices, default_choice = safe_model_choices(prefer_default="small")
 CSS = """
+:root{
+  --accent:#4f46e5;
+  --muted:#6b7280;
+  --card:#ffffff;
+  --bg:#f7f8fb;
+  --text:#0f172a;
+  --transcript-bg:#0f172a;
+  --transcript-color:#e6eef8;
+}
+[data-theme="dark"] {
+  --accent: #7c3aed;
+  --muted: #9ca3af;
+  --card: #0b1220;
+  --bg: #071022;
+  --text: #e6eef8;
+  --transcript-bg: #071026;
+  --transcript-color: #e6eef8;
+}
+body { background: var(--bg); color: var(--text); font-family: Inter, system-ui, -apple-system, "Segoe UI", Roboto, "Helvetica Neue", Arial; }
 .header { padding: 14px; border-radius: 10px; background: linear-gradient(90deg, rgba(79,70,229,0.08), rgba(99,102,241,0.02)); margin-bottom: 12px; display:flex;align-items:center;gap:12px; }
 .app-icon { width:50px;height:50px;border-radius:10px;background:linear-gradient(135deg,var(--accent),#06b6d4);display:flex;align-items:center;justify-content:center;color:white;font-weight:700;font-size:20px; }
 .card { background:var(--card); border-radius:10px; padding:12px; box-shadow: 0 6px 20px rgba(16,24,40,0.04); }
+.transcript-area { white-space:pre-wrap; font-family: ui-monospace, SFMono-Regular, Menlo, Monaco, "Roboto Mono", monospace; background: var(--transcript-bg); color: var(--transcript-color); padding:12px; border-radius:8px; min-height:200px; }
 .small-note { color:var(--muted); font-size:12px;}
 """
+with gr.Blocks(title="Whisper Transcriber (dark/light)", css=CSS) as demo:
+    # apply saved theme early
+    gr.HTML("""
+    <script>
+      (function() {
+        try {
+          const saved = localStorage.getItem('wt_theme');
+          if (saved) {
+            document.documentElement.setAttribute('data-theme', saved);
+          } else {
+            document.documentElement.setAttribute('data-theme', 'light');
+          }
+        } catch (e) {
+          console.warn('Theme init failed', e);
+        }
+      })();
+    </script>
+    """)
     with gr.Row(elem_classes="header"):
         with gr.Column(scale=0):
             gr.HTML("<div class='app-icon'>WT</div>")
         with gr.Column():
             gr.Markdown("<h3 style='margin:0'>Whisper Transcriber — improved</h3>")
+            gr.Markdown("<div class='small-note'>Per-file selection after unzip, SRT export, model availability checks, dark/light toggle.</div>")
     with gr.Tabs():
         # Single Audio Tab
                     return None, "", None, "No audio file provided."
                 path = audio_file if isinstance(audio_file, str) else (audio_file.name if hasattr(audio_file, "name") else str(audio_file))
                 text, srt_path, logs = transcribe_single_file(path, model_name=model_name, device_choice=device, enable_memory=mem_on, generate_srt=srt_on)
                 preview = audio_file
                 return preview, text, srt_path, logs
                     return [], "No ZIP provided."
                 zip_path = zip_file.name if hasattr(zip_file, "name") else str(zip_file)
                 friendly, logs = extract_zip_and_map(zip_path, password)
                 return friendly, logs
             batch_extract_btn.click(fn=_do_extract, inputs=[batch_zip, zip_password], outputs=[batch_select, batch_extract_logs])
             mem_clear_btn.click(fn=_clear_mem, inputs=[], outputs=[mem_status])
             mem_view_btn.click(fn=_view_mem, inputs=[], outputs=[mem_status])
+        # Settings Tab (includes theme toggle)
         with gr.TabItem("Settings"):
             with gr.Row():
                 with gr.Column():
                         gr.Markdown("- Provide `fine_tune.py` if you plan to use the Fine-tune workflow.")
                 with gr.Column():
                     with gr.Group(elem_classes="card"):
+                        gr.Markdown("### Theme")
+                        theme_toggle = gr.Button("Toggle Dark / Light Theme")
+                        theme_note = gr.Markdown("Theme preference is saved in your browser (localStorage).")
                         gr.Markdown("### Diagnostics")
                         diag_btn = gr.Button("Show memory summary")
                         diag_out = gr.Textbox(label="Diagnostics", lines=12, interactive=False)
+                        diag_btn.click(fn=_view_mem, inputs=[], outputs=[diag_out])
+                        # client-side JS toggle (runs without Python)
+                        theme_toggle.click(
+                            None,
+                            [],
+                            [],
+                            _js="""
+                            () => {
+                              try {
+                                const root = document.documentElement;
+                                const cur = root.getAttribute('data-theme') === 'dark' ? 'light' : 'dark';
+                                root.setAttribute('data-theme', cur);
+                                localStorage.setItem('wt_theme', cur);
+                              } catch (e) {
+                                console.error('Theme toggle failed', e);
+                              }
+                            }
+                            """
+                        )
+# ---------- Launch ----------
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", 7860))
     print("DEBUG: launching improved Gradio on port", port, flush=True)