Spaces:

jkorstad
/

AudioBook

Sleeping

App Files Files Community

jkorstad commited on Apr 23

Commit

8b010d4

1 Parent(s): 799f207

Polish pass: add File download for ZIP support, Clear button, sample load updates stats/chapters, GPU detection cleanup, character descriptions persist in save/load, long-text warnings, first-run notes on Generate tab.

Browse files

Files changed (2) hide show

app.py +44 -18
backend.py +4 -4

app.py CHANGED Viewed

@@ -234,8 +234,7 @@ _pipeline: Optional[AudiobookPipeline] = None
 def get_pipeline() -> AudiobookPipeline:
     global _pipeline
     if _pipeline is None:
-        device = "cuda" if os.system("nvidia-smi > /dev/null 2>&1") == 0 else "cpu"
-        _pipeline = AudiobookPipeline(device=device)
     return _pipeline
@@ -258,10 +257,6 @@ def update_stats(text: str) -> tuple:
     return str(wc), dur
-def load_sample(name: str) -> str:
-    return SAMPLE_STORIES.get(name, "")
 def handle_upload(file_obj) -> tuple:
     if file_obj is None:
         return "", "No file uploaded."
@@ -311,7 +306,11 @@ def generate_audiobook_gpu(
     gen_temp, gen_seed, output_fmt, *args
 ):
     if not text or len(text.strip()) < 50:
-        return None, "", "Error: Please provide at least 50 characters of story text.", ""
     # Unpack character args (80 values = 8 chars x 10 fields)
     names = list(args[0:8])
@@ -390,11 +389,11 @@ def generate_audiobook_gpu(
             extra_path = pipe.export_segments_zip(seg_paths)
         final_path = extra_path if extra_path else output_path
-        return final_path, seg_html, f"Done! {len(seg_meta)} segments generated.", progress_text
     except Exception as e:
         import traceback
         traceback.print_exc()
-        return None, "", f"Error: {str(e)}", progress_text
 @spaces.GPU(duration=60)
@@ -451,7 +450,11 @@ def preview_char_voice_gpu(name, mode, preset, audio, ref_text, design, instruct
 @spaces.GPU(duration=180)
 def quick_generate_gpu(text, mode, preset, audio, ref_text, design, instruct, lang, speed, gen_temp, output_fmt, gen_seed=42):
     if not text or len(text.strip()) < 50:
-        return None, "Error: Text too short."
     pipe = get_pipeline()
     nar_cfg = VoiceConfig(
@@ -488,11 +491,11 @@ def quick_generate_gpu(text, mode, preset, audio, ref_text, design, instruct, la
             extra_path = pipe.export_segments_zip(seg_paths)
         final_path = extra_path if extra_path else output_path
-        return final_path, f"Quick audiobook ready! {len(seg_meta)} segments."
     except Exception as e:
         import traceback
         traceback.print_exc()
-        return None, f"Error: {str(e)}"
 # ---------------------------------------------------------------------------
@@ -527,7 +530,7 @@ def do_save_project(text, nar_mode, nar_preset, nar_audio, nar_ref_text, nar_des
         if not names[i]:
             continue
         char_configs[names[i]] = VoiceConfig(
-            name=names[i], mode=modes[i],
             preset=presets[i] if modes[i] == "preset" else None,
             ref_audio=audios[i] if modes[i] == "clone" and audios[i] else None,
             ref_text=ref_texts[i] if modes[i] == "clone" else None,
@@ -565,7 +568,7 @@ def do_load_project(json_str):
                 char_updates.extend([
                     gr.update(visible=True),
                     gr.update(value=c.name, visible=True),
-                    gr.update(value="", visible=True),
                     gr.update(value=c.mode, visible=True),
                     gr.update(value=c.preset if c.preset else "Ryan", visible=c.mode=="preset"),
                     gr.update(value=c.ref_audio, visible=c.mode=="clone"),
@@ -679,7 +682,8 @@ def build_app():
                         quick_temp = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.05, label="Temperature")
                         quick_fmt = gr.Dropdown(choices=["mp3", "wav", "zip"], value="mp3", label="Output Format")
                         quick_btn = gr.Button("⚡ Quick Generate", variant="primary")
-                        quick_output_audio = gr.Audio(label="Quick Audiobook", interactive=False)
                         quick_status = gr.Textbox(show_label=False, interactive=False)
                         gr.Markdown("---")
                         gr.Markdown("**Quick Generate** uses a single narrator voice for the entire text. Supports preset, clone, or AI-designed voices.")
@@ -692,6 +696,16 @@ def build_app():
                         interactive=True,
                     )
                     refresh_chapters_btn = gr.Button("🔄 Detect Chapters")
                 with gr.Row():
                     gr.Markdown("### Character Detection")
@@ -702,12 +716,22 @@ def build_app():
                 # Wiring
                 file_upload.change(handle_upload, inputs=[file_upload], outputs=[story_input, extract_status])
-                sample_dropdown.change(load_sample, inputs=[sample_dropdown], outputs=[story_input])
                 story_input.change(update_stats, inputs=[story_input], outputs=[stat_words, stat_dur])
                 quick_btn.click(
                     quick_generate_gpu,
                     inputs=[story_input, quick_mode, quick_preset, quick_audio, quick_ref_text, quick_design, quick_instruct, quick_lang, quick_speed, quick_temp, quick_fmt],
-                    outputs=[quick_output_audio, quick_status],
                 )
                 quick_mode.change(on_mode_change, inputs=quick_mode, outputs=[quick_preset, quick_audio, quick_ref_text, quick_design])
@@ -805,6 +829,7 @@ Configure up to 8 characters. Each character can use one of three voice modes:
             # ==================== TAB 3: Generate ====================
             with gr.TabItem("⚡ Generate"):
                 with gr.Row():
                     with gr.Column(scale=1):
                         gr.Markdown("### Settings")
@@ -817,6 +842,7 @@ Configure up to 8 characters. Each character can use one of three voice modes:
                     with gr.Column(scale=2):
                         gr.Markdown("### Output")
                         output_audio = gr.Audio(label="Generated Audiobook", type="filepath", interactive=False)
                         output_status = gr.Textbox(label="Status", interactive=False)
                         segment_list = gr.HTML(label="Segments")
@@ -944,7 +970,7 @@ Configure up to 8 characters. Each character can use one of three voice modes:
         gen_btn.click(
             wrapped_generate,
             inputs=gen_inputs,
-            outputs=[output_audio, segment_list, output_status, gen_progress],
         )
         # ---------- Project wiring ----------

 def get_pipeline() -> AudiobookPipeline:
     global _pipeline
     if _pipeline is None:
+        _pipeline = AudiobookPipeline()
     return _pipeline
     return str(wc), dur
 def handle_upload(file_obj) -> tuple:
     if file_obj is None:
         return "", "No file uploaded."
     gen_temp, gen_seed, output_fmt, *args
 ):
     if not text or len(text.strip()) < 50:
+        return None, None, "", "Error: Please provide at least 50 characters of story text.", ""
+    wc = len(text.split())
+    if wc > 5000:
+        print(f"[WARN] Long text: {wc} words. Generation may take a while or hit timeouts.")
     # Unpack character args (80 values = 8 chars x 10 fields)
     names = list(args[0:8])
             extra_path = pipe.export_segments_zip(seg_paths)
         final_path = extra_path if extra_path else output_path
+        return final_path, final_path, seg_html, f"Done! {len(seg_meta)} segments generated.", progress_text
     except Exception as e:
         import traceback
         traceback.print_exc()
+        return None, None, "", f"Error: {str(e)}", progress_text
 @spaces.GPU(duration=60)
 @spaces.GPU(duration=180)
 def quick_generate_gpu(text, mode, preset, audio, ref_text, design, instruct, lang, speed, gen_temp, output_fmt, gen_seed=42):
     if not text or len(text.strip()) < 50:
+        return None, None, "Error: Text too short."
+    wc = len(text.split())
+    if wc > 5000:
+        print(f"[WARN] Long text: {wc} words. Quick Generate may take a while or hit timeouts.")
     pipe = get_pipeline()
     nar_cfg = VoiceConfig(
             extra_path = pipe.export_segments_zip(seg_paths)
         final_path = extra_path if extra_path else output_path
+        return final_path, final_path, f"Quick audiobook ready! {len(seg_meta)} segments."
     except Exception as e:
         import traceback
         traceback.print_exc()
+        return None, None, f"Error: {str(e)}"
 # ---------------------------------------------------------------------------
         if not names[i]:
             continue
         char_configs[names[i]] = VoiceConfig(
+            name=names[i], mode=modes[i], description=descs[i] or "",
             preset=presets[i] if modes[i] == "preset" else None,
             ref_audio=audios[i] if modes[i] == "clone" and audios[i] else None,
             ref_text=ref_texts[i] if modes[i] == "clone" else None,
                 char_updates.extend([
                     gr.update(visible=True),
                     gr.update(value=c.name, visible=True),
+                    gr.update(value=c.description, visible=True),
                     gr.update(value=c.mode, visible=True),
                     gr.update(value=c.preset if c.preset else "Ryan", visible=c.mode=="preset"),
                     gr.update(value=c.ref_audio, visible=c.mode=="clone"),
                         quick_temp = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.05, label="Temperature")
                         quick_fmt = gr.Dropdown(choices=["mp3", "wav", "zip"], value="mp3", label="Output Format")
                         quick_btn = gr.Button("⚡ Quick Generate", variant="primary")
+                        quick_output_audio = gr.Audio(label="Quick Audiobook", type="filepath", interactive=False)
+                        quick_output_file = gr.File(label="Download", interactive=False)
                         quick_status = gr.Textbox(show_label=False, interactive=False)
                         gr.Markdown("---")
                         gr.Markdown("**Quick Generate** uses a single narrator voice for the entire text. Supports preset, clone, or AI-designed voices.")
                         interactive=True,
                     )
                     refresh_chapters_btn = gr.Button("🔄 Detect Chapters")
+                    clear_story_btn = gr.Button("🗑️ Clear", variant="secondary")
+                def clear_story():
+                    return "", gr.update(choices=["All"], value="All"), "0", "0 sec", ""
+                clear_story_btn.click(
+                    clear_story,
+                    inputs=[],
+                    outputs=[story_input, chapter_selector, stat_words, stat_dur, extract_status],
+                )
                 with gr.Row():
                     gr.Markdown("### Character Detection")
                 # Wiring
                 file_upload.change(handle_upload, inputs=[file_upload], outputs=[story_input, extract_status])
+                def load_sample_and_update(name):
+                    text = SAMPLE_STORIES.get(name, "")
+                    wc = len(text.split()) if text else 0
+                    dur = estimate_duration(wc)
+                    return text, str(wc), dur, gr.update(choices=["All"], value="All"), ""
+                sample_dropdown.change(
+                    load_sample_and_update,
+                    inputs=[sample_dropdown],
+                    outputs=[story_input, stat_words, stat_dur, chapter_selector, extract_status],
+                )
                 story_input.change(update_stats, inputs=[story_input], outputs=[stat_words, stat_dur])
                 quick_btn.click(
                     quick_generate_gpu,
                     inputs=[story_input, quick_mode, quick_preset, quick_audio, quick_ref_text, quick_design, quick_instruct, quick_lang, quick_speed, quick_temp, quick_fmt],
+                    outputs=[quick_output_audio, quick_output_file, quick_status],
                 )
                 quick_mode.change(on_mode_change, inputs=quick_mode, outputs=[quick_preset, quick_audio, quick_ref_text, quick_design])
             # ==================== TAB 3: Generate ====================
             with gr.TabItem("⚡ Generate"):
+                gr.Markdown("_Note: The first generation downloads Qwen3-TTS 1.7B models (~5 GB) and may take 2–5 minutes. Subsequent runs are much faster._")
                 with gr.Row():
                     with gr.Column(scale=1):
                         gr.Markdown("### Settings")
                     with gr.Column(scale=2):
                         gr.Markdown("### Output")
                         output_audio = gr.Audio(label="Generated Audiobook", type="filepath", interactive=False)
+                        output_file = gr.File(label="Download", interactive=False)
                         output_status = gr.Textbox(label="Status", interactive=False)
                         segment_list = gr.HTML(label="Segments")
         gen_btn.click(
             wrapped_generate,
             inputs=gen_inputs,
+            outputs=[output_audio, output_file, segment_list, output_status, gen_progress],
         )
         # ---------- Project wiring ----------

backend.py CHANGED Viewed

@@ -127,6 +127,7 @@ class VoiceConfig:
     instruct: str = ""
     language: str = "English"
     speed: float = 1.0  # 0.5 to 2.0
     def to_dict(self) -> dict:
         return asdict(self)
@@ -401,8 +402,7 @@ class TextProcessor:
 # ---------------------------------------------------------------------------
 class TTSEngine:
-    def __init__(self, device: str = "cuda"):
-        self.device = device
         self._custom_voice_model = None
         self._base_model = None
         self._design_model = None
@@ -706,8 +706,8 @@ def ai_extract_characters(text: str, api_token: Optional[str] = None) -> List[Ch
 # ---------------------------------------------------------------------------
 class AudiobookPipeline:
-    def __init__(self, device: str = "cuda"):
-        self.tts = TTSEngine(device=device)
         self.processor = TextProcessor()
         self.temp_dir = Path(tempfile.gettempdir()) / "audiobook_segments"
         self.temp_dir.mkdir(exist_ok=True)

     instruct: str = ""
     language: str = "English"
     speed: float = 1.0  # 0.5 to 2.0
+    description: str = ""  # UI-only, not used for TTS
     def to_dict(self) -> dict:
         return asdict(self)
 # ---------------------------------------------------------------------------
 class TTSEngine:
+    def __init__(self):
         self._custom_voice_model = None
         self._base_model = None
         self._design_model = None
 # ---------------------------------------------------------------------------
 class AudiobookPipeline:
+    def __init__(self):
+        self.tts = TTSEngine()
         self.processor = TextProcessor()
         self.temp_dir = Path(tempfile.gettempdir()) / "audiobook_segments"
         self.temp_dir.mkdir(exist_ok=True)