Spaces:

adelevett
/

Flashcard2Audio

Sleeping

App Files Files Community

adelevett commited on Feb 6

Commit

6f37f73

verified ·

1 Parent(s): dd5dddc

Upload 4 files

Browse files

Files changed (3) hide show

README.md +2 -2
app.py +23 -7
requirements.txt +2 -1

README.md CHANGED Viewed

@@ -4,10 +4,10 @@ emoji: 🎴
 colorFrom: blue
 colorTo: purple
 sdk: gradio
-sdk_version: 6.5.1
 app_file: app.py
 pinned: false
-python_version: '3.10'
 ---
 # Flashcard2Audio

 colorFrom: blue
 colorTo: purple
 sdk: gradio
+sdk_version: 4.0.0
 app_file: app.py
 pinned: false
+python_version: "3.10"
 ---
 # Flashcard2Audio

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 import pandas as pd
 import genanki
-import pocket_tts
 import tempfile
 import os
 import shutil
@@ -11,6 +11,8 @@ import sqlite3
 import re
 import time
 import json
 from pathlib import Path
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from pydub import AudioSegment
@@ -41,11 +43,19 @@ def has_existing_audio(text):
 print("Loading TTS Model...")
 try:
-    TTS_MODEL = pocket_tts.load_model()
     print("Model Loaded Successfully.")
 except Exception as e:
     print(f"CRITICAL ERROR loading model: {e}")
     TTS_MODEL = None
 def wav_to_mp3(src_wav, dst_mp3):
     AudioSegment.from_wav(src_wav).export(dst_mp3, format="mp3", bitrate="64k")
@@ -70,8 +80,11 @@ def generate_audio_for_row(q_text, a_text, idx, tmpdir, mode):
         q_wav = os.path.join(tmpdir, f"q_{idx}.wav")
         try:
             clean = clean_text_for_tts(q_text)
-            if clean and TTS_MODEL:
-                pocket_tts.generate_to_file(TTS_MODEL, clean, q_wav)
                 q_out = q_wav
             else:
                 AudioSegment.silent(duration=500).export(q_wav, format="wav")
@@ -89,8 +102,11 @@ def generate_audio_for_row(q_text, a_text, idx, tmpdir, mode):
         a_wav = os.path.join(tmpdir, f"a_{idx}.wav")
         try:
             clean = clean_text_for_tts(a_text)
-            if clean and TTS_MODEL:
-                pocket_tts.generate_to_file(TTS_MODEL, clean, a_wav)
                 a_out = a_wav
             else:
                 AudioSegment.silent(duration=500).export(a_wav, format="wav")
@@ -344,7 +360,7 @@ with gr.Blocks(title="Pocket TTS Anki") as app:
             label="Generation Mode"
         )
-    preview_table = gr.Dataframe(label="Preview (First 100)", interactive=False, height=300)
     with gr.Row():
         btn = gr.Button("🚀 Generate Deck", variant="primary")

 import gradio as gr
 import pandas as pd
 import genanki
+from pocket_tts import TTSModel
 import tempfile
 import os
 import shutil
 import re
 import time
 import json
+import torch
+import scipy.io.wavfile
 from pathlib import Path
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from pydub import AudioSegment
 print("Loading TTS Model...")
 try:
+    TTS_MODEL = TTSModel.load_model()
     print("Model Loaded Successfully.")
 except Exception as e:
     print(f"CRITICAL ERROR loading model: {e}")
     TTS_MODEL = None
+# Get default voice state
+VOICE_STATE = None
+if TTS_MODEL:
+    try:
+        VOICE_STATE = TTS_MODEL.get_state_for_audio_prompt("alba")  # Default voice
+    except Exception as e:
+        print(f"Warning: Could not load default voice: {e}")
 def wav_to_mp3(src_wav, dst_mp3):
     AudioSegment.from_wav(src_wav).export(dst_mp3, format="mp3", bitrate="64k")
         q_wav = os.path.join(tmpdir, f"q_{idx}.wav")
         try:
             clean = clean_text_for_tts(q_text)
+            if clean and TTS_MODEL and VOICE_STATE:
+                # Generate audio using new API
+                audio_tensor = TTS_MODEL.generate_audio(VOICE_STATE, clean)
+                # Convert tensor to numpy and save as wav
+                scipy.io.wavfile.write(q_wav, TTS_MODEL.sample_rate, audio_tensor.numpy())
                 q_out = q_wav
             else:
                 AudioSegment.silent(duration=500).export(q_wav, format="wav")
         a_wav = os.path.join(tmpdir, f"a_{idx}.wav")
         try:
             clean = clean_text_for_tts(a_text)
+            if clean and TTS_MODEL and VOICE_STATE:
+                # Generate audio using new API
+                audio_tensor = TTS_MODEL.generate_audio(VOICE_STATE, clean)
+                # Convert tensor to numpy and save as wav
+                scipy.io.wavfile.write(a_wav, TTS_MODEL.sample_rate, audio_tensor.numpy())
                 a_out = a_wav
             else:
                 AudioSegment.silent(duration=500).export(a_wav, format="wav")
             label="Generation Mode"
         )
+    preview_table = gr.Dataframe(label="Preview (First 100)", interactive=False)
     with gr.Row():
         btn = gr.Button("🚀 Generate Deck", variant="primary")

requirements.txt CHANGED Viewed

@@ -4,9 +4,10 @@
 # Linux (HF Spaces) - use CPU builds from extra index
 torch>=2.5.0
-gradio>=4.0.0
 pandas
 genanki
 pydub
 # Pocket TTS is not on PyPI - must install from GitHub
 git+https://github.com/kyutai-labs/pocket-tts.git

 # Linux (HF Spaces) - use CPU builds from extra index
 torch>=2.5.0
+gradio
 pandas
 genanki
 pydub
+scipy
 # Pocket TTS is not on PyPI - must install from GitHub
 git+https://github.com/kyutai-labs/pocket-tts.git