Spaces:

mrrtmob
/

khmer-tts

Running on Zero

App Files Files Community

mrrtmob commited on Oct 2, 2025

Commit

5f8fcc3

1 Parent(s): 31bd2cf

Refactor audio processing in app.py for improved tensor handling and update example inputs in the UI

Browse files

Files changed (2) hide show

app.py +10 -15
example/example1.wav +3 -0

app.py CHANGED Viewed

@@ -362,9 +362,8 @@ def generate_speech(text, temperature=0.6, top_p=0.95, repetition_penalty=1.1, m
 def tokenize_audio(audio_file_path, snac_model):
     audio_array, sample_rate = librosa.load(audio_file_path, sr=24000)
-    waveform = torch.from_numpy(audio_array).unsqueeze(0)
-    waveform = waveform.to(dtype=torch.float32)
-    waveform = waveform.unsqueeze(0)
     with torch.inference_mode():
         codes = snac_model.encode(waveform)
     all_codes = []
@@ -469,9 +468,9 @@ def redistribute_codes_zeroshot(code_list, snac_model):
         layer_3.append(code_list[7 * i + 5] - (5 * 4096))
         layer_3.append(code_list[7 * i + 6] - (6 * 4096))
     codes = [
-        torch.tensor(layer_1).unsqueeze(0),
-        torch.tensor(layer_2).unsqueeze(0),
-        torch.tensor(layer_3).unsqueeze(0)
     ]
     audio_hat = snac_model.decode(codes)
     return audio_hat
@@ -777,16 +776,12 @@ with gr.Blocks(title="Khmer Text-to-Speech", css=css, theme=gr.themes.Soft()) as
                     )
             # Zero-shot examples
-            zs_examples = [
-                ["ជំរាបសួរ ខ្ញុំឈ្មោះ សុខា។", "សួស្តី អ្នកសុខសប្បាយទេ?"],
-                ["ថ្ងៃនេះអាកាសធាតុល្អ។", "ខ្ញុំចង់ទៅលេងសួនច្បារ។"],
-                ["ខ្ញុំចូលចិត្តញាំបាយ។", "តើអ្នកចូលចិត្តម្ហូបអ្វី?"]
-            ]
             gr.Examples(
-                examples=zs_examples,
-                inputs=[ref_transcript, target_text_input],
-                label="📝 Example Transcript & Target Text Pairs"
             )
             # Zero-shot event handlers

 def tokenize_audio(audio_file_path, snac_model):
     audio_array, sample_rate = librosa.load(audio_file_path, sr=24000)
+    waveform = torch.from_numpy(audio_array).unsqueeze(0).unsqueeze(0)
+    waveform = waveform.to(dtype=torch.float32, device=device)
     with torch.inference_mode():
         codes = snac_model.encode(waveform)
     all_codes = []
         layer_3.append(code_list[7 * i + 5] - (5 * 4096))
         layer_3.append(code_list[7 * i + 6] - (6 * 4096))
     codes = [
+        torch.tensor(layer_1, device=device).unsqueeze(0),
+        torch.tensor(layer_2, device=device).unsqueeze(0),
+        torch.tensor(layer_3, device=device).unsqueeze(0)
     ]
     audio_hat = snac_model.decode(codes)
     return audio_hat
                     )
             # Zero-shot examples
             gr.Examples(
+                examples=[
+                    ["example/example1.wav", "គឺនៅពេលដែលមានមនុស្សស្លាប់ នៅភូមិគាត់ហ្នឹងឲ្យតែថាមានមនុស្សស្លាប់ គឺគេតែងតែយកសាកសពហ្នឹង", "សួស្តី អ្នកសុខសប្បាយទេ?"]
+                ],
+                inputs=[ref_audio, ref_transcript, target_text_input],
+                label="📝 Example"
             )
             # Zero-shot event handlers

example/example1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f5b0884ffc6253de1490d0c09b89e268bfebb482a94ad6d60679f8c4c24c656
+size 282718