Spaces:

mrrtmob
/

khmer-tts

Running on Zero

mrrtmob commited on Oct 2, 2025

Commit

cb33cc1

1 Parent(s): 1398bcf

Normalize audio samples to int16 format to prevent Gradio warnings

Files changed (1) hide show

app.py CHANGED Viewed

@@ -534,6 +534,12 @@ def generate_zero_shot_speech(audio_file, transcript, target_text, progress=gr.P
         if wav_forms and len(wav_forms) > 0:
             audio_samples = wav_forms[0]
             print("Zero-shot speech generation completed successfully")
             return (24000, audio_samples)
         else:

         if wav_forms and len(wav_forms) > 0:
             audio_samples = wav_forms[0]
+            # Convert from float32 to int16 to avoid Gradio warning
+            if isinstance(audio_samples, torch.Tensor):
+                audio_samples = audio_samples.detach().cpu().numpy()
+            # Normalize and convert to int16
+            audio_samples = np.clip(audio_samples, -1.0, 1.0)
+            audio_samples = (audio_samples * 32767).astype(np.int16)
             print("Zero-shot speech generation completed successfully")
             return (24000, audio_samples)
         else: