callentrin_test2

Sleeping

App Files Files Community

rishidahiya commited on Nov 12, 2025

Commit

1fae304

verified ·

1 Parent(s): ee7df1b

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -27

app.py CHANGED Viewed

@@ -5,36 +5,26 @@ import librosa
 import soundfile as sf
 import numpy as np
 import os
 # Load models at startup
-import sys
 print("Loading models...")
-print(f"Current working directory: {os.getcwd()}")
-print(f"Python path: {sys.path}")
-print(f"Files in /app: {os.listdir('/app') if os.path.exists('/app') else 'N/A'}")
-# Try multiple possible locations
-possible_paths = [
-    "saved_models/encoder.pt",
-    "/app/saved_models/encoder.pt",
-    "./saved_models/encoder.pt"
-]
-encoder_path = None
-for path in possible_paths:
-    if os.path.exists(path):
-        encoder_path = path
-        print(f"Found encoder at: {encoder_path}")
-        break
-if not encoder_path:
-    print(f"ERROR: Could not find encoder.pt in any location!")
-    print(f"Trying to list saved_models: {os.listdir('saved_models') if os.path.exists('saved_models') else 'Folder does not exist'}")
-synthesizer_path = encoder_path.replace('encoder.pt', 'synthesizer.pt') if encoder_path else "saved_models/synthesizer.pt"
 try:
-    encoder_inference.load_model(encoder_path or "saved_models/encoder.pt")
     print("✓ Encoder loaded!")
 except Exception as e:
     print(f"Encoder load error: {e}")
@@ -88,9 +78,28 @@ def clone_voice(voice_sample, text):
         mels = synthesizer.synthesize_spectrograms([text], [embed])
         print(f"Mel-spectrogram: {mels[0].shape}")
-        # Vocode to audio using Griffin-Lim algorithm
-        wav_generated = librosa.feature.inverse.mel_to_audio(mels[0], sr=22050, n_iter=32)
-        print(f"Generated audio: {wav_generated.shape}")
         return (22050, (wav_generated * 32768).astype(np.int16)), "✅ Success! Your voice has been cloned!"

 import soundfile as sf
 import numpy as np
 import os
+import torch
+# Try to load HiFi-GAN vocoder
+vocoder = None
+try:
+    from speechbrain.inference.vocoders import HIFIGAN
+    vocoder = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-ljspeech", savedir="pretrained_models/hifigan", run_opts={"device":"cpu"})
+    print("✓ HiFi-GAN vocoder loaded!")
+except Exception as e:
+    print(f"HiFi-GAN load error: {e}, will use Griffin-Lim fallback")
+    vocoder = None
 # Load models at startup
 print("Loading models...")
+encoder_path = "saved_models/encoder.pt"
+synthesizer_path = "saved_models/synthesizer.pt"
 try:
+    encoder_inference.load_model(encoder_path)
     print("✓ Encoder loaded!")
 except Exception as e:
     print(f"Encoder load error: {e}")
         mels = synthesizer.synthesize_spectrograms([text], [embed])
         print(f"Mel-spectrogram: {mels[0].shape}")
+        # Vocode to audio
+        if vocoder is not None:
+            try:
+                # Use HiFi-GAN
+                mel_spec_tensor = torch.from_numpy(mels[0]).unsqueeze(0).float()
+                with torch.no_grad():
+                    wav_generated = vocoder.decode_batch(mel_spec_tensor)
+                wav_generated = wav_generated.squeeze().cpu().numpy()
+                print(f"Generated audio with HiFi-GAN: {wav_generated.shape}")
+            except Exception as e:
+                print(f"HiFi-GAN failed: {e}, using Griffin-Lim fallback")
+                wav_generated = librosa.feature.inverse.mel_to_audio(mels[0], sr=22050, n_iter=32)
+        else:
+            # Use Griffin-Lim as fallback
+            print("Using Griffin-Lim vocoder (fallback)")
+            wav_generated = librosa.feature.inverse.mel_to_audio(mels[0], sr=22050, n_iter=32)
+        # Normalize audio
+        if np.max(np.abs(wav_generated)) > 0:
+            wav_generated = wav_generated / np.max(np.abs(wav_generated)) * 0.95
+        print(f"Generated audio: {wav_generated.shape}, range: {np.min(wav_generated):.4f} to {np.max(np.abs(wav_generated)):.4f}")
         return (22050, (wav_generated * 32768).astype(np.int16)), "✅ Success! Your voice has been cloned!"