callentrin_test2

Sleeping

App Files Files Community

rishidahiya commited on Nov 11, 2025

Commit

784779a

verified ·

1 Parent(s): 9cc8c72

Create app.py

Browse files

Files changed (1) hide show

app.py +79 -0

app.py ADDED Viewed

	@@ -0,0 +1,79 @@

+from flask import Flask, request, jsonify, send_file
+from flask_cors import CORS
+from encoder import inference as encoder_inference
+from synthesizer.inference import Synthesizer
+from vocoder import inference as vocoder_inference
+import librosa
+import soundfile as sf
+from io import BytesIO
+import os
+app = Flask(__name__)
+CORS(app)
+# Load models once at startup
+print("Loading models...")
+encoder_inference.load_model("saved_models/encoder.pt")
+synthesizer = Synthesizer("saved_models/synthesizer.pt")
+vocoder_inference.load_model("saved_models/vocoder.pt")
+print("✓ Models loaded!")
+@app.route('/health', methods=['GET'])
+def health():
+    return jsonify({"status": "ok"}), 200
+@app.route('/clone', methods=['POST'])
+def clone_voice():
+    """Clone voice and synthesize speech"""
+    try:
+        # Get text and voice sample
+        text = request.form.get('text')
+        voice_sample = request.files.get('voice_sample')
+        if not text or not voice_sample:
+            return jsonify({"error": "Missing 'text' or 'voice_sample'"}), 400
+        # Save uploaded file temporarily
+        temp_path = f"/tmp/{voice_sample.filename}"
+        voice_sample.save(temp_path)
+        # Load and preprocess audio
+        wav, sr = librosa.load(temp_path, sr=16000)
+        wav = encoder_inference.preprocess_wav(wav)
+        # Generate speaker embedding
+        embed = encoder_inference.embed_utterance(wav)
+        # Synthesize speech
+        mels = synthesizer.synthesize_spectrograms([text], [embed])
+        # Vocode to audio
+        audio = vocoder_inference.vocoder(mels[0])
+        # Save to bytes
+        audio_io = BytesIO()
+        sf.write(audio_io, audio, 22050, format='WAV')
+        audio_io.seek(0)
+        # Cleanup
+        os.remove(temp_path)
+        return send_file(audio_io, mimetype='audio/wav', as_attachment=True, download_name='cloned_voice.wav')
+    except Exception as e:
+        return jsonify({"error": str(e)}), 400
+@app.route('/', methods=['GET'])
+def index():
+    return '''
+    <h1>Voice Cloning API</h1>
+    <p>POST to /clone with:</p>
+    <ul>
+        <li>text: Hindi/Kannada text to synthesize</li>
+        <li>voice_sample: WAV/OGG audio file (5-10 seconds)</li>
+    </ul>
+    <p>Returns: WAV audio with cloned voice</p>
+    '''
+if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=7860, debug=False)