Spaces:

Bhavibond
/

MiniVoiceTranslator

Sleeping

Bhavibond commited on Mar 9, 2025

Commit

0871702

verified ·

1 Parent(s): e6265b7

pass input_embeddings

Files changed (1) hide show

app.py CHANGED Viewed

@@ -43,10 +43,14 @@ def process_audio(audio, target_language):
         # Step 3: Generate speech from translated text
         inputs = processor(text=translated_text, return_tensors="pt")
         with torch.no_grad():
-            # Pass the correct input_features to the model
-            speech = tts.generate_speech(inputs["input_features"], speaker_embeddings)
         # Save generated speech
         output_audio_path = "output/generated_speech.wav"

         # Step 3: Generate speech from translated text
         inputs = processor(text=translated_text, return_tensors="pt")
+        input_ids = inputs.input_ids
+        # Convert input_ids to embeddings using model embeddings
+        input_embeddings = tts.encoder.embed_tokens(input_ids)
         with torch.no_grad():
+            # Generate speech using embeddings and speaker embeddings
+            speech = tts.generate_speech(input_embeddings, speaker_embeddings)
         # Save generated speech
         output_audio_path = "output/generated_speech.wav"