Spaces:

Bhavibond
/

MiniVoiceTranslator

Sleeping

Bhavibond commited on Mar 9, 2025

Commit

4a54047

verified ·

1 Parent(s): 0871702

fix the encoder for low end execution

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,8 +15,8 @@ tts = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
 # Load speaker embeddings from dataset
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embeddings = embeddings_dataset[7306]["xvector"]  # Example speaker embedding
-speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0)  # Reshape for the model
 # Ensure cache directory for output files
 os.makedirs("output", exist_ok=True)
@@ -43,14 +43,10 @@ def process_audio(audio, target_language):
         # Step 3: Generate speech from translated text
         inputs = processor(text=translated_text, return_tensors="pt")
-        input_ids = inputs.input_ids
-        # Convert input_ids to embeddings using model embeddings
-        input_embeddings = tts.encoder.embed_tokens(input_ids)
         with torch.no_grad():
-            # Generate speech using embeddings and speaker embeddings
-            speech = tts.generate_speech(input_embeddings, speaker_embeddings)
         # Save generated speech
         output_audio_path = "output/generated_speech.wav"

 # Load speaker embeddings from dataset
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = embeddings_dataset[7306]["xvector"]
+speaker_embeddings = torch.tensor(speaker_embeddings).unsqueeze(0)
 # Ensure cache directory for output files
 os.makedirs("output", exist_ok=True)
         # Step 3: Generate speech from translated text
         inputs = processor(text=translated_text, return_tensors="pt")
+        input_features = inputs.input_features
         with torch.no_grad():
+            speech = tts.generate_speech(input_features, speaker_embeddings)
         # Save generated speech
         output_audio_path = "output/generated_speech.wav"