Spaces:

wedyanessam
/

Real_Time_Interactive_Avatar_v2

Runtime error

wedyanessam commited on May 27

Commit

e34581d

verified ·

1 Parent(s): 769c7b4

Create STT/sst.py

Files changed (1) hide show

STT/sst.py ADDED Viewed

+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
+import torchaudio
+import torch
+# تحميل المعالج والنموذج
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
+def speech_to_text(audio_path):
+    if audio_path is None:
+        raise ValueError("Audio path is None. Did you upload a file?")
+    # تحميل الصوت
+    waveform, sampling_rate = torchaudio.load(audio_path)
+    # إذا كان ستيريو نخليه mono
+    if waveform.shape[0] > 1:
+        waveform = waveform.mean(dim=0)
+    # إعادة تشكيل الصوت إذا كان غير 16kHz
+    if sampling_rate != 16000:
+        resampler = torchaudio.transforms.Resample(orig_freq=sampling_rate, new_freq=16000)
+        waveform = resampler(waveform)
+    # تجهيز البيانات للنموذج
+    input_values = processor(waveform.squeeze().numpy(), return_tensors="pt", sampling_rate=16000).input_values
+    # استنتاج الـ logits والتنبؤ
+    with torch.no_grad():
+        logits = model(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    # تحويل التنبؤ إلى نص
+    transcription = processor.batch_decode(predicted_ids)
+    return transcription[0]