Spaces:

NLPV
/

ReadabilityTest

Sleeping

App Files Files Community

NLPV commited on Jul 14, 2025

Commit

f0b2a66

verified ·

1 Parent(s): a81460b

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -26

app.py CHANGED Viewed

@@ -64,43 +64,30 @@ def compare_hindi_sentences(expected, transcribed):
 def transcribe_audio(audio_path, original_text):
     try:
-        # 1. Load and pre-process audio
         waveform, sample_rate = torchaudio.load(audio_path)
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
-        if sample_rate != 48000:
-            transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=48000)
             waveform = transform(waveform)
-        # Amplify voice intensity
-        GAIN = 1.5
-        waveform = waveform * GAIN
-        waveform = torch.clamp(waveform, -1.0, 1.0)
-        input_values = processor(waveform.squeeze().numpy(), sampling_rate=48000, return_tensors="pt").input_values
-        # 2. Transcribe with AI4Bharat model
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.decode(predicted_ids[0])
-        # 3. Error analysis (as table)
-        errors = compare_hindi_sentences(original_text, transcription)
-        df_errors = pd.DataFrame(errors, columns=["बिगड़ा हुआ शब्द", "संभावित सही शब्द", "गलती का प्रकार"])
-        # Speaking speed
-        transcribed_words = transcription.strip().split()
-        duration = waveform.shape[1] / 48000
-        speed = round(len(transcribed_words) / duration, 2) if duration > 0 else 0
-        result = {
             "📝 Transcribed Text": transcription,
-            "⏱️ Speaking Speed (words/sec)": speed,
-        }
-        # Return table as a separate output (Gradio Dataframe)
-        return result, df_errors
     except Exception as e:
         return {"error": str(e)}, pd.DataFrame(columns=["बिगड़ा हुआ शब्द", "संभावित सही शब्द", "गलती का प्रकार"])

 def transcribe_audio(audio_path, original_text):
     try:
         waveform, sample_rate = torchaudio.load(audio_path)
+        # Convert to mono
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
+        # Resample to 16000 Hz for model
+        if sample_rate != 16000:
+            transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
             waveform = transform(waveform)
+        # Normalize to [-1, 1]
+        waveform = waveform / waveform.abs().max()
+        input_values = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_values
         with torch.no_grad():
             logits = model(input_values).logits
         predicted_ids = torch.argmax(logits, dim=-1)
         transcription = processor.decode(predicted_ids[0])
+        # ... rest of your error analysis
+        return {
             "📝 Transcribed Text": transcription,
+            # etc.
+        }, df_errors
     except Exception as e:
         return {"error": str(e)}, pd.DataFrame(columns=["बिगड़ा हुआ शब्द", "संभावित सही शब्द", "गलती का प्रकार"])