Spaces:

programindz
/

kashmiri-streaming-speech-recognition

Running

programindz commited on Jan 11

Commit

83778e9

verified ·

1 Parent(s): 6178b66

Update app/asr.py

Files changed (1) hide show

app/asr.py CHANGED Viewed

@@ -24,9 +24,9 @@ def resample_audio(audio: np.ndarray, orig_sr: int, target_sr: int) -> np.ndarra
 def create_recognizer():
     tokens_path = 'app/model parts/tokens.txt'
-    encoder_path = 'app/model parts/encoder-epoch-35-avg-7-chunk-32-left-256.fp16.onnx'
-    decoder_path = 'app/model parts/decoder-epoch-35-avg-7-chunk-32-left-256.fp16.onnx'
-    joiner_path = 'app/model parts/joiner-epoch-35-avg-7-chunk-32-left-256.fp16.onnx'
     # ——— Fallback to original greedy-search (no hotword biasing) ———
@@ -38,7 +38,7 @@ def create_recognizer():
         provider="cpu",
         # device=0,
         num_threads=1,
-        sample_rate=16000,
         feature_dim=80,
         decoding_method="modified_beam_search",
         # endpoint detection parameters
@@ -50,10 +50,10 @@ def stream_audio(raw_pcm_bytes, stream, recognizer, orig_sr):
     if audio.size == 0:
         return "", 0.0
-    resampled = resample_audio(audio, orig_sr, 16000)
     rms = float(np.sqrt(np.mean(resampled ** 2)))
-    stream.accept_waveform(16000, resampled)
     if recognizer.is_ready(stream):
         # print(stream)
         recognizer.decode_streams([stream])

 def create_recognizer():
     tokens_path = 'app/model parts/tokens.txt'
+    encoder_path = 'app/model parts/encoder-epoch-80-avg-5-chunk-32-left-256.fp16.onnx'
+    decoder_path = 'app/model parts/decoder-epoch-80-avg-5-chunk-32-left-256.fp16.onnx'
+    joiner_path = 'app/model parts/joiner-epoch-80-avg-5-chunk-32-left-256.fp16.onnx'
     # ——— Fallback to original greedy-search (no hotword biasing) ———
         provider="cpu",
         # device=0,
         num_threads=1,
+        sample_rate=8000,
         feature_dim=80,
         decoding_method="modified_beam_search",
         # endpoint detection parameters
     if audio.size == 0:
         return "", 0.0
+    resampled = resample_audio(audio, orig_sr, 8000)
     rms = float(np.sqrt(np.mean(resampled ** 2)))
+    stream.accept_waveform(8000, resampled)
     if recognizer.is_ready(stream):
         # print(stream)
         recognizer.decode_streams([stream])