Spaces:

etchen
/

phonolearn

Sleeping

etchen commited on Jun 14, 2025

Commit

298d6a8

verified ·

1 Parent(s): c176dd9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -20,7 +20,12 @@ pipe = pipeline(task="automatic-speech-recognition", model=model_repo_id, device
 def infer(
     audio
 ):
-    return pipe(audio[1], generate_kwargs={'language': 'chinese'})['text']
 css = """
 #col-container {

 def infer(
     audio
 ):
+    sampling_rate, wav = audio
+    if wav.ndim > 1:
+        wav = wav.mean(axis=1)
+    wav = wav.astype(np.float32)
+    wav /= np.max(np.abs(wav))
+    return pipe({"sampling_rate": sampling_rate, "raw": wav}, generate_kwargs={'language': 'chinese'})['text']
 css = """
 #col-container {