Spaces:

etchen
/

phonolearn

Sleeping

etchen commited on Jun 15, 2025

Commit

eb7096f

verified ·

1 Parent(s): ee8c172

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 import numpy as np
 # import spaces #[uncomment to use ZeroGPU]
 import torch
@@ -18,14 +19,20 @@ pipe = pipeline(task="automatic-speech-recognition", model=model_repo_id, device
 # @spaces.GPU #[uncomment to use ZeroGPU]
 def infer(
-    audio
 ):
     sampling_rate, wav = audio
     if wav.ndim > 1:
         wav = wav.mean(axis=1)
     wav = wav.astype(np.float32)
     wav /= np.max(np.abs(wav))
-    return pipe(wav)['text']
 css = """
 #col-container {
@@ -36,11 +43,18 @@ css = """
 with gr.Blocks(css=css) as demo:
     gr.Markdown(" # PhonoLearn")
     input_audio = gr.Audio(
         sources=["microphone", "upload"]
     )
-    output = gr.Textbox(label='Output')
-    input_audio.input(fn=infer, inputs=input_audio, outputs=output)
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
 import numpy as np
+from difflib import Differ
 # import spaces #[uncomment to use ZeroGPU]
 import torch
 # @spaces.GPU #[uncomment to use ZeroGPU]
 def infer(
+    audio,
+    target
 ):
     sampling_rate, wav = audio
     if wav.ndim > 1:
         wav = wav.mean(axis=1)
     wav = wav.astype(np.float32)
     wav /= np.max(np.abs(wav))
+    user_pron = pipe(wav)['text']
+    # compare texts
+    d = Differ()
+    d_toks [(i[2:], i[0]) if i[0] != " " else None for i in d.compare(target, user_pron)]
+    return (user_pron, d_toks)
 css = """
 #col-container {
 with gr.Blocks(css=css) as demo:
     gr.Markdown(" # PhonoLearn")
+    target = gr.Textbox(label='Practice Sentence (Tâi-lô)')
     input_audio = gr.Audio(
         sources=["microphone", "upload"]
     )
+    output = gr.Textbox(label='Your Pronunciation')
+    diff = gr.HighlightedText(
+        label='Comparison',
+        combine_adjacent=True,
+        show_legend=True,
+        color_map={'+': 'red', '-': 'green'}
+    )
+    input_audio.input(fn=infer, inputs=[input_audio, target], outputs=[output, diff])
 if __name__ == "__main__":
     demo.launch()