Spaces:

etchen
/

phonolearn

Sleeping

etchen commited on Jun 15, 2025

Commit

912ccda

verified ·

1 Parent(s): 24ef1e8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,9 @@ import torch
 from transformers import pipeline
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model_repo_id = "emlinking/wav2vec2-large-xls-r-300m-tsm-asr-v6"
@@ -15,23 +18,25 @@ if torch.cuda.is_available():
 else:
     torch_dtype = torch.float32
-pipe = pipeline(task="automatic-speech-recognition", model=model_repo_id, device=device)
 # @spaces.GPU #[uncomment to use ZeroGPU]
 def infer(
     audio,
     target
 ):
     sampling_rate, wav = audio
     if wav.ndim > 1:
         wav = wav.mean(axis=1)
     wav = wav.astype(np.float32)
     wav /= np.max(np.abs(wav))
-    user_pron = pipe(wav)['text']
     # compare texts
-    d = Differ()
-    d_toks = [(i[2:], i[0] if i[0] != " " else None) for i in d.compare(target, user_pron)]
     return (user_pron, d_toks)
 css = """
@@ -52,7 +57,7 @@ with gr.Blocks(css=css) as demo:
         label='Comparison',
         combine_adjacent=True,
         show_legend=True,
-        color_map={'+': 'red', '-': 'green'}
     )
     input_audio.input(fn=infer, inputs=[input_audio, target], outputs=[output, diff])

 from transformers import pipeline
+# ################ CHANGE THIS TO CHANGE THE LANGUAGE ###################### #
+from TaiwaneseHokkien import TaiwaneseHokkien
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model_repo_id = "emlinking/wav2vec2-large-xls-r-300m-tsm-asr-v6"
 else:
     torch_dtype = torch.float32
+language = TaiwaneseHokkien(device=device, torch_dtype=torch_dtype)
+# ########################################################################## #
 # @spaces.GPU #[uncomment to use ZeroGPU]
 def infer(
     audio,
     target
 ):
+    # preprocess
     sampling_rate, wav = audio
     if wav.ndim > 1:
         wav = wav.mean(axis=1)
     wav = wav.astype(np.float32)
     wav /= np.max(np.abs(wav))
+    user_pron = language.asr(wav)
     # compare texts
+    d_toks = language.compare(target, user_pron)
     return (user_pron, d_toks)
 css = """
         label='Comparison',
         combine_adjacent=True,
         show_legend=True,
+        color_map=language.compare_colors
     )
     input_audio.input(fn=infer, inputs=[input_audio, target], outputs=[output, diff])