espnet
/

powsm

Automatic Speech Recognition

phone-recognition

grapheme-to-phoneme

phoneme-to-grapheme

Model card Files Files and versions

cjli commited on Oct 29, 2025

Commit

0724cab

·

1 Parent(s): 5809b0d

small fix

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -46,11 +46,11 @@ To distinguish phone entries from BPE tokens that share the same Unicode, we enc
 from espnet2.bin.s2t_inference import Speech2Text
 import soundfile as sf  # or librosa
-task = '<pr>'
 s2t = Speech2Text.from_pretrained(
     "espnet/powsm",
     device="cuda",
-    lang_sym='<eng>',   # ISO 639-3; set to <unk> for unseen languages
     task_sym=task,    # <pr>, <asr>, <g2p>, <p2g>
 )
@@ -60,7 +60,7 @@ pred = s2t(speech, text_prev=prompt)[0][0]
 # post-processing for better format
 pred = pred.split("<notimestamps>")[1].strip()
-if task == '<pr>' or task == '<g2p>:
   pred = pred.replace("/", "")
 print(pred)
 ```
@@ -83,7 +83,7 @@ s2t = Speech2Language.from_pretrained(
     last_lang_sym="<zul>"   # fixed; defined in vocab list
 )
-speech, rate = sf.read("sample.wav", sr=16000)
 pred = model(speech)[0]     # a list of lang-prob pair
 print(pred)
 ```

 from espnet2.bin.s2t_inference import Speech2Text
 import soundfile as sf  # or librosa
+task = "<pr>"
 s2t = Speech2Text.from_pretrained(
     "espnet/powsm",
     device="cuda",
+    lang_sym="<eng>",   # ISO 639-3; set to <unk> for unseen languages
     task_sym=task,    # <pr>, <asr>, <g2p>, <p2g>
 )
 # post-processing for better format
 pred = pred.split("<notimestamps>")[1].strip()
+if task == "<pr>" or task == "<g2p>":
   pred = pred.replace("/", "")
 print(pred)
 ```
     last_lang_sym="<zul>"   # fixed; defined in vocab list
 )
+speech, rate = sf.read("sample.wav")
 pred = model(speech)[0]     # a list of lang-prob pair
 print(pred)
 ```