espnet
/

powsm

@@ -54,9 +54,12 @@ s2t = Speech2Text.from_pretrained(
     task_sym=task,    # <pr>, <asr>, <g2p>, <p2g>
 )
-speech, rate = sf.read("sample.wav", sr=16000)
 prompt = "<na>"         # G2P: set to ASR transcript; P2G: set to phone transcription with slashes
 pred = s2t(speech, text_prev=prompt)[0][0]
 if task == '<pr>' or task == '<g2p>:
   pred = pred.replace("/", "")
 print(pred)

     task_sym=task,    # <pr>, <asr>, <g2p>, <p2g>
 )
+speech, rate = sf.read("sample.wav")
 prompt = "<na>"         # G2P: set to ASR transcript; P2G: set to phone transcription with slashes
 pred = s2t(speech, text_prev=prompt)[0][0]
+# post-processing for better format
+pred = pred.split("<notimestamps>")[1].strip()
 if task == '<pr>' or task == '<g2p>:
   pred = pred.replace("/", "")
 print(pred)