Spaces:

espnet
/

OWSM_V4_Demo

Running on Zero

App Files Files Community

ms180 commited on Aug 27

Commit

d641d01

verified ·

1 Parent(s): 5dcded9

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -1

app.py CHANGED Viewed

@@ -63,7 +63,11 @@ s2l = Speech2Language.from_pretrained(
     device=device,
     nbest=1,
 )
-s2t_ar = ARSpeech2Text.from_pretrained(
             model_tag=f"espnet/owsm_v4_medium_1B",
             device=device,
             beam_size=5,
@@ -74,6 +78,51 @@ s2t_ar = ARSpeech2Text.from_pretrained(
             task_sym="<asr>",
             predict_time=False,
         )
 s2t_ctc = CTCSpeech2Text.from_pretrained(
             model_tag=f"espnet/owsm_ctc_v4_1B",
             device=device,

     device=device,
     nbest=1,
 )
+# Hacking to cange config
+# 1. download files
+try:
+    s2t_ar = ARSpeech2Text.from_pretrained(
             model_tag=f"espnet/owsm_v4_medium_1B",
             device=device,
             beam_size=5,
             task_sym="<asr>",
             predict_time=False,
         )
+except Exception as e:
+    print("File downloaded")
+# 2. Remove unrequired file
+import yaml
+from pathlib import Path
+import espnet_model_zoo
+d = "models--espnet--owsm_v4_medium_1B/snapshots/471418ddaf0b03c9ab1fd75f1f5d26fc3aea3aa9/exp/s2t_train_conv2d8_size1024_e18_d18_mel128_raw_bpe50000/config.yaml"
+p = Path(espnet_model_zoo.__file__)
+config_path = p.parent / d
+def remove_key(obj, key="gradient_checkpoint_layers"):
+    if isinstance(obj, dict):
+        if key in obj:
+            del obj[key]
+        for k, v in list(obj.items()):
+            remove_key(v, key)
+    elif isinstance(obj, list):
+        for item in obj:
+            remove_key(item, key)
+with open(config_path, "r") as f:
+    config = yaml.safe_load(f)
+remove_key(config)
+with open(config_path, "w") as f:
+    yaml.safe_dump(config, f, sort_keys=False, allow_unicode=True)
+print("Done! All 'gradient_checkpoint_layers' keys removed.")
+s2t_ar = ARSpeech2Text.from_pretrained(
+    model_tag=f"espnet/owsm_v4_medium_1B",
+    device=device,
+    beam_size=5,
+    ctc_weight=0.0,
+    maxlenratio=0.0,
+    # below are default values which can be overwritten in __call__
+    lang_sym="<eng>",
+    task_sym="<asr>",
+    predict_time=False,
+)
+# CTC looks okay.
 s2t_ctc = CTCSpeech2Text.from_pretrained(
             model_tag=f"espnet/owsm_ctc_v4_1B",
             device=device,