update scripts

Browse files

Files changed (5) hide show

.gitignore +4 -0
scripts/asr_utils.py +35 -0
scripts/caculate_cer.py +12 -10
scripts/run_funasr_quant.py +39 -4
scripts/run_whisper.py +36 -2

.gitignore CHANGED Viewed

@@ -2,3 +2,7 @@
 .idea
 __pycache__/
 *.csv

 .idea
 __pycache__/
 *.csv
+*csv*
+*.mp3
+*.wav
+*.flac

scripts/asr_utils.py CHANGED Viewed

@@ -3,6 +3,20 @@ import csv
 import wave
 import re
 import json
 def add_text_index():
     text_file = '../tests/test_data/text/test_asr_zh.txt'
@@ -86,6 +100,27 @@ def read_dataset(file):
         data = json.loads(line)
         yield data["audio"]["path"], data["sentence"], data["duration"]
 if __name__ == '__main__':

 import wave
 import re
 import json
+from pathlib import Path
+import subprocess
+from subprocess import CompletedProcess
+def cmd(command: str, check=True, capture_output=False) -> CompletedProcess:
+    print(command)
+    if capture_output:
+        ret = subprocess.run(command, shell=True, check=check, stdout=subprocess.PIPE, stderr=subprocess.STDOUT,
+                             universal_newlines=True)
+    else:
+        ret = subprocess.run(command, shell=True, check=check)
+    print(ret.stdout)
+    return ret
 def add_text_index():
     text_file = '../tests/test_data/text/test_asr_zh.txt'
         data = json.loads(line)
         yield data["audio"]["path"], data["sentence"], data["duration"]
+def read_emilia(folder: Path, count_limit=None):
+    """读取 emilia 数据集，返回音频路径、文本、时长,
+    json 文件样例：
+    {"id": "ZH_B00000_S00110_W000000", "wav": "ZH_B00000/ZH_B00000_S00110/mp3/ZH_B00000_S00110_W000000.mp3", "text": "\u628a\u63e1\u6700\u524d\u6cbf\u7684\u91d1\u878d\u9886\u57df\u548c\u533a\u5757\u94fe\u6700\u65b0\u8d44\u8baf\u3002\u6211\u4eec\u4e00\u8d77\u6765\u4e86\u89e3\u4e00\u4e0b\u4eca\u5929\u5e02\u573a\u4e0a\u6709\u53d1\u751f\u54ea\u4e9b\u91cd\u8981\u4e8b\u4ef6\u3002", "duration": 7.963, "speaker": "ZH_B00000_S00110", "language": "zh", "dnsmos": 3.3808}"""
+    count = 0
+    for json_file in sorted(folder.glob("*.json")):
+        count += 1
+        if count_limit and count > count_limit:
+            break
+        with open(json_file, encoding="utf-8") as f:
+            data = json.load(f)
+            text = data["text"]
+            duration = data["duration"]
+        wav_path = folder /f'{json_file.stem}.wav'
+        if not wav_path.exists():
+            mp3_path = folder / f'{json_file.stem}.mp3'
+            command=f"ffmpeg -i {mp3_path}  -ac 1 -ar 16000 {wav_path}"
+            cmd(command)
+        yield wav_path, text, duration
 if __name__ == '__main__':

scripts/caculate_cer.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import json
 from lib.utils import run_textdistance, clean_text_for_comparison_zh, highlight_diff
 # import Levenshtein
 def calculate_distance(reference: str, hypothesis: str):
@@ -34,14 +34,16 @@ if __name__ == '__main__':
         count += 1
         reference = item["reference"]
         hypothesis = item["inference_result"]
-        distance, diff = calculate_distance(reference, hypothesis)
-        print(f"{count}. distance: {distance}")
-        if distance > 0:
-            print(f"Audio Path: {item['audio_path']}")
-            print(f"Reference: {reference}")
-            print(f"Hypothesis: {hypothesis}")
-            print(f"Diff: {diff}")
-        distance_sum += distance
-        reference_sum += len(reference)
     cer = distance_sum / reference_sum if reference_sum > 0 else 0
     print(f"Total Distance: {distance_sum}, Total Reference Length: {reference_sum}, CER: {cer:.4f}")

 import json
 from lib.utils import run_textdistance, clean_text_for_comparison_zh, highlight_diff
+import re
 # import Levenshtein
 def calculate_distance(reference: str, hypothesis: str):
         count += 1
         reference = item["reference"]
         hypothesis = item["inference_result"]
+        if re.search(r"\d", hypothesis):
+            # continue
+            distance, diff = calculate_distance(reference, hypothesis)
+            print(f"{count}. distance: {distance}")
+            if distance > 0:
+                print(f"Audio Path: {item['audio_path']}")
+                print(f"Reference: {reference}")
+                print(f"Hypothesis: {hypothesis}")
+                print(f"Diff: {diff}")
+            distance_sum += distance
+            reference_sum += len(reference)
     cer = distance_sum / reference_sum if reference_sum > 0 else 0
     print(f"Total Distance: {distance_sum}, Total Reference Length: {reference_sum}, CER: {cer:.4f}")

scripts/run_funasr_quant.py CHANGED Viewed

@@ -29,11 +29,11 @@ def inference(vad_model, asr_model, punc_model, audio:Path):
     print(audio.name)
     t1 = time.time()
     vad_res = vad_model(str(audio))
-    t2 = time.time()
     # print("vad time:", t2-t1)
     asr_res = asr_model(str(audio), hotwords="")
     asr_text = asr_res[0]["preds"]
-    t3 = time.time()
     # print("asr time:", t3-t2)
     # print("asr text:", asr_text)
     result = punc_model(asr_text)
@@ -69,6 +69,41 @@ def run_test_audios():
         rows.append([f"{audio.parent.name}/{audio.name}", round(t, 3), text])
     file_name = "csv/funasr_quant.csv" if quantize else "funasr_onnx.csv"
     save_csv(file_name, rows)
 if __name__ == '__main__':
-    run_recordings()

     print(audio.name)
     t1 = time.time()
     vad_res = vad_model(str(audio))
+    # t2 = time.time()
     # print("vad time:", t2-t1)
     asr_res = asr_model(str(audio), hotwords="")
     asr_text = asr_res[0]["preds"]
+    # t3 = time.time()
     # print("asr time:", t3-t2)
     # print("asr text:", asr_text)
     result = punc_model(asr_text)
         rows.append([f"{audio.parent.name}/{audio.name}", round(t, 3), text])
     file_name = "csv/funasr_quant.csv" if quantize else "funasr_onnx.csv"
     save_csv(file_name, rows)
+def run_test_dataset():
+    from scripts.asr_utils import read_dataset
+    quantize = True
+    vad_model, asr_model, punc_model = load_model(quantize)
+    test_data = Path("../tests/test_data/dataset.txt")
+    audio_parent = Path("../tests/test_data/")
+    rows = [["file_name", "time", "inference_result"]]
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence, duration in read_dataset(test_data):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            text, t = inference(vad_model, asr_model, punc_model, audio_parent/audio_path)
+            t = time.time() - t1
+            print("inference time:", t)
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path,
+                "reference": sentence,
+                "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/funasr_dataset_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
+    run_test_dataset()

scripts/run_whisper.py CHANGED Viewed

@@ -4,7 +4,7 @@ import time
 import csv
 from silero_vad.utils_vad import languages
-from scripts.asr_utils import get_origin_text_dict, get_text_distance, read_dataset
 def save_csv(file_path, rows):
     with open(file_path, "w", encoding="utf-8") as f:
@@ -67,6 +67,7 @@ def run_test_audios():
     save_csv("csv/whisper.csv", rows)
 def run_test_dataset():
     model = load_model()
     test_data = Path("../tests/test_data/dataset.txt")
     audio_parent = Path("../tests/test_data/")
@@ -99,5 +100,38 @@ def run_test_dataset():
     import json
     with open("csv/whisper_dataset_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
-    run_test_dataset()

 import csv
 from silero_vad.utils_vad import languages
+from scripts.asr_utils import get_origin_text_dict, get_text_distance
 def save_csv(file_path, rows):
     with open(file_path, "w", encoding="utf-8") as f:
     save_csv("csv/whisper.csv", rows)
 def run_test_dataset():
+    from scripts.asr_utils import read_dataset
     model = load_model()
     test_data = Path("../tests/test_data/dataset.txt")
     audio_parent = Path("../tests/test_data/")
     import json
     with open("csv/whisper_dataset_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_emilia():
+    from scripts.asr_utils import read_emilia
+    model = load_model()
+    parent = Path("../tests/test_data/ZH-B000000")
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence, duration in read_emilia(parent, count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path.name}")
+            t1 = time.time()
+            output = model.transcribe(str(audio_path), language="zh")# , initial_prompt="以下是普通话句子，这是一段会议内容。"
+            t = time.time() - t1
+            print("inference time:", t)
+            text = " ".join([a.text for a in output])
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_emilia_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
+    run_test_emilia()