yujuanqin commited on Dec 24, 2025

Commit

42742c6

1 Parent(s): 69f7e51

update scripts

Browse files

Files changed (24) hide show

.gitignore +0 -1
lib/models/mac/llm.py +1 -0
lib/utils.py +6 -1
requirement.txt +8 -1
scripts/asr_utils.py +3 -3
scripts/audio_utils.py +12 -14
scripts/caculate_cer.py +1 -1
scripts/csv/fine-tune_whisper.csv +1 -85
scripts/csv/funasr_quant.csv +81 -81
scripts/download_hf.py +3 -3
scripts/run_funasr_quant.py +48 -18
scripts/run_whisper.py +79 -7
scripts/run_whisper_finetuned.py +110 -5
scripts/run_whisper_finetuned_with_punc_ov.py +2 -2
temp.py +33 -47
test_data/audios.py +50 -3
test_data/{dataset_aishell → dataset}/dataset.txt +0 -0
test_data/recordings/text/test_asr_zh_with_index.txt +1 -1
tests/{test_models → test_app_models}/__init__.py +0 -0
tests/{test_models → test_app_models}/conftest.py +0 -0
tests/{test_models → test_app_models}/test_funasr.py +4 -2
tests/{test_models → test_app_models}/test_llm.py +7 -7
tests/{test_models → test_app_models}/test_tts.py +7 -3
tests/{test_models → test_app_models}/test_whisper.py +4 -2

.gitignore CHANGED Viewed

@@ -2,7 +2,6 @@
 .idea
 __pycache__/
 *.csv
-*csv*
 *.mp3
 *.wav
 *.flac

 .idea
 __pycache__/
 *.csv
 *.mp3
 *.wav
 *.flac

lib/models/mac/llm.py CHANGED Viewed

@@ -57,6 +57,7 @@ class QwenTranslator:
             self.llm = Llama(
             model_path=str(model_path),
             chat_format="chatml",
             verbose=False)
         self.sys_prompt_en = system_prompt_en
         self.sys_prompt_zh = system_prompt_zh

             self.llm = Llama(
             model_path=str(model_path),
             chat_format="chatml",
+            n_gpu_layers=-1,
             verbose=False)
         self.sys_prompt_en = system_prompt_en
         self.sys_prompt_zh = system_prompt_zh

lib/utils.py CHANGED Viewed

@@ -65,10 +65,15 @@ def cmd(command: str, check=True, capture_output=False) -> CompletedProcess:
     print(ret.stdout)
     return ret
 def clean_text_for_comparison_zh(text):
     symbol_pattern = "[  ，。、!?:：‘’-《》！？；,\n]"
     to = ""
-    return re.sub(symbol_pattern, to, text).lower()
 def clean_text_for_comparison_en(text):
     symbol_pattern = "[,.\n]"

     print(ret.stdout)
     return ret
+import cn2an
 def clean_text_for_comparison_zh(text):
+    """移除中文标点，并把所有数字都转换成中文的形式"""
     symbol_pattern = "[  ，。、!?:：‘’-《》！？；,\n]"
     to = ""
+    text = re.sub(symbol_pattern, to, text).lower()
+    if re.search(r"\d", text):
+        text = cn2an.transform(text, "an2cn")
+    return text
 def clean_text_for_comparison_en(text):
     symbol_pattern = "[,.\n]"

requirement.txt CHANGED Viewed

@@ -3,4 +3,11 @@ textdistance
 pytest-playwright
 pygame
 librosa
-tabulate

 pytest-playwright
 pygame
 librosa
+tabulate
+jieba
+cn2an
+pypinyin
+ordered_set
+spacy
+num2words
+en-core-web-sm

scripts/asr_utils.py CHANGED Viewed

@@ -8,7 +8,7 @@ import subprocess
 from subprocess import CompletedProcess
 def add_text_index():
-    text_file = '../test_data/text/test_asr_zh.txt'
     index = 1
     with open(text_file, encoding='utf-8') as f:
         for line in f:
@@ -49,7 +49,7 @@ def write_csv(rows, output_csv):
         writer.writerows(rows)
 def print_text_and_audio_length():
-    text_file = '../test_data/text/test_asr_zh_with_index.txt'
     audio_folder = '../test_data/recordings'
     output_csv = 'csv/text_audio_length.csv'
     rows = []
@@ -72,7 +72,7 @@ def get_text_distance(text1, text2):
     return d, nd, diff
 def get_origin_text_dict():
-    text_file = '../test_data/text/test_asr_zh_with_index.txt'
     text_dict = {}
     for idx, text in get_lines_with_index(text_file):
         text_dict[idx] = text

 from subprocess import CompletedProcess
 def add_text_index():
+    text_file = '../test_data/recordings/text/test_asr_zh.txt'
     index = 1
     with open(text_file, encoding='utf-8') as f:
         for line in f:
         writer.writerows(rows)
 def print_text_and_audio_length():
+    text_file = '../test_data/recordings/text/test_asr_zh_with_index.txt'
     audio_folder = '../test_data/recordings'
     output_csv = 'csv/text_audio_length.csv'
     rows = []
     return d, nd, diff
 def get_origin_text_dict():
+    text_file = '../test_data/recordings/text/test_asr_zh_with_index.txt'
     text_dict = {}
     for idx, text in get_lines_with_index(text_file):
         text_dict[idx] = text

scripts/audio_utils.py CHANGED Viewed

@@ -13,18 +13,16 @@ def cmd(command: str, check=True, capture_output=False) -> CompletedProcess:
     print(ret.stdout)
     return ret
-current = Path("/Users/moyoyo/code/tests/audios")
-audios_5s = current/"5s"
-audios_10s = current/"10s"
-for f in current.glob("*.wav"):
-    file_name = f.name
-    print(file_name)
-    for i in [0, 5, 10, 15]:
-        new_name = f"{f.name.split('.')[0]}-{i}.wav"
-        command=f"ffmpeg -i {f} -ss 00:00:{str(i).zfill(2)} -t 00:00:05 {audios_5s/new_name}"
-        cmd(command)
-    for i in [0, 10, 20, 30]:
-        new_name = f"{f.name.split('.')[0]}-{i}.wav"
-        command = f"ffmpeg -i {f} -ss 00:00:{str(i).zfill(2)} -t 00:00:10 {audios_10s/new_name}"
-        cmd(command)

     print(ret.stdout)
     return ret
+def to_wav(folder: Path):
+    for file in folder.glob("*.mp3"):
+        # print(file)
+        wav_path = folder / f'{file.stem}.wav'
+        if not wav_path.exists():
+            command = f"ffmpeg -i {file} -ac 1 -ar 16000 {wav_path}"
+            # print(command)
+            cmd(command)
+if __name__ == '__main__':
+    to_wav(Path("/Users/jeqin/work/test/audios/short_audios"))

scripts/caculate_cer.py CHANGED Viewed

@@ -27,7 +27,7 @@ def calculate_distance(reference: str, hypothesis: str):
 if __name__ == '__main__':
     import cn2an
-    results_list = json.load(open("csv/whisper_emilia_results.json", "r", encoding="utf-8"))
     count = 0
     distance_sum = 0
     reference_sum = 0

 if __name__ == '__main__':
     import cn2an
+    results_list = json.load(open("csv/funasr_wenet_results.json", encoding="utf-8"))
     count = 0
     distance_sum = 0
     reference_sum = 0

scripts/csv/fine-tune_whisper.csv CHANGED Viewed

@@ -1,86 +1,2 @@
 file_name,time,inference_result
-1.wav,8.261,您这车开的真够稳的蜗牛都超车了,1,0.067,您这车开[-得-]{+的+}真够稳的蜗牛都超车了
-2.wav,1.097,你可真是个天才把这么简单的事情都搞砸了,0,0.0,你可真是个天才把这么简单的事情都搞砸了
-3.wav,1.235,因网络问题远程讲着音频中断我们切到备用方案共享幻灯片,1,0.038,因网络问题远程讲[-者-]{+着+}音频中断我们切到备用方案共享幻灯片
-4.wav,1.273,这就好比用大炮打蚊子资源分配严重不均衡需要细腻度调度,1,0.038,这就好比用大炮打蚊子资源分配严重不均衡需要细[-粒-]{+腻+}度调度
-5.wav,1.074,言归正传我们来讨论一下核心问题,0,0.0,言归正传我们来讨论一下核心问题
-6.wav,1.081,这有点超出了我们今天讨论的范围,0,0.0,这有点超出了我们今天讨论的范围
-7.wav,1.043,他的年收入约为一百万人民币,0,0.0,他的年收入约为一百万人民币
-8.wav,1.147,下一位演讲者是来自斯坦福大学计算机科学系的张明教授,0,0.0,下一位演讲者是来自斯坦福大学计算机科学系的张明教授
-9.wav,1.182,请各位将手机调至静音模式演讲结束后有十五分钟提问时间,0,0.0,请各位将手机调至静音模式演讲结束后有十五分钟提问时间
-10.wav,1.115,茶歇将在十点三十分开始地联在二楼休息区,1,0.053,茶歇将在十点三十分开始地[-点-]{+联+}在二楼休息区
-11.wav,1.07,本合同自双方签字盖章之日起生效,0,0.0,本合同自双方签字盖章之日起生效
-12.wav,1.196,政府正在采取措施刺激经济增长和创造就业机会,0,0.0,政府正在采取措施刺激经济增长和创造就业机会
-13.wav,1.154,今天中午我们点外卖吧我想吃宫保鸡丁和麻婆豆腐,0,0.0,今天中午我们点外卖吧我想吃宫保鸡丁和麻婆豆腐
-14.wav,1.405,医生建议我多吃粗粮比如燕麦和紫薯少吃高油高糖的油炸食品像炸鸡和甜甜圈,0,0.0,医生建议我多吃粗粮比如燕麦和紫薯少吃高油高糖的油炸食品像炸鸡和甜甜圈
-15.wav,1.235,本方案采用液构计算架构结合GPU与FPA加速漳量运算,3,0.111,本方案采用[-异-]{+液+}构计算架构结合gpu与fp[-g-]a加速[-张-]{+漳+}量运算
-16.wav,1.28,推力延迟稳定在五毫秒以内吞吐量提升百分之四十功耗降低一点八瓦,10,0.357,推[-理-]{+力+}延迟稳定在[-5-]{+五+}毫秒以内吞吐量提升[-40%-]{+百分之四十+}功耗降低[-1.8-]{+一点八+}瓦
-17.wav,1.325,相比sota模型我们的方法在小样本场景下召回率高出十二个百分点且参数量仅为其三分之一,2,0.048,相比sota模型我们的方法在小样本场景下召回率高出[-12-]{+十二+}个百分点且参数量仅为其三分之一
-18.wav,1.301,当解脸并发数超过一万时内存带宽会呈平静导致伪延齿急剧上升,12,0.387,当[-节点-]{+解脸+}并发数超过[-10000-]{+一万+}时内存带宽会[-成瓶颈-]{+呈平静+}导致[-尾-]{+伪+}延[-迟-]{+齿+}急剧上升
-19.wav,1.477,请看图三蓝色柱是基线模型红色线是我们的优化结果交叉点表明在第十五轮迭代后优势显著,3,0.075,请看图[-3-]{+三+}蓝色柱是基线模型红色线是我们的优化结果交叉点表明在第[-15-]{+十五+}轮迭代后优势显著
-20.wav,1.261,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少,0,0.0,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少
-21.wav,1.338,容我追问一点如果输入数据存在对抗样本您方案的鲁邦性如何保证失效概率有测试吗,1,0.027,容我追问一点如果输入数据存在对抗样本您方案的鲁[-棒-]{+邦+}性如何保证失效概率有测试吗
-22.wav,1.254,抱歉打断您说的动态简直是指训练中还是推理中预值是自适应的吗,3,0.103,抱歉打断您说的动态[-剪枝-]{+简直+}是指训练中还是推理中[-阈-]{+预+}值是自适应的吗
-23.wav,1.242,成本效益是否可行不属这种定制芯片需要牛片费用中小客户怎么承担,3,0.1,成本效益是否可行[-部署-]{+不属+}这种定制芯片需要[-流-]{+牛+}片费用中小客户怎么承担
-24.wav,1.263,我补充一个角度隐私计算领域也在用类似思路是否可能跨领域合作,0,0.0,我补充一个角度隐私计算领域也在用类似思路是否可能跨领域合作
-25.wav,1.259,端到端优化流水线涵盖数据清洗特征工程模型压缩部署监控,0,0.0,端到端优化流水线涵盖数据清洗特征工程模型压缩部署监控
-26.wav,1.087,请检查代码库中的依赖向冲突问题,1,0.067,请检查代码库中的依赖[-项-]{+向+}冲突问题
-27.wav,1.125,这个电路板集成了微控制器传感器和无线通信模块,0,0.0,这个电路板集成了微控制器传感器和无线通信模块
-28.wav,1.132,区块链技术的核心在于去中心化和加密安全性,0,0.0,区块链技术的核心在于去中心化和加密安全性
-29.wav,1.11,需符合等保三级要求数据出境要走安全评估,0,0.0,需符合等保三级要求数据出境要走安全评估
-30.wav,1.081,最新数据显示消费者信心指数有所回升,0,0.0,最新数据显示消费者信心指数有所回升
-31.wav,1.142,专家预测新能源汽车市场将迎来爆发式增长,0,0.0,专家预测新能源汽车市场将迎来爆发式增长
-32.wav,1.271,多模态大模型能够同时处理文本图像和音频信号实现真正的跨模态理解,0,0.0,多模态大模型能够同时处理文本图像和音频信号实现真正的跨模态理解
-33.wav,1.252,联邦学习可以在保护用户隐私的前提下实现分布式模型的协同训练,0,0.0,联邦学习可以在保护用户隐私的前提下实现分布式模型的协同训练
-34.wav,1.195,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性,0,0.0,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性
-35.wav,1.17,变分量子本真值求解器在化学模拟中显示出巨大潜力,1,0.043,变分量子本[-征-]{+真+}值求解器在化学模拟中显示出巨大潜力
-36.wav,1.195,边缘AI推理的延迟已经可以控制在十毫秒以内满足实时应用需求,0,0.0,边缘ai推理的延迟已经可以控制在十毫秒以内满足实时应用需求
-37.wav,1.304,我们设计的新型神经网诺压缩算法在保持精度的同时将模型大小减少了百分之七十,1,0.028,我们设计的新型神经网[-络-]{+诺+}压缩算法在保持精度的同时将模型大小减少了百分之七十
-38.wav,1.31,损失函数结合了交叉伤损失和对比损失权重系数设置为零点三和零点七,1,0.032,损失函数结合了交叉[-熵-]{+伤+}损失和对比损失权重系数设置为零点三和零点七
-39.wav,1.372,在五个标准数据级上的实验结果表明我们的方法平均比现有最佳方法提升了二点三个百分点,1,0.025,在五个标准数据[-集-]{+级+}上的实验结果表明我们的方法平均比现有最佳方法提升了二点三个百分点
-40.wav,1.294,消融食盐证实了每个模块的有效性移除注意力机制会导致性能下降百分之四点六,2,0.057,消融[-实验-]{+食盐+}证实了每个模块的有效性移除注意力机制会导致性能下降百分之四点六
-41.wav,1.198,模型的参数量为一点二亿在八张一百显卡上训练了七十二小时,4,0.138,模型的参数量为一点二亿在八张[-a100-]{+一百+}显卡上训练了七十二小时
-42.wav,1.052,总之搞定了数据倾斜性能就上去了,0,0.0,总之搞定了数据倾斜性能就上去了
-43.wav,1.541,OpenAI Whisper需要FFMPEG的环境FFMPEG是一个开源的跨平台因视频处理工具和框架可以用来录制转换和流式传输音视频内容,2,0.029,openai[---]whisper需要ffmpeg的环境ffmpeg是一个开源的跨平台[-音-]{+因+}视频处理工具和框架可以用来录制转换和流式传输音视频内容
-44.wav,1.242,采用Transformer训练到训练模型可以实现针对不同的语言处理任务,4,0.114,采用transformer[-序列-]{+训练+}到[-序列-]{+训练+}模型可以实现针对不同的语言处理任务
-45.wav,1.303,Transformer架构在自然语言处理中的成功应用已经彻底改变了预训练模型的范式,0,0.0,transformer架构在自然语言处理中的成功应用已经彻底改变了预训练模型的范式
-46.wav,1.238,请大家注意workshop材料已经上传至会议系统代码仓库链接在附入页,1,0.029,请大家注意workshop材料已经上传至会议系统代码仓库链接在附[-录-]{+入+}页
-47.wav,1.285,别造轮子了直接调用优劳威武开元库的预训练权重快速迭代才是王道,7,0.219,别造轮子了直接调用[-yolov5-]{+优劳威武+}开[-源-]{+元+}库的预训练权重快速迭代才是王道
-48.wav,1.225,请确保您的设备已连接到五GHz wifi频段亦获得最佳性能,3,0.103,请确保您的设备已连接到[-5-]{+五+}ghzwi[---]fi频段[-以-]{+亦+}获得最佳性能
-49.wav,1.434,我们提出了一种基于对比学习的自监督方法在ImageNet数据集上达到了百分之九十二点五的准确率,0,0.0,我们提出了一种基于对比学习的自监督方法在imagenet数据集上达到了百分之九十二点五的准确率
-50.wav,1.355,据比利弗尔在代码生成和多部推理任务上展现出令人印象深刻的能力,6,0.2,[-gpt-4-]{+据比利弗尔+}在代码生成和多[-步-]{+部+}推理任务上展现出令人印象深刻的能力
-51.wav,1.487,若在高病发场景下为启用我们的动态缓存机制即使用RDMA网络延迟也可能因CPU调度增强而恶化,4,0.089,若在高[-并-]{+病+}发场景下[-未-]{+为+}启用我们的动态缓存机制即使用rdma网络延迟也可能因cpu调度[-争抢-]{+增强+}而恶化
-52.wav,1.144,准确说峰值钻力是两百托斯不是刚才说的一百五,11,0.458,准确说峰值[-算-]{+钻+}力是[-200tops-]{+两百托斯+}不是刚才说的[-150-]{+一百五+}
-53.wav,1.233,秦始皇营镇书童文车童轨奠定了中国大一统的基础,4,0.182,秦始皇[-嬴政-]{+营镇+}书[-同-]{+童+}文车[-同-]{+童+}轨奠定了中国大一统的基础
-54.wav,1.278,诸葛亮在出师表中写道鞠躬尽瘁死而后已成为后世臣子的楷模,0,0.0,诸葛亮在出师表中写道鞠躬尽瘁死而后已成为后世臣子的楷模
-55.wav,1.227,李白的举头望明月低头四故乡是连三岁孩童都能背诵的诗句,1,0.038,李白的举头望明月低头[-思-]{+四+}故乡是连三岁孩童都能背诵的诗句
-56.wav,1.268,孔子曾说己所不欲勿施于人这简单的八个字构成了儒家伦理的基石,0,0.0,孔子曾说己所不欲勿施于人这简单的八个字构成了儒家伦理的基石
-57.wav,1.233,王羲之背后人尊为殊胜其代表作南庭集序被誉为天下第一行书,5,0.185,王羲之[-被-]{+背+}后人尊为[-书圣-]{+殊胜+}其代表作[-兰亭-]{+南庭+}集序被誉为天下第一行书
-58.wav,1.298,我们要学习跑丁解牛的精神掌握事物的客观规律才能游刃有馀,2,0.074,我们要学习[-庖-]{+跑+}丁解牛的精神掌握事物的客观规律才能游刃有[-余-]{+馀+}
-59.wav,1.377,项羽在鸿门宴上优柔寡断放走了刘邦最终兵败乌江自吻,1,0.042,项羽在鸿门宴上优柔寡断放走了刘邦最终兵败乌江自[-刎-]{+吻+}
-60.wav,1.326,在杭州西湖畔人们总会想起苏氏治理西湖修筑苏堤的往事,1,0.04,在杭州西湖畔人们总会想起苏[-轼-]{+氏+}治理西湖修筑苏堤的往事
-61.wav,1.191,我计划去爱菲尔铁塔和卢浮宫参观,1,0.067,我计划去[-埃-]{+爱+}菲尔铁塔和卢浮宫参观
-62.wav,1.219,莎士比亚的戏剧深刻地探讨了人性的复杂性,0,0.0,莎士比亚的戏剧深刻地探讨了人性的复杂性
-63.wav,1.111,这个消息让他丈二和尚摸不着头脑,0,0.0,这个消息让他丈二和尚摸不着头脑
-64.wav,1.137,画龙点睛之笔让整个设计焕然一新,0,0.0,画龙点睛之笔让整个设计焕然一新
-65.wav,1.063,这是卡泊子技术必须自主研发,1,0.077,这是卡[-脖-]{+泊+}子技术必须自主研发
-66.wav,1.175,这幅画作以其独特的色彩运用和构图技巧而闻名,0,0.0,这幅画作以其独特的色彩运用和构图技巧而闻名
-67.wav,1.091,患者主塑间歇性胸痛放射至左臂,1,0.071,患者主[-诉-]{+塑+}间歇性胸痛放射至左臂
-68.wav,1.305,患者有冠状动脉周样硬化性心脏病病史十年慢性阻塞性肺疾病病史五年,1,0.032,患者有冠状动脉[-粥-]{+周+}样硬化性心脏病病史十年慢性阻塞性肺疾病病史五年
-69.wav,1.144,建议行冠状动脉造影检查必要时植入支架,0,0.0,建议行冠状动脉造影检查必要时植入支架
-70.wav,1.182,患者需低盐低脂糖尿病饮食监测血压血糖变化,0,0.0,患者需低盐低脂糖尿病饮食监测血压血糖变化
-71.wav,1.332,胸部细梯频道显示双肺散在膜玻璃样密度以胸膜下分布为主,6,0.222,胸部[-ct平扫-]{+细梯频道+}显示双肺散在[-磨-]{+膜+}玻璃样密度[-影-]以胸膜下分布为主
-72.wav,1.423,知识产权归属约定义方在履行本合同过程中所产生的全部智力成果其知识产权归甲方所有,2,0.05,知识产权归属约定[-乙-]{+义+}方在履行本合同过程中所产生的全部智力成果其知识产权[-均-]归甲方所有
-73.wav,1.507,双方应履行本合同法生争议的应首先通过友好协商解决协商不成的任何一方均有权向有管辖权的人民法院提起诉讼,2,0.04,双方[-因-]{+应+}履行本合同[-发-]{+法+}生争议的应首先通过友好协商解决协商不成的任何一方均有权向有管辖权的人民法院提起诉讼
-74.wav,1.289,被告在法定期限内未提交答编状亦未到庭参加诉讼本院依法缺席审理,1,0.033,被告在法定期限内未提交答[-辩-]{+编+}状亦未到庭参加诉讼本院依法缺席审理
-75.wav,1.58,原告向本院提出诉讼请求一判令被告支付货款人民币五十万八千元及逾期付款利息二判令被告承担本案的诉讼费用,0,0.0,原告向本院提出诉讼请求一判令被告支付货款人民币五十万八千元及逾期付款利息二判令被告承担本案的诉讼费用
-76.wav,1.545,被执行人未按执行通知履行法律文书确定的义务人民法院有权查封扣押冻结拍卖被执行人的财产,0,0.0,被执行人未按执行通知履行法律文书确定的义务人民法院有权查封扣押冻结拍卖被执行人的财产
-77.wav,0.981,这个视频太上头了,0,0.0,这个视频太上头了
-78.wav,0.942,他真是个社恐,0,0.0,他真是个社恐
-79.wav,1.064,简直了这躺平的状态也太佛系了吧,0,0.0,简直了这躺平的状态也太佛系了吧
-80.wav,1.044,这个瓜有点大我得去吃瓜了,0,0.0,这个瓜有点大我得去吃瓜了
-81.wav,1.074,别内卷了咱们还是多交流交流吧,0,0.0,别内卷了咱们还是多交流交流吧
-82.wav,1.347,第二个公司我们成立了中国黄烨在中国黄烨的创业经验中有很多的经验也是可以在这儿跟大家进行分享的,2,0.043,第二个公司我们成立了中国黄[-页-]{+烨+}在中国黄[-页-]{+烨+}的创业经验中有很多的经验也是可以在这儿跟大家进行分享的
-83.wav,1.314,对于大部分在接触微积分之前主要的学习经验就是刷题甚至是连题也不刷的同学们来说,0,0.0,对于大部分在接触微积分之前主要的学习经验就是刷题甚至是连题也不刷的同学们来说
-84.wav,1.472,说了两个小时没人听懂我在说什么最后二十三个人反对一个人同意这一个人就说马云你这样做你就试试看不行的话赶紧逃回来还来得及,0,0.0,说了两个小时没人听懂我在说什么最后二十三个人反对一个人同意这一个人就说马云你这样做你就试试看不行的话赶紧逃回来还来得及
-85.wav,1.2,晚上想想是热血沸腾真好第二天早上骑个自行车又上班去了对吧,0,0.0,晚上想想是热血沸腾真好第二天早上骑个自行车又上班去了对吧


1	file_name,time,inference_result
2	+ 49.wav,4.025,我们提出了一种基于对比学习的自监督方法在ImageNet数据集上达到了九百二十五的转确率,6,0.128,我们提出了一种基于对比学习的自监督方法在imagenet数据集上达到了{+九+}百[-分之九-]{+二+}十[-二点-]五的[-准-]{+转+}确率

scripts/csv/funasr_quant.csv CHANGED Viewed

@@ -1,86 +1,86 @@
 file_name,time,inference_result
-1.wav,7.178,您这车开的真够稳的，蜗牛都超车了。,1,0.067,您这车开[-得-]{+的+}真够稳的蜗牛都超车了
-2.wav,0.29,你可真是个天才，把这么简单的事情都搞砸了。,0,0.0,你可真是个天才把这么简单的事情都搞砸了
-3.wav,0.446,因网络问题，远程讲者音频中断，我们切到备用方案，共享幻灯片。,0,0.0,因网络问题远程讲者音频中断我们切到备用方案共享幻灯片
 4.wav,0.419,这就好比用大炮打蚊子，资源分配严重不均衡，需要细腻度调度。,1,0.038,这就好比用大炮打蚊子资源分配严重不均衡需要细[-粒-]{+腻+}度调度
-5.wav,0.273,言归正传，我们来讨论一下核心问题。,0,0.0,言归正传我们来讨论一下核心问题
-6.wav,0.235,这有点超出了我们今天讨论的范围。,0,0.0,这有点超出了我们今天讨论的范围
-7.wav,0.238,他的年收入约为一百万人民币。,0,0.0,他的年收入约为一百万人民币
-8.wav,0.408,下一位演讲者是来自斯坦福大学计算机科学系的张明教授。,0,0.0,下一位演讲者是来自斯坦福大学计算机科学系的张明教授
-9.wav,0.428,请各位将手机调至静音模式，演讲结束后有十五分钟提问时间。,0,0.0,请各位将手机调至静音模式演讲结束后有十五分钟提问时间
-10.wav,0.331,茶歇将在十点三十分开始，地点在二楼休息区。,0,0.0,茶歇将在十点三十分开始地点在二楼休息区
 11.wav,0.293,本合同自双方签字盖章之日起生效。,0,0.0,本合同自双方签字盖章之日起生效
-12.wav,0.375,政府正在采取措施刺激经济增长和创造就业机会。,0,0.0,政府正在采取措施刺激经济增长和创造就业机会
-13.wav,0.439,今天中午我们点外卖吧，我想吃宫保鸡丁和麻婆豆腐。,0,0.0,今天中午我们点外卖吧我想吃宫保鸡丁和麻婆豆腐
-14.wav,0.598,医生建议我多吃粗粮，比如燕麦和紫薯，少吃高油、高糖的油炸食品，像炸鸡和甜甜圈。,0,0.0,医生建议我多吃粗粮比如燕麦和紫薯少吃高油高糖的油炸食品像炸鸡和甜甜圈
-15.wav,0.472,本方案采用异构计算架构，结合gpu与fpga加速张量运算。,0,0.0,本方案采用异构计算架构结合gpu与fpga加速张量运算
-16.wav,0.513,推理延迟稳定在五毫秒以内，吞吐量提升百分之四十，功耗降低一点八瓦。,9,0.321,推理延迟稳定在[-5-]{+五+}毫秒以内吞吐量提升[-40%-]{+百分之四十+}功耗降低[-1.8-]{+一点八+}瓦
-17.wav,0.718,相比sota模型，我们的方法在小样本场景下召回率高出十二个百分点，且参数量仅为其三分之一。,2,0.048,相比sota模型我们的方法在小样本场景下召回率高出[-12-]{+十二+}个百分点且参数量仅为其三分之一
-18.wav,0.512,当节点并发数超过一万时，内存带宽会成瓶颈，导致伪延迟急剧上升。,6,0.194,当节点并发数超过[-10000-]{+一万+}时内存带宽会成瓶颈导致[-尾-]{+伪+}延迟急剧上升
-19.wav,0.658,请看图三，蓝色柱是基线模型，红色线是我们的优化。结果交叉点表明，在第十五轮迭代后，优势显著。,3,0.075,请看图[-3-]{+三+}蓝色柱是基线模型红色线是我们的优化结果交叉点表明在第[-15-]{+十五+}轮迭代后优势显著
-20.wav,0.517,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少？,0,0.0,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少
-21.wav,0.581,容我追问一点，如果输入数据存在对抗样本，您方案的鲁棒性如何保证失效概率有测试吗？,0,0.0,容我追问一点如果输入数据存在对抗样本您方案的鲁棒性如何保证失效概率有测试吗
-22.wav,0.487,抱歉打断您说的动态减脂，是指训练中还是推理中阈值是自适应的吗？,2,0.069,抱歉打断您说的动态[-剪枝-]{+减脂+}是指训练中还是推理中阈值是自适应的吗
-23.wav,0.484,成本效益是否可行？部署这种定制芯片需要流片费用，中小客户怎么承担？,0,0.0,成本效益是否可行部署这种定制芯片需要流片费用中小客户怎么承担
-24.wav,0.522,我补充一个角度，隐私计算领域也在用，类似思路是否可能跨领域合作。,0,0.0,我补充一个角度隐私计算领域也在用类似思路是否可能跨领域合作
-25.wav,0.477,端到端，优化流水线，涵盖数据清洗特征、工程模型，压缩部署监控。,0,0.0,端到端优化流水线涵盖数据清洗特征工程模型压缩部署监控
-26.wav,0.282,请检查代码库中的依赖项冲突问题。,0,0.0,请检查代码库中的依赖项冲突问题
-27.wav,0.331,这个电路板集成了微控制器传感器和无线通信模块。,0,0.0,这个电路板集成了微控制器传感器和无线通信模块
-28.wav,0.335,区块链技术的核心在于去中心化和加密安全性。,0,0.0,区块链技术的核心在于去中心化和加密安全性
-29.wav,0.361,需符合等保三级要求，数据出境要走安全评估。,0,0.0,需符合等保三级要求数据出境要走安全评估
-30.wav,0.301,最新数据显示，消费者信心指数有所回升。,0,0.0,最新数据显示消费者信心指数有所回升
 31.wav,0.349,专家预测，新能源汽车市场将迎来爆发式增长。,0,0.0,专家预测新能源汽车市场将迎来爆发式增长
-32.wav,0.48,多模态大模型能够同时处理文本图像和音频信号，实现真正的跨模态理解。,0,0.0,多模态大模型能够同时处理文本图像和音频信号实现真正的跨模态理解
-33.wav,0.449,联邦学习可以在保护用户隐私的前提下，实现分布式模型的协同训练。,0,0.0,联邦学习可以在保护用户隐私的前提下实现分布式模型的协同训练
-34.wav,0.447,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性。,0,0.0,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性
-35.wav,0.457,变分量子本增值求解器在化学模拟中显示出巨大潜力。,1,0.043,变分量子本[-征-]{+增+}值求解器在化学模拟中显示出巨大潜力
-36.wav,0.496,边缘ai推理的延迟已经可以控制在十毫秒以内，满足实时应用需求。,0,0.0,边缘ai推理的延迟已经可以控制在十毫秒以内满足实时应用需求
-37.wav,0.53,我们设计的新型神经网络压缩算法，在保持精度的同时，将模型大小减少了百分之七十。,0,0.0,我们设计的新型神经网络压缩算法在保持精度的同时将模型大小减少了百分之七十
-38.wav,0.493,损失函数结合了交叉熵损失和对比，损失，权重系数设置为零点三和零点七。,0,0.0,损失函数结合了交叉熵损失和对比损失权重系数设置为零点三和零点七
-39.wav,0.619,在五个标准数据集上的实验结果表明，我们的方法平均比现有最佳方法提升了二点三个百分点。,0,0.0,在五个标准数据集上的实验结果表明我们的方法平均比现有最佳方法提升了二点三个百分点
-40.wav,0.531,消融实验证实了每个模块的有效性，移除注意力机制会导致性能下降百分之四点六。,0,0.0,消融实验证实了每个模块的有效性移除注意力机制会导致性能下降百分之四点六
-41.wav,0.479,模型的参数量为一点二亿，在八张a一百显卡上训练了七十二小时。,3,0.103,模型的参数量为一点二亿在八张a[-100-]{+一百+}显卡上训练了七十二小时
-42.wav,0.31,总之，搞定了数据倾斜性能就上去了。,0,0.0,总之搞定了数据倾斜性能就上去了
-43.wav,0.992,open ai whisper需要fm pag的环境。fm pag是一个开源的跨平台音视频，处理工具和框架，可以用来录制转换和流式传输音视频内容。,5,0.074,openai[---]whisper需要f[-f-]mp[-e-]{+a+}g的环境f[-f-]mp[-e-]{+a+}g是一个开源的跨平台音视频处理工具和框架可以用来录制转换和流式传输音视频内容
-44.wav,0.445,采用transformer序列到序列模型，可以实现针对不同的语言处理任务。,0,0.0,采用transformer序列到序列模型可以实现针对不同的语言处理任务
-45.wav,0.539,transformer架构在自然语言处理中的成功应用，已经彻底改变了预训练模型的范式。,0,0.0,transformer架构在自然语言处理中的成功应用已经彻底改变了预训练模型的范式
-46.wav,0.502,请大家注意，workshop材料已经上传至会议系统，代码仓库链接在附录页。,0,0.0,请大家注意workshop材料已经上传至会议系统代码仓库链接在附录页
-47.wav,0.513,别造轮子了，直接调用乐uv五开源库的预训练权重，快速迭代才是王道。,5,0.156,别造轮子了直接调用[-yolo-]{+乐u+}v[-5-]{+五+}开源库的预训练权重快速迭代才是王道
-48.wav,0.439,请确保您的设备已连接到五g赫兹、wifi频段，以获得最佳性能。,4,0.138,请确保您的设备已连接到[-5-]{+五+}g[-hz-]{+赫兹+}wi[---]fi频段以获得最佳性能
-49.wav,0.605,我们提出了一种基于对比学习的自监督方法，在imaginate数据集上达到了百分之九十二点五的准确率。,3,0.064,我们提出了一种基于对比学习的自监督方法在imag{+inat+}e[-net-]数据集上达到了百分之九十二点五的准确率
-50.wav,0.463,gbd four在代码生成和多步推理任务上展现出令人印象深刻的伦理。,8,0.267,g[-pt-4-]{+bdfour+}在代码生成和多步推理任务上展现出令人印象深刻的[-能力-]{+伦理+}
-51.wav,0.757,若在高并发场景下未启用我们的动态缓存机制，即使用rdma网络延迟，也可能因cpu调度增强而恶化。,2,0.044,若在高并发场景下未启用我们的动态缓存机制即使用rdma网络延迟也可能因cpu调度[-争抢-]{+增强+}而恶化
-52.wav,0.399,准确说峰值算力是两百tops，不是刚才说的一百五。,6,0.25,准确说峰值算力是[-200-]{+两百+}tops不是刚才说的[-150-]{+一百五+}
-53.wav,0.398,秦始皇嬴政书同文，车同轨，奠定了中国大一统的基础。,0,0.0,秦始皇嬴政书同文车同轨奠定了中国大一统的基础
-54.wav,0.449,诸葛亮在出师表中写道，鞠躬尽瘁死而后已成为后世臣子的楷模。,0,0.0,诸葛亮在出师表中写道鞠躬尽瘁死而后已成为后世臣子的楷模
-55.wav,0.436,李白的举头望明月，低头思故乡，是连三岁孩童都能背诵的诗句。,0,0.0,李白的举头望明月低头思故乡是连三岁孩童都能背诵的诗句
-56.wav,0.493,孔子曾说，己所不欲勿施于人，这简单的八个字，构成了儒家伦理的基石。,0,0.0,孔子曾说己所不欲勿施于人这简单的八个字构成了儒家伦理的基石
-57.wav,0.462,王羲之被后人尊为书圣，其代表作兰亭集序被誉为天下第一行书。,0,0.0,王羲之被后人尊为书圣其代表作兰亭集序被誉为天下第一行书
-58.wav,0.404,我们要学习庖丁解牛的精神，掌握事物的客观规律才能游刃有余。,0,0.0,我们要学习庖丁解牛的精神掌握事物的客观规律才能游刃有余
-59.wav,0.418,项羽在鸿门宴上优柔寡断，放走了刘邦，最终兵败乌江自刎。,0,0.0,项羽在鸿门宴上优柔寡断放走了刘邦最终兵败乌江自刎
-60.wav,0.459,在杭州，西湖畔，人们总会想起苏轼治理西湖，修筑苏堤的往事。,0,0.0,在杭州西湖畔人们总会想起苏轼治理西湖修筑苏堤的往事
-61.wav,0.269,我计划去埃菲尔铁塔和卢浮宫参观。,0,0.0,我计划去埃菲尔铁塔和卢浮宫参观
-62.wav,0.323,莎士比亚的戏剧深刻地探讨了人性的复杂性。,0,0.0,莎士比亚的戏剧深刻地探讨了人性的复杂性
-63.wav,0.228,这个消息让他丈二和尚摸不着头脑。,0,0.0,这个消息让他丈二和尚摸不着头脑
-64.wav,0.281,画龙点睛之笔，让整个设计焕然一新。,0,0.0,画龙点睛之笔让整个设计焕然一新
-65.wav,0.255,这是卡脖子技术，必须自主研发。,0,0.0,这是卡脖子技术必须自主研发
-66.wav,0.331,这幅画作以其独特的色彩运用和构图技巧而闻名。,0,0.0,这幅画作以其独特的色彩运用和构图技巧而闻名
-67.wav,0.283,患者主诉间歇性，胸痛放射至左臂。,0,0.0,患者主诉间歇性胸痛放射至左臂
-68.wav,0.777,患者有冠状动脉粥样硬化性心脏病病史，十年慢性阻塞性肺疾病病史，五年。,0,0.0,患者有冠状动脉粥样硬化性心脏病病史十年慢性阻塞性肺疾病病史五年
-69.wav,0.417,建议行冠状动脉、造影检查，必要时植入支架。,0,0.0,建议行冠状动脉造影检查必要时植入支架
-70.wav,0.451,患者需低盐、低脂糖尿病饮食监测、血压、血糖变化。,0,0.0,患者需低盐低脂糖尿病饮食监测血压血糖变化
-71.wav,0.562,胸部ct平扫显示，双肺散在膜玻璃样密度影以胸膜下分布为主。,1,0.037,胸部ct平扫显示双肺散在[-磨-]{+膜+}玻璃样密度影以胸膜下分布为主
-72.wav,0.663,知识产权归属约定，乙方在履行本合同过程中所产生的全部智力成果，其知识产权归甲方所有。,1,0.025,知识产权归属约定乙方在履行本合同过程中所产生的全部智力成果其知识产权[-均-]归甲方所有
-73.wav,0.795,双方应履行本合同发生争议的应首先通过友好协商解决，协商不成的，任何一方均有权向有管辖权的人民法院提起诉讼。,1,0.02,双方[-因-]{+应+}履行本合同发生争议的应首先通过友好协商解决协商不成的任何一方均有权向有管辖权的人民法院提起诉讼
-74.wav,0.58,被告在法定期限内未提交答辩状，亦未到庭参加诉讼，本院依法缺席审理。,0,0.0,被告在法定期限内未提交答辩状亦未到庭参加诉讼本院依法缺席审理
-75.wav,0.876,原告向本院提出诉讼请求。一、判令被告支付货款人民币五十万八千元及逾期付款利息。二、判令被告承担本案的诉讼费用。,0,0.0,原告向本院提出诉讼请求一判令被告支付货款人民币五十万八千元及逾期付款利息二判令被告承担本案的诉讼费用
-76.wav,0.701,被执行人未按执行通知履行法律文书确定的义务，人民法院有权查封、扣押、冻结、拍卖被执行人的财产。,0,0.0,被执行人未按执行通知履行法律文书确定的义务人民法院有权查封扣押冻结拍卖被执行人的财产
 77.wav,0.179,这个视频太上头了。,0,0.0,这个视频太上头了
-78.wav,0.18,他真是个社恐。,0,0.0,他真是个社恐
-79.wav,0.264,简直了，这躺平的状态也太佛系了吧。,0,0.0,简直了这躺平的状态也太佛系了吧
-80.wav,0.262,这个瓜有点大我得去吃瓜了。,0,0.0,这个瓜有点大我得去吃瓜了
-81.wav,0.258,别内卷了，咱们还是多交流交流吧。,0,0.0,别内卷了咱们还是多交流交流吧
-82.wav,0.622,第二个公司，我们成立了中国黄页。在中国黄页的创业经验中有很多的经验，也是可以在这跟大家进行分享的。,1,0.022,第二个公司我们成立了中国黄页在中国黄页的创业经验中有很多的经验也是可以在这[-儿-]跟大家进行分享的
-83.wav,0.572,对于大部分在接触微积分之前，主要的学习经验就是刷题，甚至是连题也不刷的同学们来说。,0,0.0,对于大部分在接触微积分之前主要的学习经验就是刷题甚至是连题也不刷的同学们来说
-84.wav,0.806,说了两个小时没人听懂，我在说什么，最后二十三个人反对一个人同意这一个人就说马云你这样做，你就试试看，不行的话，赶紧逃回来，还来得及。,0,0.0,说了两个小时没人听懂我在说什么最后二十三个人反对一个人同意这一个人就说马云你这样做你就试试看不行的话赶紧逃回来还来得及
-85.wav,0.461,晚上想想是热血沸腾真好，第二天早上骑个自行车又上班去了，对吧？,0,0.0,晚上想想是热血沸腾真好第二天早上骑个自行车又上班去了对吧

 file_name,time,inference_result
+1.wav,1.93,您这车开的真够稳的，蜗牛都超车了。,1,0.067,您这车开[-得-]{+的+}真够稳的蜗牛都超车了
+2.wav,0.302,你可真是个天才，把这么简单的事情都搞砸了。,0,0.0,你可真是个天才把这么简单的事情都搞砸了
+3.wav,0.454,因网络问题，远程讲者音频中断，我们切到备用方案，共享幻灯片。,0,0.0,因网络问题远程讲者音频中断我们切到备用方案共享幻灯片
 4.wav,0.419,这就好比用大炮打蚊子，资源分配严重不均衡，需要细腻度调度。,1,0.038,这就好比用大炮打蚊子资源分配严重不均衡需要细[-粒-]{+腻+}度调度
+5.wav,0.28,言归正传，我们来讨论一下核心问题。,0,0.0,言归正传我们来讨论一下核心问题
+6.wav,0.24,这有点超出了我们今天讨论的范围。,0,0.0,这有点超出了我们今天讨论的范围
+7.wav,0.248,他的年收入约为一百万人民币。,0,0.0,他的年收入约为一百万人民币
+8.wav,0.435,下一位演讲者是来自斯坦福大学计算机科学系的张明教授。,0,0.0,下一位演讲者是来自斯坦福大学计算机科学系的张明教授
+9.wav,0.442,请各位将手机调至静音模式，演讲结束后有十五分钟提问时间。,0,0.0,请各位将手机调至静音模式演讲结束后有十五分钟提问时间
+10.wav,0.339,茶歇将在十点三十分开始，地点在二楼休息区。,0,0.0,茶歇将在十点三十分开始地点在二楼休息区
 11.wav,0.293,本合同自双方签字盖章之日起生效。,0,0.0,本合同自双方签字盖章之日起生效
+12.wav,0.366,政府正在采取措施刺激经济增长和创造就业机会。,0,0.0,政府正在采取措施刺激经济增长和创造就业机会
+13.wav,0.369,今天中午我们点外卖吧，我想吃宫保鸡丁和麻婆豆腐。,0,0.0,今天中午我们点外卖吧我想吃宫保鸡丁和麻婆豆腐
+14.wav,0.588,医生建议我多吃粗粮，比如燕麦和紫薯，少吃高油、高糖的油炸食品，像炸鸡和甜甜圈。,0,0.0,医生建议我多吃粗粮比如燕麦和紫薯少吃高油高糖的油炸食品像炸鸡和甜甜圈
+15.wav,0.453,本方案采用异构计算架构，结合gpu与fpga加速张量运算。,0,0.0,本方案采用异构计算架构结合gpu与fpga加速张量运算
+16.wav,0.497,推理延迟稳定在五毫秒以内，吞吐量提升百分之四十，功耗降低一点八瓦。,0,0.0,推理延迟稳定在五毫秒以内吞吐量提升百分之四十功耗降低一点八瓦
+17.wav,0.696,相比sota模型，我们的方法在小样本场景下召回率高出十二个百分点，且参数量仅为其三分之一。,0,0.0,相比sota模型我们的方法在小样本场景下召回率高出十二个百分点且参数量仅为其三分之一
+18.wav,0.508,当节点并发数超过一万时，内存带宽会成瓶颈，导致伪延迟急剧上升。,1,0.036,当节点并发数超过一万时内存带宽会成瓶颈导致[-尾-]{+伪+}延迟急剧上升
+19.wav,0.667,请看图三，蓝色柱是基线模型，红色线是我们的优化。结果交叉点表明，在第十五轮迭代后，优势显著。,0,0.0,请看图三蓝色柱是基线模型红色线是我们的优化结果交叉点表明在第十五轮迭代后优势显著
+20.wav,0.499,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少？,0,0.0,您提到模型泛化性提升是否在跨模态数据上验证过量化指标是多少
+21.wav,0.578,容我追问一点，如果输入数据存在对抗样本，您方案的鲁棒性如何保证失效概率有测试吗？,0,0.0,容我追问一点如果输入数据存在对抗样本您方案的鲁棒性如何保证失效概率有测试吗
+22.wav,0.495,抱歉打断您说的动态减脂，是指训练中还是推理中阈值是自适应的吗？,2,0.069,抱歉打断您说的动态[-剪枝-]{+减脂+}是指训练中还是推理中阈值是自适应的吗
+23.wav,0.503,成本效益是否可行？部署这种定制芯片需要流片费用，中小客户怎么承担？,0,0.0,成本效益是否可行部署这种定制芯片需要流片费用中小客户怎么承担
+24.wav,0.546,我补充一个角度，隐私计算领域也在用，类似思路是否可能跨领域合作。,0,0.0,我补充一个角度隐私计算领域也在用类似思路是否可能跨领域合作
+25.wav,0.485,端到端，优化流水线，涵盖数据清洗特征、工程模型，压缩部署监控。,0,0.0,端到端优化流水线涵盖数据清洗特征工程模型压缩部署监控
+26.wav,0.292,请检查代码库中的依赖项冲突问题。,0,0.0,请检查代码库中的依赖项冲突问题
+27.wav,0.345,这个电路板集成了微控制器传感器和无线通信模块。,0,0.0,这个电路板集成了微控制器传感器和无线通信模块
+28.wav,0.342,区块链技术的核心在于去中心化和加密安全性。,0,0.0,区块链技术的核心在于去中心化和加密安全性
+29.wav,0.362,需符合等保三级要求，数据出境要走安全评估。,0,0.0,需符合等保三级要求数据出境要���安全评估
+30.wav,0.313,最新数据显示，消费者信心指数有所回升。,0,0.0,最新数据显示消费者信心指数有所回升
 31.wav,0.349,专家预测，新能源汽车市场将迎来爆发式增长。,0,0.0,专家预测新能源汽车市场将迎来爆发式增长
+32.wav,0.482,多模态大模型能够同时处理文本图像和音频信号，实现真正的跨模态理解。,0,0.0,多模态大模型能够同时处理文本图像和音频信号实现真正的跨模态理解
+33.wav,0.467,联邦学习可以在保护用户隐私的前提下，实现分布式模型的协同训练。,0,0.0,联邦学习可以在保护用户隐私的前提下实现分布式模型的协同训练
+34.wav,0.455,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性。,0,0.0,我们研发的五十量子比特处理器在特定算法上展现出了量子优越性
+35.wav,0.449,变分量子本增值求解器在化学模拟中显示出巨大潜力。,1,0.043,变分量子��[-征-]{+增+}值求解器在化学模拟中显示出巨大潜力
+36.wav,0.492,边缘ai推理的延迟已经可以控制在十毫秒以内，满足实时应用需求。,0,0.0,边缘ai推理的延迟已经可以控制在十毫秒以内满足实时应用需求
+37.wav,0.55,我们设计的新型神经网络压缩算法，在保持精度的同时，将模型大小减少了百分之七十。,0,0.0,我们设计的新型神经网络压缩算法在保持精度的同时将模型大小减少了百分之七十
+38.wav,0.511,损失函数结合了交叉熵损失和对比，损失，权重系数设置为零点三和零点七。,0,0.0,损失函数结合了交叉熵损失和对比损失权重系数设置为零点三和零点七
+39.wav,0.648,在五个标准数据集上的实验结果表明，我们的方法平均比现有最佳方法提升了二点三个百分点。,0,0.0,在五个标准数据集上的实验结果表明我们的方法平均比现有最佳方法提升了二点三个百分点
+40.wav,0.53,消融实验证实了每个模块的有效性，移除注意力机制会导致性能下降百分之四点六。,0,0.0,消融实验证实了每个模块的有效性移除注意力机制会导致性能下降百分之四点六
+41.wav,0.496,模型的参数量为一点二亿，在八张a一百显卡上训练了七十二小时。,0,0.0,模型的参数量为一点二亿在八张a一百显卡上训练了七十二小时
+42.wav,0.311,总之，搞定了数据倾斜性能就上去了。,0,0.0,总之搞定了数据倾斜性能就上去了
+43.wav,0.994,open ai whisper需要fm pag的环境。fm pag是一个开源的跨平台音视频，处理工具和框架，可以用来录制转换和流式传输音视频内容。,5,0.074,openai[---]whisper需要f[-f-]mp[-e-]{+a+}g的环境f[-f-]mp[-e-]{+a+}g是一个开源的跨平台音视频处理工具和框架可以用来录制转换和流式传输音视频内容
+44.wav,0.444,采用transformer序列到序列模型，可以实现针对不同的语言处理任务。,0,0.0,采用transformer序列到序列模型可以实现针对不同的语言处理任务
+45.wav,0.535,transformer架构在自然语言处理中的成功应用，已经彻底改变了预训练模型的范式。,0,0.0,transformer架构在自然语言处理中的成功应用已经彻底改变了预训练模型的范式
+46.wav,0.511,请大家注意，workshop材料已经上传至会议系统，代码仓库链接在附录页。,0,0.0,请大家注意workshop材料已经上传至会议系统代码仓库链接在附录页
+47.wav,0.524,别造轮子了，直接调用乐uv五开源库的预训练权重，快速迭代才是王道。,4,0.125,别造轮子了直接调用[-yolo-]{+乐u+}v五开源库的预训练权重快速迭代才是王道
+48.wav,0.43,请确保您的设备已连接到五g赫兹、wifi频段，以获得最佳性能。,3,0.103,请确保您的设备已连接到五g[-hz-]{+赫兹+}wi[---]fi频段以获得最佳性能
+49.wav,0.593,我们提出了一种基于对比学习的自监督方法，在imaginate数据集上达到了百分之九十二点五的准确率。,3,0.064,我们提出了一种基于对比学习的自监督方法在imag{+inat+}e[-net-]数据集上达到了百分之九十二点五的准确率
+50.wav,0.478,gbd four在代码生成和多步推理任务上展现出令人印象深刻的伦理。,8,0.267,g[-pt负四-]{+bdfour+}在代码生成和多步推理任务上展现出令人印象深刻的[-能力-]{+伦理+}
+51.wav,0.783,若在高并发场景下未启用我们的动态缓存机制，即使用rdma网络延迟，也可能因cpu调度增强而恶化。,2,0.044,若在高并发场景下未启用我们的动态缓存机制即使用rdma网络延迟也可能因cpu调度[-争抢-]{+增强+}而恶化
+52.wav,0.402,准确说峰值算力是两百tops，不是刚才说的一百五。,2,0.083,准确说峰值算力是[-二-]{+两+}百tops不是刚才说的一百五[-十-]
+53.wav,0.393,秦始皇嬴政书同文，车同轨，奠定了中国大一统的基础。,0,0.0,秦始皇嬴政书同文车同轨奠定了中国大一统的基础
+54.wav,0.438,诸葛亮在出师表中写道，鞠躬尽瘁死而后已成为后世臣子的楷模。,0,0.0,诸葛亮在出师表中写道鞠躬尽瘁死而后已成为后世臣子的楷模
+55.wav,0.43,李白的举头望明月，低头思故乡，是连三岁孩童都能背诵的诗句。,0,0.0,李白的举头望明月低头思故乡是连三岁孩童都能背诵的诗句
+56.wav,0.488,孔子曾说，己所不欲勿施于人，这简单的八个字，构成了儒家伦理的基石。,0,0.0,孔子曾说己所不欲勿施于人这简单的八个字构成了儒家伦理的基石
+57.wav,0.464,王羲之被后人尊为书圣，其代表作兰亭集序被誉为天下第一行书。,0,0.0,王羲之被后人尊为书圣其代表作兰亭集序被誉为天下第一行书
+58.wav,0.423,我们要学习庖丁解牛的精神，掌握事物的客观规律才能游刃有余。,0,0.0,我们要学习庖丁解牛的精神掌握事物的客观规律才能游刃有余
+59.wav,0.428,项羽在鸿门宴上优柔寡��，放走了刘邦，最终兵败乌江自刎。,0,0.0,项羽在鸿门宴上优柔寡断放走了刘邦最终兵败乌江自刎
+60.wav,0.471,在杭州，西湖畔，人们总会想起苏轼治理西湖，修筑苏堤的往事。,0,0.0,在杭州西湖畔人们总会想起苏轼治理西湖修筑苏堤的往事
+61.wav,0.279,我计划去埃菲尔铁塔和卢浮宫参观。,0,0.0,我计划去埃菲尔铁塔和卢浮宫参观
+62.wav,0.342,莎士比亚的戏剧深刻地探讨了人性的复杂性。,0,0.0,莎士比亚的戏剧深刻地探讨了人性的复杂性
+63.wav,0.241,这个消息让他丈二和尚摸不着头脑。,0,0.0,这个消息让他丈二和尚摸不着头脑
+64.wav,0.325,画龙点睛之笔，让整个设计焕然一新。,0,0.0,画龙点睛之笔让整个设计焕然一新
+65.wav,0.264,这是卡脖子技术，必须自主研发。,0,0.0,这是卡脖子技术必须自主研发
+66.wav,0.337,这幅画作以其独特的色彩运用和构图技巧而闻名。,0,0.0,这幅画作以其独特的色彩运用和构图技巧而闻名
+67.wav,0.277,患者主诉间歇性，胸痛放射至左臂。,0,0.0,患者主诉间歇性胸痛放射至左臂
+68.wav,0.626,患者有冠状动脉粥样硬化性心脏病病史，十年慢性阻塞性肺疾病病史，五年。,0,0.0,患者有冠状动脉粥样硬化性心脏病病史十年慢性阻塞性肺疾病病史五年
+69.wav,0.38,建议行冠状动脉、造影检查，必要时植入支架。,0,0.0,建议行冠状动脉造影检查必要时植入支架
+70.wav,0.44,患者需低盐、低脂糖尿病饮食监测、血压、血糖变化。,0,0.0,患者需低盐低脂糖尿病饮食监测血压血糖变化
+71.wav,0.553,胸部ct平扫显示，双肺散在膜玻璃样密度影以胸膜下分布为主。,1,0.037,胸部ct平扫显示双肺散在[-磨-]{+膜+}玻璃样密度影以胸膜下分布为主
+72.wav,0.662,知识产权归属约定，乙方在履行本合同过程中所产生的全部智力成果，其知识产权归甲方所有。,1,0.025,知识产权归属约定乙方在履行本合同过程中所产生的全部智力成果其知识产权[-均-]归甲方所有
+73.wav,0.792,双方应履行本合同发生争议的应首先通过友好协商解决，协商不成的，任何一方均有权向有管辖权的人民法院提起诉讼。,1,0.02,双方[-因-]{+应+}履行本合同发生争议的应首先通过友好协商解决协商不成的任何一方均有权向有管辖权的人民法院提起诉讼
+74.wav,0.583,被告在法定期限内未提交答辩状，亦未到庭参加诉讼，本院依法缺席审理。,0,0.0,被告在法定期限内未提交答辩状亦未到庭参加诉讼本院依法缺席审理
+75.wav,0.882,原告向本院提出诉讼请求。一、判令被告支付货款人民币五十万八千元及逾期付款利息。二、判令被告承担本案的诉讼费用。,0,0.0,原告向本院提出诉讼请求一判令被告支付货款人民币五十万八千元及逾期付款利息二判令被告承担本案的诉讼费用
+76.wav,0.71,被执行人未按执行通知履行法律文书确定的义务，人民法院有权查封、扣押、冻结、拍卖被执行人的财产。,0,0.0,被执行人未按执行通知履行法律文书确定的义务人民法院有权查封扣押冻结拍卖被执行人的财产
 77.wav,0.179,这个视频太上头了。,0,0.0,这个视频太上头了
+78.wav,0.182,他真是个社恐。,0,0.0,他真是个社恐
+79.wav,0.267,简直了，这躺平的状态也太佛系了吧。,0,0.0,简直了这躺平的状态也太佛系了吧
+80.wav,0.263,这个瓜有点大我得去吃瓜了。,0,0.0,这个瓜有点大我得去吃瓜了
+81.wav,0.261,别内卷了，咱们还是多交流交流吧。,0,0.0,别内卷了咱们还是多交流交流吧
+82.wav,0.633,第二个公司，我们成立了中国黄页。在中国黄页的创业经验中有很多的经验，也是可以在这跟大家进行分享的。,1,0.022,第二个公司我们成立了中国黄页在中国黄页的创业经验中有很多的经验也是可以在这[-儿-]跟大家进行分享的
+83.wav,0.582,对于大部分在接触微积分之前，主要的学习经验就是刷题，甚至是连题也不刷的同学们来说。,0,0.0,对于大部分在接触微积分之前主要的学习经验就是刷题甚至是连题也不刷的同学们来说
+84.wav,0.81,说了两个小时没人听懂，我在说什么，最后二十三个人反对一个人同意这一个人就说马云你这样做，你就试试看，不行的话，赶紧逃回来，还来得及。,0,0.0,说了两个小时没人听懂我在说什么最后二十三个人反对一个人同意这一个人就说马云你这样做你就试试看不行的话赶紧逃回来还来得及
+85.wav,0.46,晚上想想是热血沸腾真好，第二天早上骑个自行车又上班去了，对吧？,0,0.0,晚上想想是热血沸腾真好第二天早上骑个自行车又上班去了对吧

scripts/download_hf.py CHANGED Viewed

@@ -2,10 +2,10 @@ from pathlib import Path
 from huggingface_hub import snapshot_download
 # HF_ENDPOINT=https://hf-mirror.com python download_llm_copy.py
-# local_dir = "/Users/test/yujuan/llm/models"
-local_dir = "~/Downloads"
 repos = {
-    "Qwen/Qwen3-VL-30B-A3B-Thinking": [],
     #"Qwen/Qwen3-235B-A22B-GGUF": ["Q8_0/Qwen3-235B-A22B-Q8_0-00002-of-00009.gguf","Q8_0/Qwen3-235B-A22B-Q8_0-00004-of-00009.gguf"]
 }

 from huggingface_hub import snapshot_download
 # HF_ENDPOINT=https://hf-mirror.com python download_llm_copy.py
+local_dir = "/Users/jeqin/work/code"
+# local_dir = "~/Downloads"
 repos = {
+    "Qwen/Qwen2.5-0.5B-Instruct": [],
     #"Qwen/Qwen3-235B-A22B-GGUF": ["Q8_0/Qwen3-235B-A22B-Q8_0-00002-of-00009.gguf","Q8_0/Qwen3-235B-A22B-Q8_0-00004-of-00009.gguf"]
 }

scripts/run_funasr_quant.py CHANGED Viewed

@@ -26,26 +26,24 @@ def load_model(quantize=True):
     return vad_model, asr_model, punc_model
 def inference(vad_model, asr_model, punc_model, audio:Path):
-    print(audio.name)
     t1 = time.time()
-    vad_res = vad_model(str(audio))
-    # t2 = time.time()
-    # print("vad time:", t2-t1)
     asr_res = asr_model(str(audio), hotwords="")
-    asr_text = asr_res[0]["preds"]
-    # t3 = time.time()
-    # print("asr time:", t3-t2)
-    # print("asr text:", asr_text)
-    result = punc_model(asr_text)
-    text = result[0]
     t4 = time.time()
-    # print("punc time:", t4-t3)
-    # print("punc text:", text)
-    # print(text)
     t = t4-t1
-    # print("inference:", t)
     return text, t
 def run_recordings():
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
@@ -71,10 +69,10 @@ def run_test_audios():
     save_csv(file_name, rows)
 def run_test_dataset():
-    from scripts.asr_utils import read_dataset
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
-    test_data = Path("../test_data/dataset_aishell/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
@@ -106,7 +104,7 @@ def run_test_dataset():
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 def run_test_emilia():
-    from scripts.asr_utils import read_emilia
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
     parent = Path("../test_data/ZH-B000000")
@@ -135,5 +133,37 @@ def run_test_emilia():
     with open("csv/funasr_emilia_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
-    run_test_emilia()

     return vad_model, asr_model, punc_model
 def inference(vad_model, asr_model, punc_model, audio:Path):
     t1 = time.time()
+    # vad_res = vad_model(str(audio))
     asr_res = asr_model(str(audio), hotwords="")
+    text = ""
+    if len(asr_res) > 0:
+        asr_text = asr_res[0]["preds"]
+        result = punc_model(asr_text)
+        text = result[0]
     t4 = time.time()
     t = t4-t1
     return text, t
+def run_once(audio):
+    quantize = True
+    vad_model, asr_model, punc_model = load_model(quantize)
+    text, t = inference(vad_model, asr_model, punc_model, audio)
+    print(text)
 def run_recordings():
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
     save_csv(file_name, rows)
 def run_test_dataset():
+    from test_data.audios import read_dataset
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
+    test_data = Path("../test_data/dataset/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 def run_test_emilia():
+    from test_data.audios import read_emilia
     quantize = True
     vad_model, asr_model, punc_model = load_model(quantize)
     parent = Path("../test_data/ZH-B000000")
     with open("csv/funasr_emilia_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_wenet():
+    from test_data.audios import read_wenet
+    quantize = True
+    vad_model, asr_model, punc_model = load_model(quantize)
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence in read_wenet(count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path.name}")
+            text, t = inference(vad_model, asr_model, punc_model, audio_path)
+            print("inference time:", t)
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                # "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    # except Exception as e:
+    #     print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/funasr_wenet_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
+    # run_recordings()
+    run_test_wenet()
+    # run_once(Path("/Users/jeqin/work/code/TestTranslator/test_data/audio_clips/zhengyaowei-part1.mp3"))

scripts/run_whisper.py CHANGED Viewed

@@ -36,8 +36,6 @@ def run_recordings():
     rows = [["file_name", "time", "inference_result"]]
     original = get_origin_text_dict()
     for audio in sorted(audios.glob("*.wav"), key=lambda x: int(x.stem)):
-        if int(audio.stem)!=36:
-            continue
         print(audio)
         t1 = time.time()
         output = model.transcribe(str(audio), language="zh", initial_prompt="以下是普通话句子，这是一段会议内容。")# initial_prompt="这是一段中文的会议内容。"
@@ -47,7 +45,7 @@ def run_recordings():
         print(text)
         d, nd, diff = get_text_distance(original[audio.stem], text)
         rows.append([audio.name, round(t, 3), text, d, round(nd,3), diff])
-    # save_csv("csv/whisper.csv", rows)
 def run_test_audios():
@@ -67,9 +65,9 @@ def run_test_audios():
     save_csv("csv/whisper.csv", rows)
 def run_test_dataset():
-    from scripts.asr_utils import read_dataset
     model = load_model()
-    test_data = Path("../test_data/dataset_aishell/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
@@ -102,7 +100,7 @@ def run_test_dataset():
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 def run_test_emilia():
-    from scripts.asr_utils import read_emilia
     model = load_model()
     parent = Path("../test_data/ZH-B000000")
     result_list = []
@@ -133,5 +131,79 @@ def run_test_emilia():
     import json
     with open("csv/whisper_emilia_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
-    run_test_emilia()

     rows = [["file_name", "time", "inference_result"]]
     original = get_origin_text_dict()
     for audio in sorted(audios.glob("*.wav"), key=lambda x: int(x.stem)):
         print(audio)
         t1 = time.time()
         output = model.transcribe(str(audio), language="zh", initial_prompt="以下是普通话句子，这是一段会议内容。")# initial_prompt="这是一段中文的会议内容。"
         print(text)
         d, nd, diff = get_text_distance(original[audio.stem], text)
         rows.append([audio.name, round(t, 3), text, d, round(nd,3), diff])
+    save_csv("csv/pywhisper.csv", rows)
 def run_test_audios():
     save_csv("csv/whisper.csv", rows)
 def run_test_dataset():
+    from test_data.audios import read_dataset
     model = load_model()
+    test_data = Path("../test_data/dataset/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 def run_test_emilia():
+    from test_data.audios import read_emilia
     model = load_model()
     parent = Path("../test_data/ZH-B000000")
     result_list = []
     import json
     with open("csv/whisper_emilia_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_st():
+    from test_data.audios import read_st
+    model = load_model()
+    # parent = Path("../test_data/ST-CMDS-20170001_1-OS")
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence in read_st(count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            output = model.transcribe(
+                str(audio_path), language="zh"
+            )
+            t = time.time() - t1
+            print("inference time:", t)
+            text = " ".join([a.text for a in output])
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                # "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_st_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_wenet():
+    from test_data.audios import read_wenet
+    model = load_model()
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence in read_wenet(count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            output = model.transcribe(
+                str(audio_path), language="zh"
+            )
+            t = time.time() - t1
+            print("inference time:", t)
+            text = " ".join([a.text for a in output])
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                # "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_wenet_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == '__main__':
+    # run_test_emilia()
+    # run_recordings()
+    run_test_wenet()

scripts/run_whisper_finetuned.py CHANGED Viewed

@@ -4,7 +4,6 @@ import time
 from pathlib import Path
 import csv
-import numpy as np
 import torch
 import librosa
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
@@ -114,7 +113,8 @@ def main():
                 print(f"{p.name} -> 失败: {e}")
 def load_model():
-    model_path = "/Users/jeqin/Downloads/checkpoint-39000-full/whisper-large-v3-turbo-finetune"
     lang = "zh"
     t0 = time.time()
     processor = WhisperProcessor.from_pretrained(
@@ -179,9 +179,9 @@ def run_recordings():
 def run_test_dataset():
-    from scripts.asr_utils import read_dataset
     model, processor = load_model()
-    test_data = Path("../test_data/dataset_aishell/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
@@ -214,6 +214,111 @@ def run_test_dataset():
     with open("csv/whisper_finetuned_dataset_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == "__main__":
     # main()
-    run_test_dataset()

 from pathlib import Path
 import csv
 import torch
 import librosa
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
                 print(f"{p.name} -> 失败: {e}")
 def load_model():
+    # model_path = "/Users/jeqin/Downloads/checkpoint-39000-full/whisper-large-v3-turbo-finetune"
+    model_path = "/Users/jeqin/Downloads/whisper-large-v3-turbo-finetune_1219"
     lang = "zh"
     t0 = time.time()
     processor = WhisperProcessor.from_pretrained(
 def run_test_dataset():
+    from test_data.audios import read_dataset
     model, processor = load_model()
+    test_data = Path("../test_data/dataset/dataset.txt")
     audio_parent = Path("../test_data/")
     rows = [["file_name", "time", "inference_result"]]
     result_list = []
     with open("csv/whisper_finetuned_dataset_results.json", "w", encoding="utf-8") as f:
         json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_emilia():
+    from test_data.audios import read_emilia
+    model, processor = load_model()
+    parent = Path("../test_data/ZH-B000008")
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence, duration in read_emilia(parent, count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            text = transcribe_file(
+                str(audio_path), model, processor
+            )
+            t = time.time() - t1
+            print("inference time:", t)
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_finetune_emilia_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_st():
+    from test_data.audios import read_st
+    model, processor = load_model()
+    # parent = Path("../test_data/ST-CMDS-20170001_1-OS")
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence in read_st(count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            text = transcribe_file(
+                str(audio_path), model, processor
+            )
+            t = time.time() - t1
+            print("inference time:", t)
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                # "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_finetune_st_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
+def run_test_wenet():
+    from test_data.audios import read_wenet
+    model, processor = load_model()
+    result_list = []
+    count = 0
+    try:
+        for audio_path, sentence in read_wenet(count_limit=5000):
+            count += 1
+            print(f"processing {count}: {audio_path}")
+            t1 = time.time()
+            text = transcribe_file(
+                str(audio_path), model, processor
+            )
+            t = time.time() - t1
+            print("inference time:", t)
+            print(text)
+            result_list.append({
+                "index": count,
+                "audio_path": audio_path.name,
+                "reference": sentence,
+                # "duration": duration,
+                "inference_time": round(t, 3),
+                "inference_result": text
+            })
+    except Exception as e:
+        print(e)
+    except KeyboardInterrupt as e:
+        print(e)
+    import json
+    with open("csv/whisper_finetune_wenet_results.json", "w", encoding="utf-8") as f:
+        json.dump(result_list, f, ensure_ascii=False, indent=2)
 if __name__ == "__main__":
     # main()
+    # run_recordings()
+    # run_test_dataset()
+    # run_test_emilia()
+    run_test_wenet()

scripts/run_whisper_finetuned_with_punc_ov.py CHANGED Viewed

@@ -95,7 +95,7 @@ def run_recordings():
     save_csv("csv/finetune_whisper_with_punc.csv", rows)
 def run_test_dataset():
-    from scripts.asr_utils import read_dataset
     device = "GPU"
     lang = "<|zh|>"
     asr, punc = load_model(device)
@@ -131,7 +131,7 @@ def run_test_dataset():
 def run_test_emilia():
-    from scripts.asr_utils import read_emilia
     device = "GPU"
     lang = "<|zh|>"
     asr, punc = load_model(device)

     save_csv("csv/finetune_whisper_with_punc.csv", rows)
 def run_test_dataset():
+    from test_data.audios import read_dataset
     device = "GPU"
     lang = "<|zh|>"
     asr, punc = load_model(device)
 def run_test_emilia():
+    from test_data.audios import read_emilia
     device = "GPU"
     lang = "<|zh|>"
     asr, punc = load_model(device)

temp.py CHANGED Viewed

@@ -1,47 +1,33 @@
-import os
-os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
-from pathlib import Path
-from huggingface_hub import snapshot_download
-# HF_ENDPOINT=https://hf-mirror.com python download_llm_copy.py
-# local_dir = "/Users/test/yujuan/llm/models"
-local_dir = "/Users/jeqin/work/code/"
-repos = {
-    "TheBloke/Llama-2-7B-GGUF":["llama-2-7b.Q4_K_M.gguf"],
-    # "Qwen/Qwen3-235B-A22B-GGUF": ["Q8_0/Qwen3-235B-A22B-Q8_0-00002-of-00009.gguf","Q8_0/Qwen3-235B-A22B-Q8_0-00004-of-00009.gguf"]
-}
-def download(repo, files):
-    folder = repo.split('/')[-1]
-    print(f"start download {repo}")
-    for retry in range(5):
-        try:
-            if not files:
-                # 下载整个 repo
-                snapshot_download(repo_id=repo, local_dir=f"{local_dir}/{folder}",
-                                  #ignore_patterns=["original",]
-                                #   allow_patterns=None,
-                                  local_dir_use_symlinks=False)
-                print(f"download {repo} finished")
-                break
-            else:
-                # 下载列表中指定的文件
-                snapshot_download(repo_id=repo, local_dir=f"{local_dir}/{folder}", allow_patterns=files,
-                                  local_dir_use_symlinks=False)
-                print(f"download {repo} finished")
-                break
-        except Exception as e:
-            print(e)
-            print(f"download failed, retry: {retry + 1}")
-def main():
-    for repo, files in repos.items():
-        download(repo, files)
-if __name__ == '__main__':
-    main()

+from transformers import AutoModelForCausalLM, AutoTokenizer
+model_name = "Qwen/Qwen2.5-0.5B-Instruct"
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype="auto",
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+print("load model finished")
+prompt = "Give me a short introduction to large language model."
+messages = [
+    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
+    {"role": "user", "content": prompt}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+print("after apply chat template:",text)
+model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+generated_ids = model.generate(
+    **model_inputs,
+    max_new_tokens=512
+)
+generated_ids = [
+    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
+]
+response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

test_data/audios.py CHANGED Viewed

@@ -1,6 +1,8 @@
 from pathlib import Path
 import json
 from lib.utils import cmd
 from environment import TEST_DATA
@@ -8,7 +10,7 @@ from environment import TEST_DATA
 def read_recording(folder: Path=Path("./recordings"), count_limit=None):
     pass
-def read_dataset(file: Path=Path("./dataset_aishell/dataset.txt"), count_limit=None):
     """line sample: {"audio": {"path": "dataset/audio/data_aishell/wav/test/S0916/BAC009S0916W0158.wav"}, "sentence": "顾客体验的核心是真善美", "duration": 3.22, "sentences": [{"start": 0, "end": 3.22, "text": "顾客体验的核心是真善美"}]}"""
     with open(file) as f:
         lines =f.readlines()
@@ -44,6 +46,51 @@ def read_emilia(folder: Path=TEST_DATA/"ZH-B000000", count_limit=None):
             cmd(command)
         yield wav_path, text, duration
 if __name__ == '__main__':
-    for res in read_dataset(count_limit=3):
-        print(res)

 from pathlib import Path
 import json
+from transformers.models.mamba2.modeling_mamba2 import segment_sum
 from lib.utils import cmd
 from environment import TEST_DATA
 def read_recording(folder: Path=Path("./recordings"), count_limit=None):
     pass
+def read_dataset(file: Path=Path("dataset/dataset.txt"), count_limit=None):
     """line sample: {"audio": {"path": "dataset/audio/data_aishell/wav/test/S0916/BAC009S0916W0158.wav"}, "sentence": "顾客体验的核心是真善美", "duration": 3.22, "sentences": [{"start": 0, "end": 3.22, "text": "顾客体验的核心是真善美"}]}"""
     with open(file) as f:
         lines =f.readlines()
             cmd(command)
         yield wav_path, text, duration
+def read_st(folder: Path=TEST_DATA/"ST-CMDS-20170001_1-OS", count_limit=None):
+    """读取 st 数据集，返回音频路径、文本、时长,
+    """
+    count = 0
+    for wav in sorted(folder.glob("*.wav")):
+        count += 1
+        if count_limit and count > count_limit:
+            break
+        txt = wav.with_suffix(".txt")
+        with open(txt, encoding="utf-8") as f:
+            text = f.read()
+        yield wav, text
+def read_wenet(folder: Path=TEST_DATA/"wenet", json_file="WenetSpeech_TEST_NET.json", count_limit=None):
+    """读取 wenet 数据集，返回音频路径、文本、时长,
+    """
+    count = 0
+    with open(folder/json_file, encoding="utf-8") as f:
+        data = json.load(f)
+        audios = data["audios"]
+    for a in audios:
+        audio_file = Path(folder/a['path'])
+        if len(a["segments"])>=100: # 限制音频数量, 2985
+            continue
+        for seg in a["segments"]:
+            if count > count_limit:
+                break
+            seg_file = audio_file.parent / (seg["sid"]+".wav")
+            if not seg_file.exists():
+                command = f"ffmpeg -i {audio_file} -ar 16000 -ac 1 -ss {seg['begin_time']} -to {seg['end_time']} {seg_file}"
+                cmd(command)
+            count +=1
+            yield seg_file, seg["text"]
+    # for wav in sorted(folder.glob("*.wav")):
+    #     count += 1
+    #     if count_limit and count > count_limit:
+    #         break
+    #     txt = wav.with_suffix(".txt")
+    #     with open(txt, encoding="utf-8") as f:
+    #         text = f.read()
+        # yield wav, text
 if __name__ == '__main__':
+    read_wenet()

test_data/{dataset_aishell → dataset}/dataset.txt RENAMED Viewed

File without changes

test_data/recordings/text/test_asr_zh_with_index.txt CHANGED Viewed

@@ -69,7 +69,7 @@
 69. 建议行冠状动脉造影检查，必要时植入支架
 70. 患者需低盐低脂糖尿病饮食，监测血压、血糖变化
 71. 胸部CT平扫显示：双肺散在磨玻璃样密度影，以胸膜下分布为主
-72. 知识产权归属约定：乙方在履行本合同过程中所产生的全部智力成果，其知识产权均归甲方所有
 73. 双方因履行本合同发生争议的，应首先通过友好协商解决；协商不成的，任何一方均有权向有管辖权的人民法院提起诉讼
 74. 被告在法定期限内未提交答辩状，亦未到庭参加诉讼，本院依法缺席审理
 75. 原告向本院提出诉讼请求：一、判令被告支付货款人民币五十万八千元及逾期付款利息；二、判令被告承担本案的诉讼费用

 69. 建议行冠状动脉造影检查，必要时植入支架
 70. 患者需低盐低脂糖尿病饮食，监测血压、血糖变化
 71. 胸部CT平扫显示：双肺散在磨玻璃样密度影，以胸膜下分布为主
+72. 知识产权归属约定：乙方在履行本合同过程中所产生的全部智力成果，其知识产权归甲方所有
 73. 双方因履行本合同发生争议的，应首先通过友好协商解决；协商不成的，任何一方均有权向有管辖权的人民法院提起诉讼
 74. 被告在法定期限内未提交答辩状，亦未到庭参加诉讼，本院依法缺席审理
 75. 原告向本院提出诉讼请求：一、判令被告支付货款人民币五十万八千元及逾期付款利息；二、判令被告承担本案的诉讼费用

tests/{test_models → test_app_models}/__init__.py RENAMED Viewed

File without changes

tests/{test_models → test_app_models}/conftest.py RENAMED Viewed

File without changes

tests/{test_models → test_app_models}/test_funasr.py RENAMED Viewed

@@ -16,9 +16,11 @@ def asr(get_platform):
 def test_inference(asr):
     #TODO: 测试CER
     report = []
-    for audio_file, text, duration in read_emilia(count_limit=100):
         print(audio_file)
         audio = read_audio(audio_file)
         asr_text, time_cost = asr.transcribe(audio)
         report.append([audio_file,duration, text, asr_text, time_cost])
-    save_csv(REPORTS_DIR/"funasr.csv", ["audio", "duration", "ref", "asr", "time"], report)

 def test_inference(asr):
     #TODO: 测试CER
     report = []
+    for audio_file, text, duration in read_emilia(count_limit=20):
         print(audio_file)
         audio = read_audio(audio_file)
         asr_text, time_cost = asr.transcribe(audio)
         report.append([audio_file,duration, text, asr_text, time_cost])
+    save_csv(REPORTS_DIR/"funasr.csv", ["audio", "duration", "ref", "asr", "time"], report)
+    speed=[i[4] for i in report]
+    print("Funasr average speed: ", sum(speed)/len(speed))

tests/{test_models → test_app_models}/test_llm.py RENAMED Viewed

@@ -14,18 +14,18 @@ def llm(get_platform):
 def test_llm_zh(llm):
     report = []
-    for src in read_translation("zh"):
         dst, time_cost = llm.translate(src, src_lang="zh", dst_lang="en")
-        print("Prompt:", src)
-        print("Response:", dst)
         report.append([src, dst, time_cost])
     save_csv(REPORTS_DIR/"translation_zh.csv", ["src", "dst", "time"], report)
 def test_llm_en(llm):
     report = []
-    for src in read_translation("en"):
         dst, time_cost = llm.translate(src, src_lang="en", dst_lang="zh")
-        print("Prompt:", src)
-        print("Response:", dst)
         report.append([src, dst, time_cost])
-    save_csv(REPORTS_DIR/"translation_en.csv", ["src", "dst", "time"], report)

 def test_llm_zh(llm):
     report = []
+    for src in read_translation("zh", count_limit=None):
         dst, time_cost = llm.translate(src, src_lang="zh", dst_lang="en")
         report.append([src, dst, time_cost])
     save_csv(REPORTS_DIR/"translation_zh.csv", ["src", "dst", "time"], report)
+    speed = [i[2] for i in report]
+    print("llm zh average speed: ", sum(speed) / len(speed))
 def test_llm_en(llm):
     report = []
+    for src in read_translation("en", count_limit=None):
         dst, time_cost = llm.translate(src, src_lang="en", dst_lang="zh")
         report.append([src, dst, time_cost])
+    save_csv(REPORTS_DIR/"translation_en.csv", ["src", "dst", "time"], report)
+    speed = [i[2] for i in report]
+    print("llm en average speed: ", sum(speed) / len(speed))

tests/{test_models → test_app_models}/test_tts.py RENAMED Viewed

@@ -17,16 +17,20 @@ def tts(get_platform):
 def test_tts_zh(tts):
     tts = tts.from_language("zh")
     report = []
-    for text in read_translation("zh"):
         samples, sr, time_cost = tts.generate(text)
         report.append([text, time_cost])
     save_csv(REPORTS_DIR / "tts_zh.csv", ["text", "time"], report)
 def test_tts_en(tts):
     tts = tts.from_language("en")
     report = []
-    for text in read_translation("en"):
         samples, sr, time_cost = tts.generate(text, speed=1.4)
         report.append([text, time_cost])
-    save_csv(REPORTS_DIR / "tts_en.csv", ["text", "time"], report)

 def test_tts_zh(tts):
     tts = tts.from_language("zh")
     report = []
+    for text in read_translation("zh", count_limit=20):
         samples, sr, time_cost = tts.generate(text)
         report.append([text, time_cost])
     save_csv(REPORTS_DIR / "tts_zh.csv", ["text", "time"], report)
+    speed = [i[1] for i in report]
+    print("tts zh average speed: ", sum(speed) / len(speed))
 def test_tts_en(tts):
     tts = tts.from_language("en")
     report = []
+    for text in read_translation("en",count_limit=20):
         samples, sr, time_cost = tts.generate(text, speed=1.4)
         report.append([text, time_cost])
+    save_csv(REPORTS_DIR / "tts_en.csv", ["text", "time"], report)
+    speed = [i[1] for i in report]
+    print("tts en average speed: ", sum(speed) / len(speed))

tests/{test_models → test_app_models}/test_whisper.py RENAMED Viewed

@@ -15,9 +15,11 @@ def whisper(get_platform):
 def test_inference(whisper):
     #TODO: 测试CER
     report = []
-    for audio_file, text, duration in read_emilia(count_limit=100):
         print(audio_file)
         audio = read_audio(audio_file)
         asr_text, time_cost = whisper.transcribe(audio, "zh")
         report.append([audio_file,duration, text, asr_text, time_cost])
-    save_csv(REPORTS_DIR/"whisper.csv", ["audio", "duration", "ref", "asr", "time"], report)

 def test_inference(whisper):
     #TODO: 测试CER
     report = []
+    for audio_file, text, duration in read_emilia(count_limit=20):
         print(audio_file)
         audio = read_audio(audio_file)
         asr_text, time_cost = whisper.transcribe(audio, "zh")
         report.append([audio_file,duration, text, asr_text, time_cost])
+    save_csv(REPORTS_DIR/"whisper.csv", ["audio", "duration", "ref", "asr", "time"], report)
+    speed = [i[4] for i in report]
+    print("Whisper average speed: ", sum(speed) / len(speed))