--- license: mit language: - en pipeline_tag: automatic-speech-recognition --- # sensevoice.axera FunASR SenseVoice on Axera, official repo: https://github.com/FunAudioLLM/SenseVoice ## TODO - [x] 支持AX630C - [ ] 支持C++ - [x] 支持FastAPI ## 功能 - 语音识别 - 自动识别语言(支持中文、英文、粤语、日语、韩语) - 情感识别 - 自动标点 - 支持流式识别 ## 支持平台 - [x] AX650N - [x] AX630C ## 环境安装 ``` pip3 install -r requirements.txt ``` 如果空间不足可以使用 --prefix 指定别的安装路径 ## 使用 ``` # 首次运行会自动从huggingface上下载模型, 保存到models中 python3 main.py -i 输入音频文件 ``` 运行参数说明: | 参数名称 | 说明 | 默认值 | | --- | --- | --- | | --input/-i | 输入音频文件 | | | --language/-l | 识别语言,支持auto, zh, en, yue, ja, ko | auto | | --streaming | 流式识别 | | ### 示例: example下有测试音频 如 粤语测试 ``` python3 main.py -i example/yue.mp3 ``` 输出 ``` RTF: 0.03026517820946964 Latency: 0.15689468383789062s Total length: 5.184s ['呢几个字。', '都表达唔到,我想讲嘅意。', '思。'] ``` 流式识别 ``` python3 main.py -i example/zh.mp3 --streaming ``` 输出 ``` {'timestamps': [540], 'text': '开'} {'timestamps': [540, 780, 1080], 'text': '开放时'} {'timestamps': [540, 780, 1080, 1260, 1740], 'text': '开放时间早'} {'timestamps': [540, 780, 1080, 1260, 1740, 1920, 2340], 'text': '开放时间早上9'} {'timestamps': [540, 780, 1080, 1260, 1740, 1920, 2340, 2640], 'text': '开放时间早上9点'} {'timestamps': [540, 780, 1080, 1260, 1740, 1920, 2340, 2640, 3060], 'text': '开放时间早上9点至'} {'timestamps': [540, 780, 1080, 1260, 1740, 1920, 2340, 2640, 3060, 3780, 4020], 'text': '开放时间早上9点至下午'} {'timestamps': [540, 780, 1080, 1260, 1740, 1920, 2340, 2640, 3060, 3780, 4020, 4440, 4620], 'text': '开放时间早上9点至下午五点'} RTF: 0.03678379235444246 ``` ## 准确率 使用WER(Word-Error-Rate)作为评价标准 **WER = 0.0389** ### 复现测试结果 ``` ./download_datasets.sh python test_wer.py -d datasets -l zh ``` ## 技术讨论 - Github issues - QQ 群: 139953715