FunAudioLLM
/

Fun-Audio-Chat-8B

@@ -5,19 +5,16 @@ language:
 license: apache-2.0
 library_name: transformers
 tags:
-  - audio
-  - speech
   - audio-language-model
-  - speech-to-text
   - speech-to-speech
   - voice-chat
-pipeline_tag: audio-text-to-text
 ---
 # Fun-Audio-Chat-8B
 <p align="right">
-  <a href="README.md">English</a> | <a href="README_zh.md">中文</a>
 </p>
 <div align="center">
@@ -36,12 +33,20 @@ pipeline_tag: audio-text-to-text
 Fun-Audio-Chat 是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了**双分辨率语音表征**（高效的5Hz共享骨干网络 + 25Hz精细化头部），在保持高语音质量的同时大幅降低计算开销，并采用**Core-Cocktail训练策略**来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。
 ### 核心特性
 - **双分辨率语音表征**：高效的5Hz帧率（相比其他模型的12.5Hz或25Hz），将GPU训练时间减少近50%，同时保持高语音质量
 - **业界领先性能**：在同等规模模型（约8B参数）中，在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMAU-Pro、MMSU、Speech-ACEBench、Speech-BFCL、Speech-SmartInteract、VStyle等评测集上排名领先
 - **全面的能力覆盖**：支持语音问答、音频理解、语音函数调用、语音指令遵循、语音情感共鸣
 ## 模型详情
 | 属性 | 值 |
@@ -117,12 +122,23 @@ python examples/infer_s2s.py
 ```bibtex
 @article{funaudiochat2025,
-  title={Fun-Audio-Chat: A Large Audio Language Model for Natural Voice Interactions},
   author={Tongyi Fun Team},
   year={2025}
 }
 ```
 ## 许可证
 本模型采用 [Apache 2.0 许可证](https://www.apache.org/licenses/LICENSE-2.0)。

 license: apache-2.0
 library_name: transformers
 tags:
   - audio-language-model
   - speech-to-speech
   - voice-chat
+pipeline_tag: any-to-any
 ---
 # Fun-Audio-Chat-8B
 <p align="right">
+  <a href="Fun-Audio-Chat-8B/blob/main/README.md">English</a> | <a href="Fun-Audio-Chat-8B/blob/main/README_zh.md">中文</a>
 </p>
 <div align="center">
 Fun-Audio-Chat 是一个专为自然、低延迟语音交互打造的大型音频语言模型。它引入了**双分辨率语音表征**（高效的5Hz共享骨干网络 + 25Hz精细化头部），在保持高语音质量的同时大幅降低计算开销，并采用**Core-Cocktail训练策略**来保持强大的文本LLM能力。该模型在语音问答、音频理解、语音函数调用、语音指令遵循和语音情感共鸣等基准测试中均取得了顶尖成绩。
+<p align="center">
+  <img width="95%" src="https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/assets/Results.png?raw=true">
+</p>
 ### 核心特性
 - **双分辨率语音表征**：高效的5Hz帧率（相比其他模型的12.5Hz或25Hz），将GPU训练时间减少近50%，同时保持高语音质量
 - **业界领先性能**：在同等规模模型（约8B参数）中，在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMAU-Pro、MMSU、Speech-ACEBench、Speech-BFCL、Speech-SmartInteract、VStyle等评测集上排名领先
 - **全面的能力覆盖**：支持语音问答、音频理解、语音函数调用、语音指令遵循、语音情感共鸣
+<p align="center">
+  <img width="95%" src="https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/assets/Architecture.png?raw=true">
+</p>
 ## 模型详情
 | 属性 | 值 |
 ```bibtex
 @article{funaudiochat2025,
+  title={Fun-Audio-Chat Technical Report},
   author={Tongyi Fun Team},
   year={2025}
 }
+@misc{tan2025drvoiceparallelspeechtextvoice,
+      title={DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations},
+      author={Chao-Hong Tan and Qian Chen and Wen Wang and Chong Deng and Qinglin Zhang and Luyao Cheng and Hai Yu and Xin Zhang and Xiang Lv and Tianyu Zhao and Chong Zhang and Yukun Ma and Yafeng Chen and Hui Wang and Jiaqing Liu and Xiangang Li and Jieping Ye},
+      year={2025},
+      eprint={2506.09349},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2506.09349},
+}
 ```
 ## 许可证
 本模型采用 [Apache 2.0 许可证](https://www.apache.org/licenses/LICENSE-2.0)。