HIT-TMG
/

UniMoE-Audio-Preview

@@ -1,23 +1,24 @@
 ---
-license: apache-2.0
 language:
 - en
 - zh
 tags:
 - MoE
 - Unified Generation
 - Speech and Music
 - Multi-modal
 ---
 <h1 align="center">UniMoE-Audio</h1>
-**UniMoE-Audio**  is a unified framework that seamlessly combines speech and music generation. Powered by a novel Dynamic-Capacity Mixture-of-Experts architecture.
 <div align="center" style="display: flex; justify-content: center; margin-top: 10px;">
   <a href="https://mukioxun.github.io/Uni-MoE-site/home.html"><img src="https://img.shields.io/badge/📰 -Website-228B22" style="margin-right: 5px;"></a>
-  <a href="https://arxiv.org/abs/2510.13344"><img src="https://img.shields.io/badge/📄-Paper-8A2BE2" style="margin-right: 5px;"></a>
 </div>
 ---
@@ -28,8 +29,8 @@ tags:
 - [x] Model Checkpoint
     - [x] [UniMoE-Audio-preview](https://huggingface.co/foggyforest/UniMoE-Audio-preview)
     - [ ] [UniMoE-Audio]()
-- [x] Training and Inference Code: [HITsz-TMG/UniMoE-Audio](https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs/tree/master/UniMoE-Audio)
-- [x] Technical Report: [UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE](https://arxiv.org/abs/2510.13344)
 ## Evaluation
@@ -56,7 +57,7 @@ pip install qwen-vl-utils
 ```
-We use the Descript Audio Codec (DAC) for audio compression.  You can install it using the following command:
 ```
 pip install descript-audio-codec
 ```
@@ -187,7 +188,7 @@ video = [
     "/path/to/your/video/path.mp4",
 ]
-text_input,  video_inputs, fps_inputs, v2m_generation_kwargs = v2m_preprocess(caption, video)
 source_input = processor(text=text_input, images=None, videos=video_inputs, fps=fps_inputs, padding=True, return_tensors="pt", do_resize=False)
 source_input = source_input.to(model.device)
@@ -219,9 +220,6 @@ for i in range(len(audios)):
     dac.decode(audios[i].transpose(0, 1).unsqueeze(0), save_path=output_path, min_duration=1)
 ```
 # Citation
 Please cite the repo if you use the model or code in this repo.
@@ -232,7 +230,7 @@ Please cite the repo if you use the model or code in this repo.
       author={Zhenyu Liu and Yunxin Li and Xuanyu Zhang and Qixun Teng and Shenyuan Jiang and Xinyu Chen and Haoyuan Shi and Jinchao Li and Qi Wang and Haolan Chen and Fanbo Meng and Mingjun Zhao and Yu Xu and Yancheng He and Baotian Hu and Min Zhang},
       year={2025},
       journal={arXiv preprint arXiv:2510.13344},
-      url={https://arxiv.org/abs/2510.13344},
 }
 ```

 ---
 language:
 - en
 - zh
+license: apache-2.0
 tags:
 - MoE
 - Unified Generation
 - Speech and Music
 - Multi-modal
+pipeline_tag: text-to-audio
+library_name: transformers
 ---
 <h1 align="center">UniMoE-Audio</h1>
+**UniMoE-Audio** is a unified framework that seamlessly combines speech and music generation. Powered by a novel Dynamic-Capacity Mixture-of-Experts architecture.
 <div align="center" style="display: flex; justify-content: center; margin-top: 10px;">
   <a href="https://mukioxun.github.io/Uni-MoE-site/home.html"><img src="https://img.shields.io/badge/📰 -Website-228B22" style="margin-right: 5px;"></a>
+  <a href="https://huggingface.co/papers/2510.13344"><img src="https://img.shields.io/badge/📄-Paper-8A2BE2" style="margin-right: 5px;"></a>
 </div>
 ---
 - [x] Model Checkpoint
     - [x] [UniMoE-Audio-preview](https://huggingface.co/foggyforest/UniMoE-Audio-preview)
     - [ ] [UniMoE-Audio]()
+- [x] Training and Inference Code: [HITsz-TMG/UniMoE-Audio](https://github.com/HITsz-TMG/Uni-MoE/tree/master/UniMoE-Audio)
+- [x] Technical Report: [UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE](https://huggingface.co/papers/2510.13344)
 ## Evaluation
 ```
+We use the Descript Audio Codec (DAC) for audio compression. You can install it using the following command:
 ```
 pip install descript-audio-codec
 ```
     "/path/to/your/video/path.mp4",
 ]
+text_input, video_inputs, fps_inputs, v2m_generation_kwargs = v2m_preprocess(caption, video)
 source_input = processor(text=text_input, images=None, videos=video_inputs, fps=fps_inputs, padding=True, return_tensors="pt", do_resize=False)
 source_input = source_input.to(model.device)
     dac.decode(audios[i].transpose(0, 1).unsqueeze(0), save_path=output_path, min_duration=1)
 ```
 # Citation
 Please cite the repo if you use the model or code in this repo.
       author={Zhenyu Liu and Yunxin Li and Xuanyu Zhang and Qixun Teng and Shenyuan Jiang and Xinyu Chen and Haoyuan Shi and Jinchao Li and Qi Wang and Haolan Chen and Fanbo Meng and Mingjun Zhao and Yu Xu and Yancheng He and Baotian Hu and Min Zhang},
       year={2025},
       journal={arXiv preprint arXiv:2510.13344},
+      url={https://huggingface.co/papers/2510.13344},
 }
 ```