inclusionAI
/

MingTok-Audio

Model card Files Files and versions

yongjielv commited on Sep 30, 2025

Commit

07288e3

·

verified ·

1 Parent(s): 97228a0

Update README.md

Files changed (1) hide show

README.md +6 -4

README.md CHANGED Viewed

@@ -1,5 +1,7 @@
 ## Key Features
-- 🚀 **Unified Representation:** A single semantic-acoustic unified representation for both understanding and generation tasks.
 - 🎧 **High-Fidelity Reconstruction:** Achieve high-fidelity audio generation by modeling continuous features with a VAE, minimizing information loss and preserving intricate acoustic textures.
 - 🌐 **Convolution-Free Efficiency:** Built on a pure causal transformer architecture, completely eliminating convolutional layers for superior efficiency and a simpler design.
@@ -124,7 +126,7 @@ torchaudio.save('./1089-134686-0000_reconstruct.wav', output_waveform.cpu()[0],
       <td align="center">0.91</td>
     </tr>
     <tr>
-      <td align="left"><strong>Ming-UniAudio-Tokenizer(ours)</td>
       <td align="center">50</td>
       <td align="center"><b>4.21</b></td>
       <td align="center"><b>0.96</b></td>
@@ -189,7 +191,7 @@ torchaudio.save('./1089-134686-0000_reconstruct.wav', output_waveform.cpu()[0],
       <td>31.73</td>
     </tr>
     <tr>
-      <td><strong>Ming-UniAudio(ours)</td>
       <td>2.84</td>
       <td>1.62</td>
       <td><strong>9.80</strong></td>
@@ -251,7 +253,7 @@ torchaudio.save('./1089-134686-0000_reconstruct.wav', output_waveform.cpu()[0],
       <td align="center">0.51</td>
     </tr>
     <tr>
-      <td align="left"><strong>Ming-UniAudio(ours)</td>
       <td align="center"><b>0.95</b></td>
       <td align="center">0.70</td>
       <td align="center">1.85</td>

+<p align="center">📑 <a href="">Technical Report</a>｜📖<a href="https://xqacmer.github.io/Ming-Unitok-Audio.github.io">Project Page</a> ｜🤗 <a href="https://huggingface.co/inclusionAI/MingTok-Audio">Hugging Face</a>｜ 🤖 <a href="https://modelscope.cn/models/inclusionAI/MingTok-Audio">ModelScope</a>
 ## Key Features
+- 🚀 **Unified Representation:** A single semantic-acoustic unified continuous representation for both understanding and generation tasks.
 - 🎧 **High-Fidelity Reconstruction:** Achieve high-fidelity audio generation by modeling continuous features with a VAE, minimizing information loss and preserving intricate acoustic textures.
 - 🌐 **Convolution-Free Efficiency:** Built on a pure causal transformer architecture, completely eliminating convolutional layers for superior efficiency and a simpler design.
       <td align="center">0.91</td>
     </tr>
     <tr>
+      <td align="left"><strong>MingTok-Audio(ours)</td>
       <td align="center">50</td>
       <td align="center"><b>4.21</b></td>
       <td align="center"><b>0.96</b></td>
       <td>31.73</td>
     </tr>
     <tr>
+      <td><strong>Ming-UniAudio-16A3B(ours)</td>
       <td>2.84</td>
       <td>1.62</td>
       <td><strong>9.80</strong></td>
       <td align="center">0.51</td>
     </tr>
     <tr>
+      <td align="left"><strong>Ming-UniAudio-16A3B(ours)</td>
       <td align="center"><b>0.95</b></td>
       <td align="center">0.70</td>
       <td align="center">1.85</td>