Multimodal (Audio) - a Giymo11 Collection

Giymo11 's Collections

Multimodal (Audio + Visual)

Multimodal (Audio)

Multimodal (Audio)

updated Jan 8

Qwen/Qwen3-Omni-30B-A3B-Instruct

Any-to-Any • 35B • Updated Sep 22, 2025 • 1.94M • 955
Qwen/Qwen2-Audio-7B

Audio-Text-to-Text • 8B • Updated Nov 20, 2024 • 12.6k • 172
mistralai/Voxtral-Small-24B-2507

Audio-Text-to-Text • 24B • Updated Dec 20, 2025 • 172k • 507
mistralai/Voxtral-Mini-3B-2507

5B • Updated Jul 28, 2025 • 387k • 660
moonshotai/Kimi-Audio-7B-Instruct

Text-to-Speech • 10B • Updated May 29, 2025 • 85k • 405
google/gemma-3n-E4B-it

Image-Text-to-Text • 8B • Updated Jul 14, 2025 • 21.1k • • 918
nvidia/audio-flamingo-3-hf

Audio-Text-to-Text • 8B • Updated Apr 13 • 295k • 187