Multimodal (Audio + Visual) - a Giymo11 Collection

Giymo11 's Collections

Multimodal (Audio + Visual)

Multimodal (Audio)

Multimodal (Audio + Visual)

updated Jan 9

Qwen/Qwen3-Omni-30B-A3B-Instruct

Any-to-Any • 35B • Updated Sep 22, 2025 • 1.94M • 955
google/gemma-3n-E4B-it

Image-Text-to-Text • 8B • Updated Jul 14, 2025 • 21.1k • • 918
Qwen/Qwen2.5-Omni-7B

Any-to-Any • 11B • Updated Apr 30, 2025 • 591k • 1.92k
meta-llama/Llama-4-Scout-17B-16E

Image-Text-to-Text • 109B • Updated Apr 9, 2025 • 32.5k • 259
microsoft/Phi-4-multimodal-instruct

Automatic Speech Recognition • 6B • Updated Dec 10, 2025 • 551k • 1.61k