Vision-Models - a atifsal Collection

atifsal 's Collections

Reasoning_Models

STT-TTS-Audio-Models

ComfyUI-Models-Workflows

Text-to-Video_Models

Graph-Learning_Models

Image-to-Image_Models

Audio-Text-to-Text_Models

Video-Text_to_Text_Models

Text-Gen_Models

Image-to-Video_Models

Any-to-Any_Models

Embedding-Models

Prompt-Engineering

Research-Papers

Vision-Models

updated 11 days ago

mradermacher/SmolVLM2-2.2B-Instruct-GGUF

Video-Text-to-Text • 2B • Updated Jul 11, 2025 • 167 • 4
facebook/sam3

Mask Generation • 0.9B • Updated Nov 20, 2025 • 1.72M • 2.33k
moonshotai/MoonViT-SO-400M

Image Feature Extraction • 0.4B • Updated Apr 17, 2025 • 5.63k • 85
fashn-ai/fashn-vton-1.5

Image-to-Image • 1.0B • Updated Feb 1 • 113
google/tipsv2-b14

Zero-Shot Image Classification • 0.2B • Updated Apr 14 • 12.3k • 110
nvidia/LocateAnything-3B

Image-Text-to-Text • 4B • Updated 15 days ago • 495k • 2.38k