sanps
/

fVLM-135M

Image-Text-to-Text

vision-language

video-understanding

foveated-attention

Model card Files Files and versions

743 MB

Ctrl+K

Ctrl+K

1 contributor

History: 5 commits

sanps's picture

Update model card: drop POPE, correct ScienceQA to 36.0%, add inference modes table

05571a0 verified 4 months ago