sanps
/

fVLM-1.7B

Image-Text-to-Text

vision-language

video-understanding

foveated-attention

Eval Results (legacy)

Model card Files Files and versions

14.3 GB

1 contributor

History: 13 commits

sanps's picture

Upload README.md with huggingface_hub

77b40f5 verified 4 days ago

configs
Upload fVLM-1.7B: Foveated Vision-Language Model (Stage 3 DPO) 6 days ago
model_code
Upload fVLM-1.7B: Foveated Vision-Language Model (Stage 3 DPO) 6 days ago
.gitattributes

1.52 kB

initial commit 6 days ago
README.md

9.27 kB

Upload README.md with huggingface_hub 4 days ago
benchmark.py

18.4 kB

Upload benchmark.py 5 days ago
benchmark_results.json

14.1 kB

Upload benchmark_results.json with huggingface_hub 4 days ago
checkpoint.pt
Detected Pickle imports (4)
- "torch.FloatStorage",
- "collections.OrderedDict",
- "torch.BFloat16Storage",
- "torch._utils._rebuild_tensor_v2"
What is a pickle import?
10.5 GB
xet

Upload stage 3 (DPO) checkpoint (step 2593) 5 days ago
config.json

504 Bytes

Upload fVLM-1.7B: Foveated Vision-Language Model (Stage 3 DPO) 6 days ago
data.py

28.8 kB

Upload data.py 5 days ago
logger.py

10.1 kB

Upload logger.py 5 days ago
model.py

42.4 kB

Upload model.py 5 days ago
model.safetensors

3.72 GB
xet

Upload fVLM-1.7B: Foveated Vision-Language Model (Stage 3 DPO) 6 days ago
train.py

39.5 kB

Upload train.py 5 days ago