DeepGlint-AI
/

mlcd-vit-large-patch14-336

Feature Extraction

clip_vision_model

Model card Files Files and versions

xiangan commited on Oct 14, 2024

Commit

e6656a0

·

verified ·

1 Parent(s): 14fd13e

Update README.md

Files changed (1) hide show

README.md +6 -0

README.md CHANGED Viewed

@@ -9,10 +9,16 @@ tags:
 - LLaVA
 ---
 [[Paper]](https://arxiv.org/abs/2407.17331) [[GitHub]](https://github.com/deepglint/unicom)
 ## Model
 We used the same Vision Transformer architecture  [ViT-L/14@336px as CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336).
 ## Data
 Our model was trained on publicly available image-caption data from the [LAION400M](https://arxiv.org/abs/2111.02114) and [COYO700M](https://github.com/kakaobrain/coyo-dataset) datasets.

 - LLaVA
 ---
 [[Paper]](https://arxiv.org/abs/2407.17331) [[GitHub]](https://github.com/deepglint/unicom)
 ## Model
 We used the same Vision Transformer architecture  [ViT-L/14@336px as CLIP](https://huggingface.co/openai/clip-vit-large-patch14-336).
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6478679d7b370854241b2ad8/8n_jBobanaLNAQjM5eZeg.png)
 ## Data
 Our model was trained on publicly available image-caption data from the [LAION400M](https://arxiv.org/abs/2111.02114) and [COYO700M](https://github.com/kakaobrain/coyo-dataset) datasets.