Upload nanoVLM using push_to_hub

Files changed (3) hide show

README.md CHANGED Viewed

@@ -23,5 +23,5 @@ Follow the install instructions and run the following code:
 ```python
 from models.vision_language_model import VisionLanguageModel
-model = VisionLanguageModel.from_pretrained("6cyu/nanoVLM_sciecenqa")
 ```

 ```python
 from models.vision_language_model import VisionLanguageModel
+model = VisionLanguageModel.from_pretrained("6cyu/nanoVLM_scienceqa")
 ```

config.json CHANGED Viewed

@@ -30,8 +30,8 @@
     "lm_chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
     "mp_pixel_shuffle_factor": 4,
     "mp_image_token_length": 64,
-    "max_img_size": 2048,
-    "resize_to_max_side_len": true,
     "vlm_extra_tokens": {
         "image_token": "<|image|>",
         "global_image_token": "<|global_image|>",

     "lm_chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
     "mp_pixel_shuffle_factor": 4,
     "mp_image_token_length": 64,
+    "max_img_size": 1024,
+    "resize_to_max_side_len": false,
     "vlm_extra_tokens": {
         "image_token": "<|image|>",
         "global_image_token": "<|global_image|>",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0224eac2c971c60e0e805c048a011f008f370a85599601c581bdb528da507cf2
 size 1840504504

 version https://git-lfs.github.com/spec/v1
+oid sha256:a68f8e312204b42191c33194b6581c317fb09d118e23e5fc1b41d8993a2cd861
 size 1840504504