chuanmew commited on May 7, 2025

Commit

23f825a

verified ·

1 Parent(s): e4e17a2

helix-s2-finetuned-checkpoint-4000

Browse files

Files changed (17) hide show

helix-s2-finetuned-checkpoint-4000/config.json +125 -0
helix-s2-finetuned-checkpoint-4000/dataset_statistics.json +1442 -0
helix-s2-finetuned-checkpoint-4000/model-00001-of-00002.safetensors +3 -0
helix-s2-finetuned-checkpoint-4000/model-00002-of-00002.safetensors +3 -0
helix-s2-finetuned-checkpoint-4000/model.safetensors.index.json +1043 -0
helix-s2-finetuned-checkpoint-4000/optimizer.pt +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_0.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_1.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_2.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_3.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_4.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_5.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_6.pth +3 -0
helix-s2-finetuned-checkpoint-4000/rng_state_7.pth +3 -0
helix-s2-finetuned-checkpoint-4000/scheduler.pt +3 -0
helix-s2-finetuned-checkpoint-4000/trainer_state.json +330 -0
helix-s2-finetuned-checkpoint-4000/training_args.bin +3 -0

helix-s2-finetuned-checkpoint-4000/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "base_vlm": "/root/data/workspace/s2_checkpoints/checkpoint-1000",
+  "batch_size": 64,
+  "buffer_size": 64,
+  "frozen_keys": [
+    "*vlm.model*",
+    "*vlm.visual*",
+    "*vlm.lm_head*",
+    "*vlm.should_update_latent_head*",
+    "*module.octo_transformer.transformer*",
+    "*module.octo_transformer.observation_tokenizers*",
+    "*module.octo_transformer.obs_projections.obs_primary_projection*",
+    "*module.octo_transformer.readout_embeddings*",
+    "*module.octo_transformer.obs_pos_embeddings.obs_primary_pos_embedding*",
+    "*module.heads*"
+  ],
+  "model": {
+    "heads": {
+      "action": {
+        "args": [],
+        "kwargs": {
+          "action_dim": 7,
+          "action_horizon": 4,
+          "dropout_rate": 0.0,
+          "n_diffusion_samples": 1,
+          "readout_key": "readout_action",
+          "token_embedding_size": 768,
+          "use_map": false
+        },
+        "module": "octo.model.components.action_heads",
+        "name": "DiffusionActionHead"
+      }
+    },
+    "max_horizon": 10,
+    "observation_tokenizers": {
+      "primary": {
+        "args": [],
+        "kwargs": {
+          "encoder": {
+            "args": [],
+            "kwargs": {
+              "in_features": 3
+            },
+            "module": "octo.model.components.vit_encoders",
+            "name": "SmallStem16"
+          },
+          "obs_stack_keys": [
+            "image_primary"
+          ],
+          "task_stack_keys": []
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "ImageTokenizer"
+      },
+      "proprio": {
+        "args": [],
+        "kwargs": {
+          "bin_type": "normal",
+          "high": 2.0,
+          "low": -2.0,
+          "n_bins": 256,
+          "obs_keys": [
+            "proprio"
+          ]
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "LowdimObsTokenizer"
+      }
+    },
+    "readouts": {
+      "action": 1
+    },
+    "repeat_task_tokens": true,
+    "task_tokenizers": {
+      "latent": {
+        "args": [],
+        "kwargs": {
+          "embed_dim": 2048
+        },
+        "module": "octo.model.components.tokenizers",
+        "name": "HelixTaskTokenizer"
+      }
+    },
+    "token_embedding_size": 768,
+    "transformer_kwargs": {
+      "add_position_embedding": false,
+      "attention_dropout_rate": 0.0,
+      "dropout_rate": 0.0,
+      "mlp_dim": 3072,
+      "num_attention_heads": 12,
+      "num_layers": 12
+    },
+    "use_correct_attention": true
+  },
+  "obs_token_nums": {
+    "primary": 256,
+    "proprio": 7,
+    "wrist": 64
+  },
+  "sampler_num_samples": 2560000,
+  "seed": 42,
+  "subsample_length": 100,
+  "training_arguments": {
+    "bf16": true,
+    "dataloader_pin_memory": true,
+    "ddp_find_unused_parameters": false,
+    "eval_steps": 2000,
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 0.001,
+    "logging_nan_inf_filter": false,
+    "logging_steps": 100,
+    "lr_scheduler_type": "linear",
+    "max_grad_norm": 1.0,
+    "max_steps": 300000,
+    "optim": "adamw_torch_fused",
+    "per_device_eval_batch_size": 1,
+    "per_device_train_batch_size": 1,
+    "report_to": "wandb",
+    "save_safetensors": true,
+    "save_steps": 4000,
+    "torch_compile": true,
+    "warmup_steps": 1000,
+    "weight_decay": 0.1
+  }
+}

helix-s2-finetuned-checkpoint-4000/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,1442 @@

+[
+    {
+        "action": {
+            "mean": [
+                0.006003643851727247,
+                0.005378914996981621,
+                -0.01152078527957201,
+                0.03845681995153427,
+                -0.005092295352369547,
+                4.705651463154936e-06,
+                0.5016621351242065
+            ],
+            "std": [
+                0.06735217571258545,
+                0.0580400712788105,
+                0.07147737592458725,
+                0.14923600852489471,
+                0.12775161862373352,
+                0.14116433262825012,
+                0.4989379346370697
+            ],
+            "min": [
+                -2.0204520225524902,
+                -5.497899532318115,
+                -2.031663417816162,
+                -1.569917917251587,
+                -1.569892168045044,
+                -1.570419430732727,
+                0.0
+            ],
+            "max": [
+                2.9984593391418457,
+                22.09052848815918,
+                2.7507524490356445,
+                1.570636510848999,
+                1.5321086645126343,
+                1.5691522359848022,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.5665628910064697,
+                -0.08489959686994553,
+                0.7671157121658325,
+                -1.5243796110153198,
+                0.6186873316764832,
+                -1.6081069707870483,
+                0.4268847405910492
+            ],
+            "std": [
+                0.12401141226291656,
+                0.11508350074291229,
+                0.24391832947731018,
+                2.357435941696167,
+                0.4143419563770294,
+                0.7966252565383911,
+                0.44836491346359253
+            ],
+            "min": [
+                -0.4436439275741577,
+                -0.9970501065254211,
+                -0.006579156965017319,
+                -3.141592025756836,
+                -1.5693315267562866,
+                -3.1415860652923584,
+                0.0
+            ],
+            "max": [
+                1.0534898042678833,
+                0.48018959164619446,
+                1.6896663904190063,
+                3.141592264175415,
+                1.570796251296997,
+                3.1415884494781494,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                -0.0004243608273100108,
+                0.00032724777702242136,
+                0.0032227751798927784,
+                0.0,
+                0.0,
+                -0.03106882981956005,
+                0.3495003879070282
+            ],
+            "std": [
+                0.018492985516786575,
+                0.025810159742832184,
+                0.05933956056833267,
+                0.0,
+                0.0,
+                0.12920430302619934,
+                0.46033594012260437
+            ],
+            "min": [
+                -0.159867063164711,
+                -0.2892282009124756,
+                -0.2795473635196686,
+                0.0,
+                0.0,
+                -1.9875637292861938,
+                0.0
+            ],
+            "max": [
+                0.1697135865688324,
+                0.2777623236179352,
+                0.43710532784461975,
+                0.0,
+                0.0,
+                1.9684287309646606,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.5530868768692017,
+                0.047566935420036316,
+                0.1365358680486679,
+                0.7709221243858337,
+                0.004769620019942522,
+                -0.9132861495018005,
+                0.4574867784976959
+            ],
+            "std": [
+                0.04509514942765236,
+                0.1025579646229744,
+                0.06630735844373703,
+                3.0413753986358643,
+                0.010649651288986206,
+                2.727771520614624,
+                0.4964221119880676
+            ],
+            "min": [
+                0.40573424100875854,
+                -0.2028520256280899,
+                0.018512273207306862,
+                -3.1415927410125732,
+                -0.25521254539489746,
+                -3.1415927410125732,
+                0.0
+            ],
+            "max": [
+                0.7243871092796326,
+                0.31309840083122253,
+                0.8312229514122009,
+                3.141592264175415,
+                0.23549413681030273,
+                3.141592264175415,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.00017057154036592692,
+                0.000148340841406025,
+                0.00013469347322825342,
+                -4.7412850108230487e-05,
+                -0.00056671560741961,
+                0.00011704787902999669,
+                0.5864841938018799
+            ],
+            "std": [
+                0.009621696546673775,
+                0.013471683487296104,
+                0.012634573504328728,
+                0.02847793698310852,
+                0.030329007655382156,
+                0.06173764914274216,
+                0.5004628300666809
+            ],
+            "min": [
+                -0.4007510244846344,
+                -0.13874775171279907,
+                -0.22553899884223938,
+                -3.1120171546936035,
+                -1.8618112802505493,
+                -0.7410628795623779,
+                0.0
+            ],
+            "max": [
+                0.41691166162490845,
+                0.25864794850349426,
+                0.21218234300613403,
+                3.122202157974243,
+                1.8618113994598389,
+                0.758469820022583,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.30944472551345825,
+                0.030668215826153755,
+                0.06456991285085678,
+                0.006582529284060001,
+                -0.07698487490415573,
+                0.10747171938419342,
+                0.7057961225509644
+            ],
+            "std": [
+                0.06057106330990791,
+                0.09182365238666534,
+                0.05156636983156204,
+                0.13059234619140625,
+                0.16860555112361908,
+                0.5758708119392395,
+                0.35565808415412903
+            ],
+            "min": [
+                -0.04167502000927925,
+                -0.3563207685947418,
+                -0.15537554025650024,
+                -3.141592502593994,
+                -1.4992541074752808,
+                -3.14153790473938,
+                0.04637829214334488
+            ],
+            "max": [
+                0.5862360596656799,
+                0.4034728705883026,
+                0.3568263053894043,
+                1.3517687320709229,
+                1.570796251296997,
+                3.1412041187286377,
+                1.1121242046356201
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                -0.0027445757295936346,
+                0.00709549430757761,
+                0.013522458262741566,
+                -0.004958729259669781,
+                -0.009980662725865841,
+                -0.006119652651250362,
+                0.43063056468963623
+            ],
+            "std": [
+                0.23144568502902985,
+                0.36525610089302063,
+                0.28786516189575195,
+                0.26068246364593506,
+                0.24356642365455627,
+                0.5206449627876282,
+                0.4965480864048004
+            ],
+            "min": [
+                -4.242457866668701,
+                -3.192805051803589,
+                -1.3371467590332031,
+                -3.1237380504608154,
+                -2.6722638607025146,
+                -3.130864381790161,
+                0.0
+            ],
+            "max": [
+                1.4915844202041626,
+                2.1842432022094727,
+                2.6836395263671875,
+                3.0924112796783447,
+                2.665865182876587,
+                3.127634286880493,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.37217476963996887,
+                0.13205504417419434,
+                0.3828185200691223,
+                -0.06818609684705734,
+                -0.17516356706619263,
+                0.4611636996269226,
+                0.15133924782276154
+            ],
+            "std": [
+                0.11450899392366409,
+                0.2691265642642975,
+                0.1126580685377121,
+                3.0389301776885986,
+                0.18606479465961456,
+                0.686427891254425,
+                0.28193965554237366
+            ],
+            "min": [
+                0.07693906873464584,
+                -0.4944135844707489,
+                0.20030911266803741,
+                -3.1415886878967285,
+                -0.8683896064758301,
+                -1.789320707321167,
+                -0.6495265960693359
+            ],
+            "max": [
+                0.7124971151351929,
+                0.6118948459625244,
+                0.617118775844574,
+                3.141589403152466,
+                0.3071756362915039,
+                2.4624788761138916,
+                0.9704633951187134
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.0012445214670151472,
+                -0.005251587834209204,
+                -0.0031454148702323437,
+                0.0,
+                0.0,
+                0.0,
+                0.3504074811935425
+            ],
+            "std": [
+                0.12222036719322205,
+                0.09560250490903854,
+                0.11195981502532959,
+                0.0,
+                0.0,
+                0.0,
+                0.47727230191230774
+            ],
+            "min": [
+                -0.20000000298023224,
+                -0.20000000298023224,
+                -0.20000000298023224,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "max": [
+                0.20000000298023224,
+                0.20000000298023224,
+                0.20000000298023224,
+                0.0,
+                0.0,
+                0.0,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                -0.07360073924064636,
+                -0.4282155930995941,
+                0.275579571723938,
+                0.004527503624558449,
+                -0.01690048724412918,
+                0.9914278388023376,
+                0.12712202966213226
+            ],
+            "std": [
+                0.14040811359882355,
+                0.0908941999077797,
+                0.05241652950644493,
+                0.008698763325810432,
+                0.015913205221295357,
+                0.0024853625800460577,
+                0.01771053671836853
+            ],
+            "min": [
+                -0.4429473876953125,
+                -0.6635459661483765,
+                0.1568669229745865,
+                -0.07075214385986328,
+                -0.09496450424194336,
+                0.9703185558319092,
+                0.04738260433077812
+            ],
+            "max": [
+                0.2252020239830017,
+                -0.19358234107494354,
+                0.4066188633441925,
+                0.03788280487060547,
+                0.07292509078979492,
+                0.9981606006622314,
+                0.2313518077135086
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.0005774280871264637,
+                0.0011819612700492144,
+                -0.0005258310702629387,
+                0.00021356214710976928,
+                0.00013796966231893748,
+                0.001266916748136282,
+                0.6296713948249817
+            ],
+            "std": [
+                0.011499631218612194,
+                0.008035642094910145,
+                0.009562249295413494,
+                0.009380568750202656,
+                0.016513563692569733,
+                0.01090747956186533,
+                0.4827438294887543
+            ],
+            "min": [
+                -0.019999999552965164,
+                -0.019999999552965164,
+                -0.019999999552965164,
+                -0.06666667014360428,
+                -0.06666667014360428,
+                -0.06666667014360428,
+                0.0
+            ],
+            "max": [
+                0.019999999552965164,
+                0.019999999552965164,
+                0.019999999552965164,
+                0.06666667014360428,
+                0.06666667014360428,
+                0.06666667014360428,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.4526209235191345,
+                0.05664529278874397,
+                -0.03501615673303604,
+                0.17179693281650543,
+                0.0025787020567804575,
+                1.589087724685669,
+                0.3703971207141876
+            ],
+            "std": [
+                0.07940495759248734,
+                0.12453591078519821,
+                0.08049638569355011,
+                3.0333428382873535,
+                0.09067592769861221,
+                0.17449992895126343,
+                0.48298484086990356
+            ],
+            "min": [
+                0.1970997005701065,
+                -0.27643972635269165,
+                -0.20529526472091675,
+                -3.1415910720825195,
+                -0.5112340450286865,
+                0.778240442276001,
+                0.0
+            ],
+            "max": [
+                0.6610942482948303,
+                0.38513994216918945,
+                0.2049914449453354,
+                3.141587495803833,
+                0.38567113876342773,
+                2.6045620441436768,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                8.754087320994586e-05,
+                -0.0005884904530830681,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                1.0
+            ],
+            "std": [
+                0.02815437689423561,
+                0.03940409794449806,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "min": [
+                -0.21989956498146057,
+                -0.23736150562763214,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                1.0
+            ],
+            "max": [
+                0.23357294499874115,
+                0.24496802687644958,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.3996198773384094,
+                0.004858094733208418,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "std": [
+                0.10492434352636337,
+                0.14027132093906403,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "min": [
+                0.18907572329044342,
+                -0.3051564395427704,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "max": [
+                0.6191085577011108,
+                0.345907062292099,
+                0.0,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.000777362089138478,
+                0.00013811276585329324,
+                -0.00025248670135624707,
+                0.0012776820221915841,
+                -0.004746967926621437,
+                0.0026623313315212727,
+                0.4880663752555847
+            ],
+            "std": [
+                0.00801623985171318,
+                0.00912316795438528,
+                0.00956878811120987,
+                0.04118994623422623,
+                0.03837846964597702,
+                0.04597204923629761,
+                0.49996426701545715
+            ],
+            "min": [
+                -0.024999044835567474,
+                -0.024999700486660004,
+                -0.02499929815530777,
+                -0.24993225932121277,
+                -0.2499666064977646,
+                -0.2499932497739792,
+                0.0
+            ],
+            "max": [
+                0.02499854564666748,
+                0.02499903365969658,
+                0.024999922141432762,
+                0.24974457919597626,
+                0.24997030198574066,
+                0.24999946355819702,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.42382633686065674,
+                -0.01392359845340252,
+                0.3769100308418274,
+                -1.199476718902588,
+                -0.04784892499446869,
+                -0.3599538803100586,
+                0.049042750149965286
+            ],
+            "std": [
+                0.10459557175636292,
+                0.1273813247680664,
+                0.11172926425933838,
+                2.4611380100250244,
+                0.38851362466812134,
+                1.2116936445236206,
+                0.031794678419828415
+            ],
+            "min": [
+                0.16438177227973938,
+                -0.3419400751590729,
+                0.085594043135643,
+                -3.1415905952453613,
+                -1.5607775449752808,
+                -3.1414384841918945,
+                -0.0005391233135014772
+            ],
+            "max": [
+                0.7794343829154968,
+                0.3587854206562042,
+                0.638763964176178,
+                3.141591787338257,
+                1.5084254741668701,
+                3.1415464878082275,
+                0.0811397060751915
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.0011816318146884441,
+                -0.00025564825045876205,
+                0.0003137202584184706,
+                0.002336798934265971,
+                -0.00242138491012156,
+                -0.001972040394321084,
+                0.7230969667434692
+            ],
+            "std": [
+                0.013190814293920994,
+                0.012909645214676857,
+                0.012628739699721336,
+                0.040437646210193634,
+                0.055802080780267715,
+                0.03839560225605965,
+                0.44745731353759766
+            ],
+            "min": [
+                -0.052125245332717896,
+                -0.07232445478439331,
+                -0.06730806827545166,
+                -0.20499730110168457,
+                -0.21479034423828125,
+                -0.2243671417236328,
+                0.0
+            ],
+            "max": [
+                0.06424188613891602,
+                0.07027634978294373,
+                0.06129661202430725,
+                0.20181679725646973,
+                0.19077539443969727,
+                0.26377415657043457,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.30728915333747864,
+                0.41396260261535645,
+                0.4691331088542938,
+                1.7814242839813232,
+                0.044897496700286865,
+                1.305274486541748,
+                0.0
+            ],
+            "std": [
+                0.11810726672410965,
+                0.11085426807403564,
+                0.1647123098373413,
+                0.6698192358016968,
+                0.5180392861366272,
+                0.3852464556694031,
+                0.0
+            ],
+            "min": [
+                -0.029897235333919525,
+                0.003107964526861906,
+                0.1199457123875618,
+                -3.14158296585083,
+                -1.0961432456970215,
+                -0.41072607040405273,
+                0.0
+            ],
+            "max": [
+                0.5901635885238647,
+                0.781833291053772,
+                0.8468776941299438,
+                3.1414129734039307,
+                1.373811960220337,
+                2.342768907546997,
+                0.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.00014109841140452772,
+                0.001067000557668507,
+                0.00057840789668262,
+                -0.0032693298999220133,
+                -0.0025746545288711786,
+                0.017619194462895393,
+                0.4864794611930847
+            ],
+            "std": [
+                0.015914559364318848,
+                0.014729844406247139,
+                0.013863170519471169,
+                0.05770312249660492,
+                0.11294151842594147,
+                0.33116403222084045,
+                0.4992203116416931
+            ],
+            "min": [
+                -0.10495579987764359,
+                -0.10939455777406693,
+                -0.10000000149011612,
+                -0.971906840801239,
+                -1.0475432872772217,
+                -3.06000018119812,
+                0.0
+            ],
+            "max": [
+                0.10000000149011612,
+                0.10000000149011612,
+                0.10000000149011612,
+                0.8651833534240723,
+                1.0909736156463623,
+                2.863185405731201,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.5481934547424316,
+                0.049859024584293365,
+                0.08234382420778275,
+                -1.6028425693511963,
+                0.028501030057668686,
+                -0.033880893141031265,
+                0.04552179202437401
+            ],
+            "std": [
+                0.07731735706329346,
+                0.07867485284805298,
+                0.04057478532195091,
+                2.6797101497650146,
+                0.3000299036502838,
+                0.9212139844894409,
+                0.021556446328759193
+            ],
+            "min": [
+                0.2878606617450714,
+                -0.3141690492630005,
+                -0.00460465531796217,
+                -3.1415927410125732,
+                -1.1365289688110352,
+                -3.141582727432251,
+                -3.4803331800503656e-05
+            ],
+            "max": [
+                0.75081467628479,
+                0.29695066809654236,
+                0.35806331038475037,
+                3.141592264175415,
+                1.5458743572235107,
+                3.1415674686431885,
+                0.07995442301034927
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.011745305731892586,
+                0.006730083376169205,
+                0.06043865531682968,
+                0.0,
+                0.0,
+                0.0016618669033050537,
+                0.5274017453193665
+            ],
+            "std": [
+                0.4632987678050995,
+                0.4121692478656769,
+                0.4110864996910095,
+                0.0,
+                0.0,
+                0.05783988535404205,
+                0.4985195994377136
+            ],
+            "min": [
+                -1.0,
+                -1.0,
+                -1.0,
+                0.0,
+                0.0,
+                -0.375,
+                0.0
+            ],
+            "max": [
+                1.0,
+                1.0,
+                1.0,
+                0.0,
+                0.0,
+                0.375,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.5367307662963867,
+                -0.08597735315561295,
+                0.11143582314252853,
+                0.03930690512061119,
+                0.013144118711352348,
+                -0.044802285730838776,
+                0.051319584250450134
+            ],
+            "std": [
+                0.07999736070632935,
+                0.13983988761901855,
+                0.05644551292061806,
+                3.100438117980957,
+                0.08134326338768005,
+                0.6309059262275696,
+                0.025284448638558388
+            ],
+            "min": [
+                0.3208981454372406,
+                -0.3730051815509796,
+                0.020952222868800163,
+                -3.141592025756836,
+                -0.21639776229858398,
+                -1.995558738708496,
+                -8.864999836077914e-05
+            ],
+            "max": [
+                0.7488242387771606,
+                0.2829112708568573,
+                0.3541720509529114,
+                3.1415913105010986,
+                0.26857471466064453,
+                2.4386942386627197,
+                0.07783995568752289
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.07817424833774567,
+                0.03106578253209591,
+                0.043012287467718124,
+                0.0,
+                0.0,
+                -0.015927663072943687,
+                0.4326333999633789
+            ],
+            "std": [
+                0.3897651433944702,
+                0.29878485202789307,
+                0.27838900685310364,
+                0.0,
+                0.0,
+                0.08109692484140396,
+                0.49516406655311584
+            ],
+            "min": [
+                -1.0183025598526,
+                -0.9800000190734863,
+                -0.9774575233459473,
+                0.0,
+                0.0,
+                -0.34607142210006714,
+                0.0
+            ],
+            "max": [
+                1.0002285242080688,
+                0.960608720779419,
+                1.105179786682129,
+                0.0,
+                0.0,
+                0.341785728931427,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.22182214260101318,
+                0.037475429475307465,
+                -0.012922837398946285,
+                -1.211675763130188,
+                0.9867777228355408,
+                1.2979546785354614,
+                0.05917484313249588
+            ],
+            "std": [
+                0.13009746372699738,
+                0.13202384114265442,
+                0.08945119380950928,
+                0.2226451337337494,
+                0.24374930560588837,
+                0.26084408164024353,
+                0.016847841441631317
+            ],
+            "min": [
+                -0.23144784569740295,
+                -0.41377919912338257,
+                -0.3536752760410309,
+                -1.7786533832550049,
+                0.0,
+                0.0,
+                0.00016088332631625235
+            ],
+            "max": [
+                0.5567107200622559,
+                0.3814372420310974,
+                0.3687466084957123,
+                0.0,
+                1.2598693370819092,
+                1.707510232925415,
+                0.07965432107448578
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                -0.009976202622056007,
+                0.0009141670889221132,
+                0.004997506737709045,
+                0.00026673608226701617,
+                -0.008862413465976715,
+                -0.029926998540759087,
+                0.6457992792129517
+            ],
+            "std": [
+                0.029649879783391953,
+                0.02263188548386097,
+                0.020144397392868996,
+                0.04050878435373306,
+                0.045230600982904434,
+                0.07449887692928314,
+                0.3936954438686371
+            ],
+            "min": [
+                -0.1677047461271286,
+                -0.14630407094955444,
+                -0.10066790133714676,
+                -0.29421567916870117,
+                -0.32101404666900635,
+                -0.4635624885559082,
+                0.0
+            ],
+            "max": [
+                0.2165454924106598,
+                0.1251407265663147,
+                0.09988310933113098,
+                0.33544227480888367,
+                0.28117990493774414,
+                0.40614867210388184,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.018192559480667114,
+                0.10970789194107056,
+                0.7886075973510742,
+                -0.5168830156326294,
+                -0.22489114105701447,
+                -0.17720149457454681,
+                0.5501070618629456
+            ],
+            "std": [
+                0.1826269030570984,
+                0.09544865041971207,
+                0.08628752827644348,
+                0.243532195687294,
+                0.4256756901741028,
+                0.9913674592971802,
+                0.35924333333969116
+            ],
+            "min": [
+                -0.7190948724746704,
+                -0.3756217360496521,
+                -0.281008243560791,
+                -2.400146484375,
+                -2.500656843185425,
+                -3.1274476051330566,
+                0.0
+            ],
+            "max": [
+                0.6597589254379272,
+                0.7259413599967957,
+                1.1217665672302246,
+                2.2803165912628174,
+                1.815157175064087,
+                3.1237576007843018,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.0066413660533726215,
+                -0.0008098935359157622,
+                0.006867636926472187,
+                0.0011580738937482238,
+                -0.0064012822695076466,
+                -0.011905902065336704,
+                0.6870529055595398
+            ],
+            "std": [
+                0.021368511021137238,
+                0.018089566379785538,
+                0.03348425030708313,
+                0.01740916259586811,
+                0.033924732357263565,
+                0.046416450291872025,
+                0.4637002944946289
+            ],
+            "min": [
+                -0.10054297000169754,
+                -0.08427435159683228,
+                -0.13533438742160797,
+                -0.17556548118591309,
+                -0.18485672771930695,
+                -0.2680685818195343,
+                0.0
+            ],
+            "max": [
+                0.18991442024707794,
+                0.0739002525806427,
+                0.18064819276332855,
+                0.0866486132144928,
+                0.13464981317520142,
+                0.16910280287265778,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                -0.5662466287612915,
+                0.49160608649253845,
+                0.11201082915067673,
+                0.8307151198387146,
+                -0.9549650549888611,
+                0.02047070488333702,
+                0.0
+            ],
+            "std": [
+                0.1710057258605957,
+                0.1466914266347885,
+                0.3270176351070404,
+                1.158150315284729,
+                0.5659270286560059,
+                2.674586772918701,
+                0.0
+            ],
+            "min": [
+                -0.9590276479721069,
+                -0.042818181216716766,
+                -0.40131720900535583,
+                -3.1390082836151123,
+                -1.5646799802780151,
+                -3.1407129764556885,
+                0.0
+            ],
+            "max": [
+                0.044179707765579224,
+                0.7948326468467712,
+                0.9278888702392578,
+                3.133342981338501,
+                0.13346624374389648,
+                3.1415083408355713,
+                0.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    },
+    {
+        "action": {
+            "mean": [
+                0.00036335503682494164,
+                0.0,
+                0.0016447657253593206,
+                0.0,
+                0.0,
+                0.0,
+                0.3933013081550598
+            ],
+            "std": [
+                0.004081646911799908,
+                0.0,
+                0.003774851793423295,
+                0.0,
+                0.0,
+                0.0,
+                0.48849305510520935
+            ],
+            "min": [
+                -0.019353797659277916,
+                0.0,
+                -0.02019215188920498,
+                0.0,
+                0.0,
+                0.0,
+                0.0
+            ],
+            "max": [
+                0.02338407188653946,
+                0.0,
+                0.023404927924275398,
+                0.0,
+                0.0,
+                0.0,
+                1.0
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        },
+        "state": {
+            "mean": [
+                0.1457524597644806,
+                0.0,
+                0.7565534710884094,
+                0.0,
+                0.0,
+                0.0,
+                -0.41083183884620667
+            ],
+            "std": [
+                0.09961383789777756,
+                0.0,
+                0.15851713716983795,
+                0.0,
+                0.0,
+                0.0,
+                2.737846612930298
+            ],
+            "min": [
+                0.005320895928889513,
+                0.0,
+                0.45218077301979065,
+                0.0,
+                0.0,
+                0.0,
+                -3.1155149936676025
+            ],
+            "max": [
+                0.3401322066783905,
+                0.0,
+                1.1013386249542236,
+                0.0,
+                0.0,
+                0.0,
+                3.110913038253784
+            ],
+            "mask": [
+                true,
+                true,
+                true,
+                true,
+                true,
+                true,
+                false
+            ]
+        }
+    }
+]

helix-s2-finetuned-checkpoint-4000/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5393524957c1a4fa3d3c4a5172eadefaecc2655f06de86e76f6172c8c4e4106c
+size 4997808936

helix-s2-finetuned-checkpoint-4000/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cb2108b538f3c8bbe3bdda690f94bb07fa70bc81f42ef115a0eb7785b397bb8
+size 2695456842

helix-s2-finetuned-checkpoint-4000/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1043 @@

+{
+  "metadata": {
+    "total_size": 7693138642
+  },
+  "weight_map": {
+    "module.heads.action.alpha_hats": "model-00002-of-00002.safetensors",
+    "module.heads.action.alphas": "model-00002-of-00002.safetensors",
+    "module.heads.action.betas": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.cond_encoder.layers.0.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.cond_encoder.layers.0.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.cond_encoder.layers.1.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.cond_encoder.layers.1.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.fc1.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.fc1.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.fc2.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.fc2.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.layer_norm.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.0.layer_norm.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.fc1.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.fc1.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.fc2.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.fc2.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.layer_norm.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.1.layer_norm.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.fc1.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.fc1.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.fc2.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.fc2.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.layer_norm.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.blocks.2.layer_norm.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.input_layer.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.input_layer.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.output_layer.bias": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.reverse_network.output_layer.weight": "model-00002-of-00002.safetensors",
+    "module.heads.action.diffusion_model.time_preprocess.kernel": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_pos_embeddings.obs_primary_pos_embedding": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_pos_embeddings.obs_proprio_pos_embedding": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_projections.obs_primary_projection.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_projections.obs_primary_projection.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_projections.obs_proprio_projection.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.obs_projections.obs_proprio_projection.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.0.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.0.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.0.1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.0.1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.1.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.1.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.1.1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.1.1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.2.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.2.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.2.1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.2.1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.3.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.3.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.3.1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.conv_layers.3.1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.embedding.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.observation_tokenizers.primary.encoder.embedding.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.readout_embeddings.action": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.task_pos_embeddings.task_latent_pos_embedding": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.task_projections.task_latent_projection.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.task_projections.task_latent_projection.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.0.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.1.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.10.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.11.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.2.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.3.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.4.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.5.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.6.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.7.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.8.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.mlp_block.mlp.0.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.mlp_block.mlp.0.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.mlp_block.mlp.3.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.encoder_layers.9.mlp_block.mlp.3.weight": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.layer_norm.bias": "model-00002-of-00002.safetensors",
+    "module.octo_transformer.transformer.transformer.layer_norm.weight": "model-00002-of-00002.safetensors",
+    "vlm.latent_token_embedding": "model-00001-of-00002.safetensors",
+    "vlm.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vlm.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.model.norm.weight": "model-00002-of-00002.safetensors",
+    "vlm.new_tensor": "model-00001-of-00002.safetensors",
+    "vlm.padding_for_inserted_tokens": "model-00001-of-00002.safetensors",
+    "vlm.should_update_latent_head.bias": "model-00002-of-00002.safetensors",
+    "vlm.should_update_latent_head.weight": "model-00002-of-00002.safetensors",
+    "vlm.state_pos_embedding": "model-00001-of-00002.safetensors",
+    "vlm.state_projection.bias": "model-00002-of-00002.safetensors",
+    "vlm.state_projection.weight": "model-00002-of-00002.safetensors",
+    "vlm.visual.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.24.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.25.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.26.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.27.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.28.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.29.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.30.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.31.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.down_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.gate_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.up_proj.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.merger.ln_q.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.merger.mlp.0.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.merger.mlp.0.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.merger.mlp.2.bias": "model-00001-of-00002.safetensors",
+    "vlm.visual.merger.mlp.2.weight": "model-00001-of-00002.safetensors",
+    "vlm.visual.patch_embed.proj.weight": "model-00001-of-00002.safetensors"
+  }
+}

helix-s2-finetuned-checkpoint-4000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a685a95a8dad2794f5149a8c667844038f03f1d359443280f667f3bc3d34eb17
+size 6618048

helix-s2-finetuned-checkpoint-4000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bfd34f91477c68857ca0d6fbdc054a45cbe9c47d14b1b4ed39a8c277c153e0e
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49c24d6c4fbb133ab6d4b26453c4049cd5714cfdb210a9b63676d0c9362efea1
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f87ab2c468a0f13061b72c3f0e490196f001c4f9ce0b79ceb9cab033e376444d
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bdc0026e8209c15686f662960921d70b885f6fd408bb09dae5886beeeb9063f
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67b167401fc8bdc7807486940fc069285661a8ea8719fecac798e6bccf2c1602
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3db97f500e0240010baecdcb9d98aa6781586b03a655b0886cf02ee3eb812800
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7468019d1d8bdfde452ebd06afae2b6a384d0a0b197a1f67cbd9ceda5f35d9db
+size 15984

helix-s2-finetuned-checkpoint-4000/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c48330eda07a3e6c586db5fb415ee8abe0314d4dbdf8ac9de7004ab5c6e6062a
+size 15984

helix-s2-finetuned-checkpoint-4000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94b03277656cc7746f7221b8028331a7b9483da1803e69692d67a5e66ea881f2
+size 1064

helix-s2-finetuned-checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,330 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.6,
+  "eval_steps": 2000,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.375,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.31,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.474609375,
+      "learning_rate": 0.000199,
+      "loss": 1.2454,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.000299,
+      "loss": 1.2096,
+      "step": 300
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.451171875,
+      "learning_rate": 0.00039900000000000005,
+      "loss": 1.1899,
+      "step": 400
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.275390625,
+      "learning_rate": 0.000499,
+      "loss": 1.1749,
+      "step": 500
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.298828125,
+      "learning_rate": 0.000599,
+      "loss": 1.1785,
+      "step": 600
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.333984375,
+      "learning_rate": 0.000699,
+      "loss": 1.1797,
+      "step": 700
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.30859375,
+      "learning_rate": 0.000799,
+      "loss": 1.161,
+      "step": 800
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.271484375,
+      "learning_rate": 0.0008990000000000001,
+      "loss": 1.1574,
+      "step": 900
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.2060546875,
+      "learning_rate": 0.000999,
+      "loss": 1.1572,
+      "step": 1000
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.322265625,
+      "learning_rate": 0.0009996688963210703,
+      "loss": 1.1549,
+      "step": 1100
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.181640625,
+      "learning_rate": 0.000999334448160535,
+      "loss": 1.1475,
+      "step": 1200
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.2001953125,
+      "learning_rate": 0.000999,
+      "loss": 1.1503,
+      "step": 1300
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.1611328125,
+      "learning_rate": 0.000998665551839465,
+      "loss": 1.1381,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.2080078125,
+      "learning_rate": 0.0009983311036789297,
+      "loss": 1.145,
+      "step": 1500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.1748046875,
+      "learning_rate": 0.0009979966555183947,
+      "loss": 1.1461,
+      "step": 1600
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.263671875,
+      "learning_rate": 0.0009976622073578595,
+      "loss": 1.1412,
+      "step": 1700
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.1943359375,
+      "learning_rate": 0.0009973277591973245,
+      "loss": 1.1564,
+      "step": 1800
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.1962890625,
+      "learning_rate": 0.0009969933110367893,
+      "loss": 1.1451,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.1748046875,
+      "learning_rate": 0.0009966588628762543,
+      "loss": 1.1384,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.5619438886642456,
+      "eval_runtime": 3461.2009,
+      "eval_samples_per_second": 70.044,
+      "eval_steps_per_second": 8.756,
+      "step": 2000
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.1875,
+      "learning_rate": 0.000996324414715719,
+      "loss": 1.1393,
+      "step": 2100
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.1806640625,
+      "learning_rate": 0.0009959899665551838,
+      "loss": 1.1333,
+      "step": 2200
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.208984375,
+      "learning_rate": 0.0009956555183946488,
+      "loss": 1.1326,
+      "step": 2300
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.18359375,
+      "learning_rate": 0.0009953210702341138,
+      "loss": 1.1364,
+      "step": 2400
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.1787109375,
+      "learning_rate": 0.0009949866220735786,
+      "loss": 1.1208,
+      "step": 2500
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.169921875,
+      "learning_rate": 0.0009946521739130434,
+      "loss": 1.1293,
+      "step": 2600
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 0.25390625,
+      "learning_rate": 0.0009943177257525084,
+      "loss": 1.1312,
+      "step": 2700
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.19140625,
+      "learning_rate": 0.0009939832775919732,
+      "loss": 1.1402,
+      "step": 2800
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.26171875,
+      "learning_rate": 0.0009936488294314382,
+      "loss": 1.1438,
+      "step": 2900
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.1826171875,
+      "learning_rate": 0.000993314381270903,
+      "loss": 1.1245,
+      "step": 3000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 0.173828125,
+      "learning_rate": 0.000992979933110368,
+      "loss": 1.1314,
+      "step": 3100
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.3359375,
+      "learning_rate": 0.0009926454849498328,
+      "loss": 1.1407,
+      "step": 3200
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.29296875,
+      "learning_rate": 0.0009923110367892976,
+      "loss": 1.1287,
+      "step": 3300
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 0.30859375,
+      "learning_rate": 0.0009919765886287626,
+      "loss": 1.12,
+      "step": 3400
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.33984375,
+      "learning_rate": 0.0009916421404682274,
+      "loss": 1.134,
+      "step": 3500
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.1533203125,
+      "learning_rate": 0.0009913076923076924,
+      "loss": 1.1251,
+      "step": 3600
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.22265625,
+      "learning_rate": 0.0009909732441471572,
+      "loss": 1.1257,
+      "step": 3700
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.2431640625,
+      "learning_rate": 0.0009906387959866222,
+      "loss": 1.1314,
+      "step": 3800
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.32421875,
+      "learning_rate": 0.000990304347826087,
+      "loss": 1.1205,
+      "step": 3900
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.240234375,
+      "learning_rate": 0.0009899698996655517,
+      "loss": 1.1251,
+      "step": 4000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.5409821271896362,
+      "eval_runtime": 3570.7509,
+      "eval_samples_per_second": 67.895,
+      "eval_steps_per_second": 8.487,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 300000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 120,
+  "save_steps": 4000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

helix-s2-finetuned-checkpoint-4000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f547ceea7acfe8168943113ad577bb0293f978b970a4b49922a9f21d646c7404
+size 5368