Ba2han commited on Nov 20, 2025

Commit

3f152d3

verified ·

1 Parent(s): c8bbe9f

Delete last-checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/added_tokens.json +0 -3
last-checkpoint/chat_template.jinja +0 -47
last-checkpoint/config.json +0 -100
last-checkpoint/generation_config.json +0 -10
last-checkpoint/model-00001-of-00002.safetensors +0 -3
last-checkpoint/model-00002-of-00002.safetensors +0 -3
last-checkpoint/model.safetensors.index.json +0 -891
last-checkpoint/optimizer.pt +0 -3
last-checkpoint/preprocessor_config.json +0 -29
last-checkpoint/processor_config.json +0 -4
last-checkpoint/rng_state.pth +0 -3
last-checkpoint/scheduler.pt +0 -3
last-checkpoint/special_tokens_map.json +0 -33
last-checkpoint/tokenizer.json +0 -3
last-checkpoint/tokenizer.model +0 -3
last-checkpoint/tokenizer_config.json +0 -0
last-checkpoint/trainer_state.json +0 -1875
last-checkpoint/training_args.bin +0 -3

last-checkpoint/added_tokens.json DELETED Viewed

@@ -1,3 +0,0 @@
-{
-  "<image_soft_token>": 262144
-}

last-checkpoint/chat_template.jinja DELETED Viewed

@@ -1,47 +0,0 @@
-{{ bos_token }}
-{%- if messages[0]['role'] == 'system' -%}
-    {%- if messages[0]['content'] is string -%}
-        {%- set first_user_prefix = messages[0]['content'] + '
-' -%}
-    {%- else -%}
-        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
-' -%}
-    {%- endif -%}
-    {%- set loop_messages = messages[1:] -%}
-{%- else -%}
-    {%- set first_user_prefix = "" -%}
-    {%- set loop_messages = messages -%}
-{%- endif -%}
-{%- for message in loop_messages -%}
-    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
-        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
-    {%- endif -%}
-    {%- if (message['role'] == 'assistant') -%}
-        {%- set role = "model" -%}
-    {%- else -%}
-        {%- set role = message['role'] -%}
-    {%- endif -%}
-    {{ '<start_of_turn>' + role + '
-' + (first_user_prefix if loop.first else "") }}
-    {%- if message['content'] is string -%}
-        {{ message['content'] | trim }}
-    {%- elif message['content'] is iterable -%}
-        {%- for item in message['content'] -%}
-            {%- if item['type'] == 'image' -%}
-                {{ '<start_of_image>' }}
-            {%- elif item['type'] == 'text' -%}
-                {{ item['text'] | trim }}
-            {%- endif -%}
-        {%- endfor -%}
-    {%- else -%}
-        {{ raise_exception("Invalid content type") }}
-    {%- endif -%}
-    {{ '<end_of_turn>
-' }}
-{%- endfor -%}
-{%- if add_generation_prompt -%}
-    {{ '<start_of_turn>model
-' }}
-{%- endif -%}

last-checkpoint/config.json DELETED Viewed

@@ -1,100 +0,0 @@
-{
-  "architectures": [
-    "Gemma3ForConditionalGeneration"
-  ],
-  "boi_token_index": 255999,
-  "bos_token_id": 2,
-  "dtype": "bfloat16",
-  "eoi_token_index": 256000,
-  "eos_token_id": 106,
-  "image_token_index": 262144,
-  "initializer_range": 0.02,
-  "mm_tokens_per_image": 256,
-  "model_type": "gemma3",
-  "pad_token_id": 0,
-  "text_config": {
-    "_sliding_window_pattern": 6,
-    "attention_bias": false,
-    "attention_dropout": 0.0,
-    "attn_logit_softcapping": null,
-    "cache_implementation": "hybrid",
-    "dtype": "bfloat16",
-    "final_logit_softcapping": null,
-    "head_dim": 256,
-    "hidden_activation": "gelu_pytorch_tanh",
-    "hidden_size": 2560,
-    "initializer_range": 0.02,
-    "intermediate_size": 10240,
-    "layer_types": [
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "full_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "full_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "full_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "full_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "full_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention",
-      "sliding_attention"
-    ],
-    "max_position_embeddings": 131072,
-    "model_type": "gemma3_text",
-    "num_attention_heads": 8,
-    "num_hidden_layers": 34,
-    "num_key_value_heads": 4,
-    "query_pre_attn_scalar": 256,
-    "rms_norm_eps": 1e-06,
-    "rope_local_base_freq": 10000.0,
-    "rope_scaling": {
-      "factor": 8.0,
-      "rope_type": "linear"
-    },
-    "rope_theta": 1000000.0,
-    "sliding_window": 1024,
-    "use_bidirectional_attention": false,
-    "use_cache": true,
-    "vocab_size": 262208
-  },
-  "transformers_version": "4.57.1",
-  "unsloth_fixed": true,
-  "unsloth_version": "2025.11.3",
-  "vision_config": {
-    "attention_dropout": 0.0,
-    "dtype": "bfloat16",
-    "hidden_act": "gelu_pytorch_tanh",
-    "hidden_size": 1152,
-    "image_size": 896,
-    "intermediate_size": 4304,
-    "layer_norm_eps": 1e-06,
-    "model_type": "siglip_vision_model",
-    "num_attention_heads": 16,
-    "num_channels": 3,
-    "num_hidden_layers": 27,
-    "patch_size": 14,
-    "vision_use_head": false
-  }
-}

last-checkpoint/generation_config.json DELETED Viewed

@@ -1,10 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 2,
-  "cache_implementation": "hybrid",
-  "eos_token_id": [
-    106
-  ],
-  "pad_token_id": 0,
-  "transformers_version": "4.57.1"
-}

last-checkpoint/model-00001-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03c697183ec3d4c9ee41fb5d7eb5497a2276ae4bb9712e636c229f91a877bdd7
-size 4961251752

last-checkpoint/model-00002-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7f23e1978c0181acc10e8ddd3143d44875ac855750d9cbd324267aa4a6cc3670
-size 3639026128

last-checkpoint/model.safetensors.index.json DELETED Viewed

@@ -1,891 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 4300079472,
-    "total_size": 8600158944
-  },
-  "weight_map": {
-    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
-    "multi_modal_projector.mm_input_projection_weight": "model-00001-of-00002.safetensors",
-    "multi_modal_projector.mm_soft_emb_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00002.safetensors",
-    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00002.safetensors"
-  }
-}

last-checkpoint/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4d9e8ae18452278b808cfcebf861894adb0a1396067774b811c476c206ae8f04
-size 11890947145

last-checkpoint/preprocessor_config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "do_convert_rgb": null,
-  "do_normalize": true,
-  "do_pan_and_scan": null,
-  "do_rescale": true,
-  "do_resize": true,
-  "image_mean": [
-    0.5,
-    0.5,
-    0.5
-  ],
-  "image_processor_type": "Gemma3ImageProcessor",
-  "image_seq_length": 256,
-  "image_std": [
-    0.5,
-    0.5,
-    0.5
-  ],
-  "pan_and_scan_max_num_crops": null,
-  "pan_and_scan_min_crop_size": null,
-  "pan_and_scan_min_ratio_to_activate": null,
-  "processor_class": "Gemma3Processor",
-  "resample": 2,
-  "rescale_factor": 0.00392156862745098,
-  "size": {
-    "height": 896,
-    "width": 896
-  }
-}

last-checkpoint/processor_config.json DELETED Viewed

@@ -1,4 +0,0 @@
-{
-  "image_seq_length": 256,
-  "processor_class": "Gemma3Processor"
-}

last-checkpoint/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f1d565802a8e26c4e8a31328752b7a7fdc186d9401aa008e65697d0ad8c22e33
-size 14645

last-checkpoint/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9eb088b53c1bbdda30530e9a2f6310b5323c6a896d711e49c8a265e58e230b2d
-size 1465

last-checkpoint/special_tokens_map.json DELETED Viewed

@@ -1,33 +0,0 @@
-{
-  "boi_token": "<start_of_image>",
-  "bos_token": {
-    "content": "<bos>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eoi_token": "<end_of_image>",
-  "eos_token": {
-    "content": "<end_of_turn>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "image_token": "<image_soft_token>",
-  "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

last-checkpoint/tokenizer.json DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
-size 33384568

last-checkpoint/tokenizer.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
-size 4689074

last-checkpoint/tokenizer_config.json DELETED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/trainer_state.json DELETED Viewed

@@ -1,1875 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.32444101773323053,
-  "eval_steps": 500,
-  "global_step": 263,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.001233616037008481,
-      "grad_norm": 6.71875,
-      "learning_rate": 0.0,
-      "loss": 1.248,
-      "step": 1
-    },
-    {
-      "epoch": 0.002467232074016962,
-      "grad_norm": 7.0625,
-      "learning_rate": 1e-06,
-      "loss": 1.3869,
-      "step": 2
-    },
-    {
-      "epoch": 0.0037008481110254433,
-      "grad_norm": 6.4375,
-      "learning_rate": 2e-06,
-      "loss": 1.1873,
-      "step": 3
-    },
-    {
-      "epoch": 0.004934464148033924,
-      "grad_norm": 6.0,
-      "learning_rate": 3e-06,
-      "loss": 1.307,
-      "step": 4
-    },
-    {
-      "epoch": 0.006168080185042405,
-      "grad_norm": 5.65625,
-      "learning_rate": 4e-06,
-      "loss": 1.3342,
-      "step": 5
-    },
-    {
-      "epoch": 0.0074016962220508865,
-      "grad_norm": 4.90625,
-      "learning_rate": 4.9999999999999996e-06,
-      "loss": 1.1798,
-      "step": 6
-    },
-    {
-      "epoch": 0.008635312259059369,
-      "grad_norm": 4.75,
-      "learning_rate": 6e-06,
-      "loss": 1.1951,
-      "step": 7
-    },
-    {
-      "epoch": 0.009868928296067848,
-      "grad_norm": 4.46875,
-      "learning_rate": 7e-06,
-      "loss": 1.2497,
-      "step": 8
-    },
-    {
-      "epoch": 0.01110254433307633,
-      "grad_norm": 4.4375,
-      "learning_rate": 8e-06,
-      "loss": 1.2303,
-      "step": 9
-    },
-    {
-      "epoch": 0.01233616037008481,
-      "grad_norm": 3.84375,
-      "learning_rate": 9e-06,
-      "loss": 1.077,
-      "step": 10
-    },
-    {
-      "epoch": 0.013569776407093292,
-      "grad_norm": 3.375,
-      "learning_rate": 9.999999999999999e-06,
-      "loss": 1.1018,
-      "step": 11
-    },
-    {
-      "epoch": 0.014803392444101773,
-      "grad_norm": 3.53125,
-      "learning_rate": 1.1e-05,
-      "loss": 1.1497,
-      "step": 12
-    },
-    {
-      "epoch": 0.016037008481110254,
-      "grad_norm": 3.484375,
-      "learning_rate": 1.2e-05,
-      "loss": 1.1544,
-      "step": 13
-    },
-    {
-      "epoch": 0.017270624518118737,
-      "grad_norm": 3.328125,
-      "learning_rate": 1.3000000000000001e-05,
-      "loss": 1.1325,
-      "step": 14
-    },
-    {
-      "epoch": 0.018504240555127217,
-      "grad_norm": 3.703125,
-      "learning_rate": 1.4e-05,
-      "loss": 1.2333,
-      "step": 15
-    },
-    {
-      "epoch": 0.019737856592135696,
-      "grad_norm": 3.4375,
-      "learning_rate": 1.5e-05,
-      "loss": 1.1316,
-      "step": 16
-    },
-    {
-      "epoch": 0.02097147262914418,
-      "grad_norm": 3.3125,
-      "learning_rate": 1.4999968269041147e-05,
-      "loss": 1.0587,
-      "step": 17
-    },
-    {
-      "epoch": 0.02220508866615266,
-      "grad_norm": 3.265625,
-      "learning_rate": 1.4999873076433081e-05,
-      "loss": 1.1082,
-      "step": 18
-    },
-    {
-      "epoch": 0.02343870470316114,
-      "grad_norm": 2.875,
-      "learning_rate": 1.4999714422981284e-05,
-      "loss": 0.9257,
-      "step": 19
-    },
-    {
-      "epoch": 0.02467232074016962,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.4999492310028218e-05,
-      "loss": 0.9563,
-      "step": 20
-    },
-    {
-      "epoch": 0.025905936777178104,
-      "grad_norm": 2.875,
-      "learning_rate": 1.4999206739453307e-05,
-      "loss": 1.023,
-      "step": 21
-    },
-    {
-      "epoch": 0.027139552814186584,
-      "grad_norm": 3.0,
-      "learning_rate": 1.4998857713672935e-05,
-      "loss": 0.9719,
-      "step": 22
-    },
-    {
-      "epoch": 0.028373168851195067,
-      "grad_norm": 3.4375,
-      "learning_rate": 1.4998445235640414e-05,
-      "loss": 1.0854,
-      "step": 23
-    },
-    {
-      "epoch": 0.029606784888203546,
-      "grad_norm": 3.09375,
-      "learning_rate": 1.4997969308845963e-05,
-      "loss": 1.0053,
-      "step": 24
-    },
-    {
-      "epoch": 0.03084040092521203,
-      "grad_norm": 2.859375,
-      "learning_rate": 1.4997429937316679e-05,
-      "loss": 0.9063,
-      "step": 25
-    },
-    {
-      "epoch": 0.03207401696222051,
-      "grad_norm": 2.71875,
-      "learning_rate": 1.4996827125616506e-05,
-      "loss": 0.8936,
-      "step": 26
-    },
-    {
-      "epoch": 0.03330763299922899,
-      "grad_norm": 3.0,
-      "learning_rate": 1.4996160878846183e-05,
-      "loss": 1.0101,
-      "step": 27
-    },
-    {
-      "epoch": 0.034541249036237474,
-      "grad_norm": 2.9375,
-      "learning_rate": 1.4995431202643219e-05,
-      "loss": 1.0398,
-      "step": 28
-    },
-    {
-      "epoch": 0.035774865073245954,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4994638103181834e-05,
-      "loss": 0.899,
-      "step": 29
-    },
-    {
-      "epoch": 0.03700848111025443,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.499378158717291e-05,
-      "loss": 0.9018,
-      "step": 30
-    },
-    {
-      "epoch": 0.03824209714726291,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.4992861661863935e-05,
-      "loss": 0.9789,
-      "step": 31
-    },
-    {
-      "epoch": 0.03947571318427139,
-      "grad_norm": 2.84375,
-      "learning_rate": 1.4991878335038935e-05,
-      "loss": 1.0518,
-      "step": 32
-    },
-    {
-      "epoch": 0.04070932922127988,
-      "grad_norm": 2.59375,
-      "learning_rate": 1.499083161501842e-05,
-      "loss": 0.9835,
-      "step": 33
-    },
-    {
-      "epoch": 0.04194294525828836,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4989721510659303e-05,
-      "loss": 0.9702,
-      "step": 34
-    },
-    {
-      "epoch": 0.04317656129529684,
-      "grad_norm": 2.625,
-      "learning_rate": 1.4988548031354836e-05,
-      "loss": 0.9326,
-      "step": 35
-    },
-    {
-      "epoch": 0.04441017733230532,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4987311187034512e-05,
-      "loss": 0.8922,
-      "step": 36
-    },
-    {
-      "epoch": 0.045643793369313804,
-      "grad_norm": 3.078125,
-      "learning_rate": 1.4986010988164002e-05,
-      "loss": 1.0141,
-      "step": 37
-    },
-    {
-      "epoch": 0.04687740940632228,
-      "grad_norm": 2.890625,
-      "learning_rate": 1.4984647445745055e-05,
-      "loss": 0.9227,
-      "step": 38
-    },
-    {
-      "epoch": 0.04811102544333076,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4983220571315407e-05,
-      "loss": 0.8882,
-      "step": 39
-    },
-    {
-      "epoch": 0.04934464148033924,
-      "grad_norm": 2.90625,
-      "learning_rate": 1.4981730376948682e-05,
-      "loss": 0.9169,
-      "step": 40
-    },
-    {
-      "epoch": 0.05057825751734773,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4980176875254293e-05,
-      "loss": 0.8736,
-      "step": 41
-    },
-    {
-      "epoch": 0.05181187355435621,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4978560079377331e-05,
-      "loss": 1.0533,
-      "step": 42
-    },
-    {
-      "epoch": 0.05304548959136469,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.497688000299846e-05,
-      "loss": 0.8594,
-      "step": 43
-    },
-    {
-      "epoch": 0.05427910562837317,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4975136660333796e-05,
-      "loss": 0.8611,
-      "step": 44
-    },
-    {
-      "epoch": 0.05551272166538165,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4973330066134787e-05,
-      "loss": 0.8746,
-      "step": 45
-    },
-    {
-      "epoch": 0.05674633770239013,
-      "grad_norm": 2.6875,
-      "learning_rate": 1.4971460235688093e-05,
-      "loss": 0.8591,
-      "step": 46
-    },
-    {
-      "epoch": 0.05797995373939861,
-      "grad_norm": 2.4375,
-      "learning_rate": 1.4969527184815445e-05,
-      "loss": 0.807,
-      "step": 47
-    },
-    {
-      "epoch": 0.05921356977640709,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4967530929873532e-05,
-      "loss": 1.0917,
-      "step": 48
-    },
-    {
-      "epoch": 0.06044718581341557,
-      "grad_norm": 2.9375,
-      "learning_rate": 1.4965471487753841e-05,
-      "loss": 0.9761,
-      "step": 49
-    },
-    {
-      "epoch": 0.06168080185042406,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.4963348875882524e-05,
-      "loss": 0.8561,
-      "step": 50
-    },
-    {
-      "epoch": 0.06291441788743253,
-      "grad_norm": 2.984375,
-      "learning_rate": 1.4961163112220248e-05,
-      "loss": 0.9811,
-      "step": 51
-    },
-    {
-      "epoch": 0.06414803392444102,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.495891421526205e-05,
-      "loss": 0.8307,
-      "step": 52
-    },
-    {
-      "epoch": 0.0653816499614495,
-      "grad_norm": 2.859375,
-      "learning_rate": 1.4956602204037171e-05,
-      "loss": 0.8901,
-      "step": 53
-    },
-    {
-      "epoch": 0.06661526599845798,
-      "grad_norm": 2.71875,
-      "learning_rate": 1.49542270981089e-05,
-      "loss": 0.923,
-      "step": 54
-    },
-    {
-      "epoch": 0.06784888203546646,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.4951788917574407e-05,
-      "loss": 0.9071,
-      "step": 55
-    },
-    {
-      "epoch": 0.06908249807247495,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.4949287683064572e-05,
-      "loss": 0.9699,
-      "step": 56
-    },
-    {
-      "epoch": 0.07031611410948342,
-      "grad_norm": 2.625,
-      "learning_rate": 1.4946723415743818e-05,
-      "loss": 0.8934,
-      "step": 57
-    },
-    {
-      "epoch": 0.07154973014649191,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.4944096137309916e-05,
-      "loss": 0.8535,
-      "step": 58
-    },
-    {
-      "epoch": 0.07278334618350038,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.494140586999382e-05,
-      "loss": 0.8834,
-      "step": 59
-    },
-    {
-      "epoch": 0.07401696222050887,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.4938652636559461e-05,
-      "loss": 0.8252,
-      "step": 60
-    },
-    {
-      "epoch": 0.07525057825751735,
-      "grad_norm": 2.75,
-      "learning_rate": 1.4935836460303579e-05,
-      "loss": 0.9216,
-      "step": 61
-    },
-    {
-      "epoch": 0.07648419429452583,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.493295736505549e-05,
-      "loss": 0.9662,
-      "step": 62
-    },
-    {
-      "epoch": 0.07771781033153431,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.493001537517692e-05,
-      "loss": 0.9442,
-      "step": 63
-    },
-    {
-      "epoch": 0.07895142636854278,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4927010515561777e-05,
-      "loss": 0.8907,
-      "step": 64
-    },
-    {
-      "epoch": 0.08018504240555127,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4923942811635948e-05,
-      "loss": 0.8383,
-      "step": 65
-    },
-    {
-      "epoch": 0.08141865844255976,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.4920812289357082e-05,
-      "loss": 0.9024,
-      "step": 66
-    },
-    {
-      "epoch": 0.08265227447956823,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4917618975214377e-05,
-      "loss": 0.8793,
-      "step": 67
-    },
-    {
-      "epoch": 0.08388589051657672,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4914362896228338e-05,
-      "loss": 0.8629,
-      "step": 68
-    },
-    {
-      "epoch": 0.0851195065535852,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.491104407995057e-05,
-      "loss": 0.8802,
-      "step": 69
-    },
-    {
-      "epoch": 0.08635312259059368,
-      "grad_norm": 2.75,
-      "learning_rate": 1.4907662554463534e-05,
-      "loss": 0.8722,
-      "step": 70
-    },
-    {
-      "epoch": 0.08758673862760216,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4904218348380306e-05,
-      "loss": 0.8971,
-      "step": 71
-    },
-    {
-      "epoch": 0.08882035466461063,
-      "grad_norm": 2.578125,
-      "learning_rate": 1.4900711490844346e-05,
-      "loss": 0.8287,
-      "step": 72
-    },
-    {
-      "epoch": 0.09005397070161912,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4897142011529236e-05,
-      "loss": 0.9449,
-      "step": 73
-    },
-    {
-      "epoch": 0.09128758673862761,
-      "grad_norm": 2.9375,
-      "learning_rate": 1.4893509940638448e-05,
-      "loss": 0.9576,
-      "step": 74
-    },
-    {
-      "epoch": 0.09252120277563608,
-      "grad_norm": 3.046875,
-      "learning_rate": 1.4889815308905071e-05,
-      "loss": 0.9262,
-      "step": 75
-    },
-    {
-      "epoch": 0.09375481881264457,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.488605814759156e-05,
-      "loss": 0.9876,
-      "step": 76
-    },
-    {
-      "epoch": 0.09498843484965304,
-      "grad_norm": 2.96875,
-      "learning_rate": 1.4882238488489474e-05,
-      "loss": 0.8828,
-      "step": 77
-    },
-    {
-      "epoch": 0.09622205088666153,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.487835636391919e-05,
-      "loss": 0.8688,
-      "step": 78
-    },
-    {
-      "epoch": 0.09745566692367001,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.487441180672966e-05,
-      "loss": 0.9276,
-      "step": 79
-    },
-    {
-      "epoch": 0.09868928296067848,
-      "grad_norm": 2.90625,
-      "learning_rate": 1.48704048502981e-05,
-      "loss": 0.927,
-      "step": 80
-    },
-    {
-      "epoch": 0.09992289899768697,
-      "grad_norm": 2.578125,
-      "learning_rate": 1.486633552852973e-05,
-      "loss": 0.7675,
-      "step": 81
-    },
-    {
-      "epoch": 0.10115651503469546,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.486220387585748e-05,
-      "loss": 0.8741,
-      "step": 82
-    },
-    {
-      "epoch": 0.10239013107170393,
-      "grad_norm": 3.078125,
-      "learning_rate": 1.4858009927241694e-05,
-      "loss": 1.0708,
-      "step": 83
-    },
-    {
-      "epoch": 0.10362374710871242,
-      "grad_norm": 2.96875,
-      "learning_rate": 1.4853753718169845e-05,
-      "loss": 0.9001,
-      "step": 84
-    },
-    {
-      "epoch": 0.10485736314572089,
-      "grad_norm": 2.890625,
-      "learning_rate": 1.4849435284656223e-05,
-      "loss": 0.914,
-      "step": 85
-    },
-    {
-      "epoch": 0.10609097918272938,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4845054663241638e-05,
-      "loss": 0.884,
-      "step": 86
-    },
-    {
-      "epoch": 0.10732459521973786,
-      "grad_norm": 2.90625,
-      "learning_rate": 1.4840611890993105e-05,
-      "loss": 0.9372,
-      "step": 87
-    },
-    {
-      "epoch": 0.10855821125674633,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4836107005503543e-05,
-      "loss": 0.9541,
-      "step": 88
-    },
-    {
-      "epoch": 0.10979182729375482,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4831540044891436e-05,
-      "loss": 0.9014,
-      "step": 89
-    },
-    {
-      "epoch": 0.1110254433307633,
-      "grad_norm": 2.578125,
-      "learning_rate": 1.4826911047800533e-05,
-      "loss": 0.805,
-      "step": 90
-    },
-    {
-      "epoch": 0.11225905936777178,
-      "grad_norm": 2.90625,
-      "learning_rate": 1.4822220053399501e-05,
-      "loss": 0.9061,
-      "step": 91
-    },
-    {
-      "epoch": 0.11349267540478027,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.4817467101381607e-05,
-      "loss": 0.8259,
-      "step": 92
-    },
-    {
-      "epoch": 0.11472629144178874,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.481265223196438e-05,
-      "loss": 0.7689,
-      "step": 93
-    },
-    {
-      "epoch": 0.11595990747879723,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4807775485889265e-05,
-      "loss": 0.8978,
-      "step": 94
-    },
-    {
-      "epoch": 0.11719352351580571,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4802836904421283e-05,
-      "loss": 0.8649,
-      "step": 95
-    },
-    {
-      "epoch": 0.11842713955281418,
-      "grad_norm": 2.84375,
-      "learning_rate": 1.479783652934868e-05,
-      "loss": 0.9111,
-      "step": 96
-    },
-    {
-      "epoch": 0.11966075558982267,
-      "grad_norm": 2.765625,
-      "learning_rate": 1.4792774402982574e-05,
-      "loss": 0.8746,
-      "step": 97
-    },
-    {
-      "epoch": 0.12089437162683114,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4787650568156603e-05,
-      "loss": 0.8713,
-      "step": 98
-    },
-    {
-      "epoch": 0.12212798766383963,
-      "grad_norm": 3.0,
-      "learning_rate": 1.4782465068226546e-05,
-      "loss": 1.0504,
-      "step": 99
-    },
-    {
-      "epoch": 0.12336160370084812,
-      "grad_norm": 2.59375,
-      "learning_rate": 1.4777217947069972e-05,
-      "loss": 0.836,
-      "step": 100
-    },
-    {
-      "epoch": 0.12459521973785659,
-      "grad_norm": 2.625,
-      "learning_rate": 1.477190924908587e-05,
-      "loss": 0.9062,
-      "step": 101
-    },
-    {
-      "epoch": 0.12582883577486506,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.4766539019194254e-05,
-      "loss": 0.8326,
-      "step": 102
-    },
-    {
-      "epoch": 0.12706245181187356,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4761107302835808e-05,
-      "loss": 1.0209,
-      "step": 103
-    },
-    {
-      "epoch": 0.12829606784888203,
-      "grad_norm": 3.171875,
-      "learning_rate": 1.475561414597148e-05,
-      "loss": 0.8731,
-      "step": 104
-    },
-    {
-      "epoch": 0.1295296838858905,
-      "grad_norm": 2.953125,
-      "learning_rate": 1.4750059595082105e-05,
-      "loss": 1.0162,
-      "step": 105
-    },
-    {
-      "epoch": 0.130763299922899,
-      "grad_norm": 2.59375,
-      "learning_rate": 1.4744443697168013e-05,
-      "loss": 0.8062,
-      "step": 106
-    },
-    {
-      "epoch": 0.13199691595990748,
-      "grad_norm": 2.75,
-      "learning_rate": 1.4738766499748621e-05,
-      "loss": 0.8803,
-      "step": 107
-    },
-    {
-      "epoch": 0.13323053199691595,
-      "grad_norm": 2.859375,
-      "learning_rate": 1.4733028050862042e-05,
-      "loss": 0.8974,
-      "step": 108
-    },
-    {
-      "epoch": 0.13446414803392445,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4727228399064672e-05,
-      "loss": 0.9204,
-      "step": 109
-    },
-    {
-      "epoch": 0.13569776407093292,
-      "grad_norm": 2.890625,
-      "learning_rate": 1.4721367593430782e-05,
-      "loss": 0.9693,
-      "step": 110
-    },
-    {
-      "epoch": 0.1369313801079414,
-      "grad_norm": 3.0625,
-      "learning_rate": 1.4715445683552098e-05,
-      "loss": 0.9835,
-      "step": 111
-    },
-    {
-      "epoch": 0.1381649961449499,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.4709462719537392e-05,
-      "loss": 0.947,
-      "step": 112
-    },
-    {
-      "epoch": 0.13939861218195837,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4703418752012042e-05,
-      "loss": 0.8622,
-      "step": 113
-    },
-    {
-      "epoch": 0.14063222821896684,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.469731383211762e-05,
-      "loss": 0.8848,
-      "step": 114
-    },
-    {
-      "epoch": 0.14186584425597532,
-      "grad_norm": 3.203125,
-      "learning_rate": 1.4691148011511447e-05,
-      "loss": 0.9425,
-      "step": 115
-    },
-    {
-      "epoch": 0.14309946029298382,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4684921342366167e-05,
-      "loss": 0.8893,
-      "step": 116
-    },
-    {
-      "epoch": 0.1443330763299923,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.467863387736929e-05,
-      "loss": 0.7976,
-      "step": 117
-    },
-    {
-      "epoch": 0.14556669236700076,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.4672285669722767e-05,
-      "loss": 0.843,
-      "step": 118
-    },
-    {
-      "epoch": 0.14680030840400926,
-      "grad_norm": 3.015625,
-      "learning_rate": 1.4665876773142517e-05,
-      "loss": 0.9341,
-      "step": 119
-    },
-    {
-      "epoch": 0.14803392444101773,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.4659407241857991e-05,
-      "loss": 0.9336,
-      "step": 120
-    },
-    {
-      "epoch": 0.1492675404780262,
-      "grad_norm": 2.6875,
-      "learning_rate": 1.4652877130611702e-05,
-      "loss": 0.8282,
-      "step": 121
-    },
-    {
-      "epoch": 0.1505011565150347,
-      "grad_norm": 2.984375,
-      "learning_rate": 1.4646286494658772e-05,
-      "loss": 0.9196,
-      "step": 122
-    },
-    {
-      "epoch": 0.15173477255204318,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4639635389766448e-05,
-      "loss": 0.8443,
-      "step": 123
-    },
-    {
-      "epoch": 0.15296838858905165,
-      "grad_norm": 3.09375,
-      "learning_rate": 1.4632923872213653e-05,
-      "loss": 1.0012,
-      "step": 124
-    },
-    {
-      "epoch": 0.15420200462606015,
-      "grad_norm": 2.65625,
-      "learning_rate": 1.4626151998790484e-05,
-      "loss": 0.7756,
-      "step": 125
-    },
-    {
-      "epoch": 0.15543562066306862,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4619319826797755e-05,
-      "loss": 0.9635,
-      "step": 126
-    },
-    {
-      "epoch": 0.1566692367000771,
-      "grad_norm": 3.09375,
-      "learning_rate": 1.4612427414046496e-05,
-      "loss": 0.9628,
-      "step": 127
-    },
-    {
-      "epoch": 0.15790285273708557,
-      "grad_norm": 4.59375,
-      "learning_rate": 1.460547481885747e-05,
-      "loss": 0.7604,
-      "step": 128
-    },
-    {
-      "epoch": 0.15913646877409407,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.4598462100060683e-05,
-      "loss": 0.7931,
-      "step": 129
-    },
-    {
-      "epoch": 0.16037008481110254,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4591389316994878e-05,
-      "loss": 0.9052,
-      "step": 130
-    },
-    {
-      "epoch": 0.16160370084811101,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.4584256529507036e-05,
-      "loss": 0.7923,
-      "step": 131
-    },
-    {
-      "epoch": 0.16283731688511952,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4577063797951877e-05,
-      "loss": 0.812,
-      "step": 132
-    },
-    {
-      "epoch": 0.164070932922128,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.456981118319134e-05,
-      "loss": 0.909,
-      "step": 133
-    },
-    {
-      "epoch": 0.16530454895913646,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.4562498746594067e-05,
-      "loss": 0.8217,
-      "step": 134
-    },
-    {
-      "epoch": 0.16653816499614496,
-      "grad_norm": 2.875,
-      "learning_rate": 1.455512655003489e-05,
-      "loss": 0.848,
-      "step": 135
-    },
-    {
-      "epoch": 0.16777178103315343,
-      "grad_norm": 2.65625,
-      "learning_rate": 1.4547694655894313e-05,
-      "loss": 0.8453,
-      "step": 136
-    },
-    {
-      "epoch": 0.1690053970701619,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.4540203127057964e-05,
-      "loss": 0.8832,
-      "step": 137
-    },
-    {
-      "epoch": 0.1702390131071704,
-      "grad_norm": 3.3125,
-      "learning_rate": 1.4532652026916087e-05,
-      "loss": 0.8883,
-      "step": 138
-    },
-    {
-      "epoch": 0.17147262914417888,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4525041419362983e-05,
-      "loss": 0.9908,
-      "step": 139
-    },
-    {
-      "epoch": 0.17270624518118735,
-      "grad_norm": 2.625,
-      "learning_rate": 1.4517371368796487e-05,
-      "loss": 0.8058,
-      "step": 140
-    },
-    {
-      "epoch": 0.17393986121819582,
-      "grad_norm": 2.890625,
-      "learning_rate": 1.4509641940117414e-05,
-      "loss": 0.9513,
-      "step": 141
-    },
-    {
-      "epoch": 0.17517347725520432,
-      "grad_norm": 2.59375,
-      "learning_rate": 1.4501853198729012e-05,
-      "loss": 0.9095,
-      "step": 142
-    },
-    {
-      "epoch": 0.1764070932922128,
-      "grad_norm": 2.953125,
-      "learning_rate": 1.4494005210536415e-05,
-      "loss": 0.8964,
-      "step": 143
-    },
-    {
-      "epoch": 0.17764070932922127,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4486098041946069e-05,
-      "loss": 0.8261,
-      "step": 144
-    },
-    {
-      "epoch": 0.17887432536622977,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4478131759865184e-05,
-      "loss": 0.9094,
-      "step": 145
-    },
-    {
-      "epoch": 0.18010794140323824,
-      "grad_norm": 2.5625,
-      "learning_rate": 1.4470106431701167e-05,
-      "loss": 0.8588,
-      "step": 146
-    },
-    {
-      "epoch": 0.18134155744024671,
-      "grad_norm": 3.0,
-      "learning_rate": 1.4462022125361049e-05,
-      "loss": 0.91,
-      "step": 147
-    },
-    {
-      "epoch": 0.18257517347725521,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4453878909250906e-05,
-      "loss": 0.8121,
-      "step": 148
-    },
-    {
-      "epoch": 0.1838087895142637,
-      "grad_norm": 2.75,
-      "learning_rate": 1.4445676852275284e-05,
-      "loss": 0.7903,
-      "step": 149
-    },
-    {
-      "epoch": 0.18504240555127216,
-      "grad_norm": 3.0625,
-      "learning_rate": 1.443741602383662e-05,
-      "loss": 0.9914,
-      "step": 150
-    },
-    {
-      "epoch": 0.18627602158828066,
-      "grad_norm": 2.953125,
-      "learning_rate": 1.4429096493834651e-05,
-      "loss": 0.888,
-      "step": 151
-    },
-    {
-      "epoch": 0.18750963762528913,
-      "grad_norm": 2.65625,
-      "learning_rate": 1.4420718332665817e-05,
-      "loss": 0.9122,
-      "step": 152
-    },
-    {
-      "epoch": 0.1887432536622976,
-      "grad_norm": 2.53125,
-      "learning_rate": 1.441228161122268e-05,
-      "loss": 0.7929,
-      "step": 153
-    },
-    {
-      "epoch": 0.18997686969930608,
-      "grad_norm": 3.046875,
-      "learning_rate": 1.4403786400893304e-05,
-      "loss": 0.8813,
-      "step": 154
-    },
-    {
-      "epoch": 0.19121048573631458,
-      "grad_norm": 2.453125,
-      "learning_rate": 1.4395232773560669e-05,
-      "loss": 0.8264,
-      "step": 155
-    },
-    {
-      "epoch": 0.19244410177332305,
-      "grad_norm": 2.578125,
-      "learning_rate": 1.4386620801602056e-05,
-      "loss": 0.7507,
-      "step": 156
-    },
-    {
-      "epoch": 0.19367771781033152,
-      "grad_norm": 2.5625,
-      "learning_rate": 1.437795055788843e-05,
-      "loss": 0.8193,
-      "step": 157
-    },
-    {
-      "epoch": 0.19491133384734002,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.4369222115783834e-05,
-      "loss": 0.8513,
-      "step": 158
-    },
-    {
-      "epoch": 0.1961449498843485,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.4360435549144754e-05,
-      "loss": 0.8354,
-      "step": 159
-    },
-    {
-      "epoch": 0.19737856592135697,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.4351590932319506e-05,
-      "loss": 0.9582,
-      "step": 160
-    },
-    {
-      "epoch": 0.19861218195836547,
-      "grad_norm": 3.234375,
-      "learning_rate": 1.4342688340147608e-05,
-      "loss": 0.7834,
-      "step": 161
-    },
-    {
-      "epoch": 0.19984579799537394,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.4333727847959127e-05,
-      "loss": 0.8968,
-      "step": 162
-    },
-    {
-      "epoch": 0.20107941403238241,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4324709531574074e-05,
-      "loss": 0.8036,
-      "step": 163
-    },
-    {
-      "epoch": 0.20231303006939091,
-      "grad_norm": 2.875,
-      "learning_rate": 1.4315633467301734e-05,
-      "loss": 0.8167,
-      "step": 164
-    },
-    {
-      "epoch": 0.2035466461063994,
-      "grad_norm": 2.46875,
-      "learning_rate": 1.4306499731940028e-05,
-      "loss": 0.9044,
-      "step": 165
-    },
-    {
-      "epoch": 0.20478026214340786,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4297308402774876e-05,
-      "loss": 0.9659,
-      "step": 166
-    },
-    {
-      "epoch": 0.20601387818041633,
-      "grad_norm": 2.46875,
-      "learning_rate": 1.4288059557579525e-05,
-      "loss": 0.7808,
-      "step": 167
-    },
-    {
-      "epoch": 0.20724749421742483,
-      "grad_norm": 2.875,
-      "learning_rate": 1.4278753274613905e-05,
-      "loss": 0.8324,
-      "step": 168
-    },
-    {
-      "epoch": 0.2084811102544333,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4269389632623956e-05,
-      "loss": 0.9517,
-      "step": 169
-    },
-    {
-      "epoch": 0.20971472629144178,
-      "grad_norm": 2.765625,
-      "learning_rate": 1.4259968710840966e-05,
-      "loss": 0.8388,
-      "step": 170
-    },
-    {
-      "epoch": 0.21094834232845028,
-      "grad_norm": 3.3125,
-      "learning_rate": 1.4250490588980909e-05,
-      "loss": 0.9859,
-      "step": 171
-    },
-    {
-      "epoch": 0.21218195836545875,
-      "grad_norm": 3.0625,
-      "learning_rate": 1.4240955347243754e-05,
-      "loss": 0.9722,
-      "step": 172
-    },
-    {
-      "epoch": 0.21341557440246722,
-      "grad_norm": 3.46875,
-      "learning_rate": 1.4231363066312796e-05,
-      "loss": 0.8547,
-      "step": 173
-    },
-    {
-      "epoch": 0.21464919043947572,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.4221713827353977e-05,
-      "loss": 0.9056,
-      "step": 174
-    },
-    {
-      "epoch": 0.2158828064764842,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.4212007712015189e-05,
-      "loss": 0.9332,
-      "step": 175
-    },
-    {
-      "epoch": 0.21711642251349267,
-      "grad_norm": 2.6875,
-      "learning_rate": 1.4202244802425593e-05,
-      "loss": 0.8194,
-      "step": 176
-    },
-    {
-      "epoch": 0.21835003855050117,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4192425181194916e-05,
-      "loss": 0.8258,
-      "step": 177
-    },
-    {
-      "epoch": 0.21958365458750964,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.4182548931412758e-05,
-      "loss": 0.8196,
-      "step": 178
-    },
-    {
-      "epoch": 0.2208172706245181,
-      "grad_norm": 2.84375,
-      "learning_rate": 1.417261613664789e-05,
-      "loss": 0.9566,
-      "step": 179
-    },
-    {
-      "epoch": 0.2220508866615266,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.4162626880947532e-05,
-      "loss": 0.8546,
-      "step": 180
-    },
-    {
-      "epoch": 0.2232845026985351,
-      "grad_norm": 2.640625,
-      "learning_rate": 1.4152581248836662e-05,
-      "loss": 0.8267,
-      "step": 181
-    },
-    {
-      "epoch": 0.22451811873554356,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.4142479325317296e-05,
-      "loss": 0.8538,
-      "step": 182
-    },
-    {
-      "epoch": 0.22575173477255203,
-      "grad_norm": 2.75,
-      "learning_rate": 1.4132321195867752e-05,
-      "loss": 0.905,
-      "step": 183
-    },
-    {
-      "epoch": 0.22698535080956053,
-      "grad_norm": 2.40625,
-      "learning_rate": 1.4122106946441953e-05,
-      "loss": 0.7483,
-      "step": 184
-    },
-    {
-      "epoch": 0.228218966846569,
-      "grad_norm": 2.59375,
-      "learning_rate": 1.4111836663468674e-05,
-      "loss": 0.794,
-      "step": 185
-    },
-    {
-      "epoch": 0.22945258288357748,
-      "grad_norm": 2.515625,
-      "learning_rate": 1.4101510433850832e-05,
-      "loss": 0.8334,
-      "step": 186
-    },
-    {
-      "epoch": 0.23068619892058598,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.409112834496474e-05,
-      "loss": 0.9246,
-      "step": 187
-    },
-    {
-      "epoch": 0.23191981495759445,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.4080690484659364e-05,
-      "loss": 0.9389,
-      "step": 188
-    },
-    {
-      "epoch": 0.23315343099460292,
-      "grad_norm": 2.34375,
-      "learning_rate": 1.407019694125559e-05,
-      "loss": 0.8251,
-      "step": 189
-    },
-    {
-      "epoch": 0.23438704703161142,
-      "grad_norm": 2.71875,
-      "learning_rate": 1.4059647803545468e-05,
-      "loss": 0.8254,
-      "step": 190
-    },
-    {
-      "epoch": 0.2356206630686199,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.404904316079147e-05,
-      "loss": 0.836,
-      "step": 191
-    },
-    {
-      "epoch": 0.23685427910562837,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.4038383102725718e-05,
-      "loss": 0.7996,
-      "step": 192
-    },
-    {
-      "epoch": 0.23808789514263684,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.4027667719549248e-05,
-      "loss": 0.8071,
-      "step": 193
-    },
-    {
-      "epoch": 0.23932151117964534,
-      "grad_norm": 2.6875,
-      "learning_rate": 1.4016897101931226e-05,
-      "loss": 0.871,
-      "step": 194
-    },
-    {
-      "epoch": 0.2405551272166538,
-      "grad_norm": 2.984375,
-      "learning_rate": 1.4006071341008194e-05,
-      "loss": 0.8901,
-      "step": 195
-    },
-    {
-      "epoch": 0.24178874325366229,
-      "grad_norm": 2.484375,
-      "learning_rate": 1.3995190528383292e-05,
-      "loss": 0.7841,
-      "step": 196
-    },
-    {
-      "epoch": 0.2430223592906708,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.398425475612548e-05,
-      "loss": 0.9283,
-      "step": 197
-    },
-    {
-      "epoch": 0.24425597532767926,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.3973264116768773e-05,
-      "loss": 0.8176,
-      "step": 198
-    },
-    {
-      "epoch": 0.24548959136468773,
-      "grad_norm": 2.453125,
-      "learning_rate": 1.3962218703311444e-05,
-      "loss": 0.7888,
-      "step": 199
-    },
-    {
-      "epoch": 0.24672320740169623,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.3951118609215242e-05,
-      "loss": 0.9003,
-      "step": 200
-    },
-    {
-      "epoch": 0.2479568234387047,
-      "grad_norm": 2.828125,
-      "learning_rate": 1.39399639284046e-05,
-      "loss": 0.9171,
-      "step": 201
-    },
-    {
-      "epoch": 0.24919043947571318,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.3928754755265844e-05,
-      "loss": 0.9043,
-      "step": 202
-    },
-    {
-      "epoch": 0.2504240555127217,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.391749118464639e-05,
-      "loss": 0.9581,
-      "step": 203
-    },
-    {
-      "epoch": 0.2516576715497301,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.3906173311853943e-05,
-      "loss": 0.8983,
-      "step": 204
-    },
-    {
-      "epoch": 0.2528912875867386,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.3894801232655692e-05,
-      "loss": 0.7514,
-      "step": 205
-    },
-    {
-      "epoch": 0.2541249036237471,
-      "grad_norm": 3.78125,
-      "learning_rate": 1.3883375043277498e-05,
-      "loss": 1.0556,
-      "step": 206
-    },
-    {
-      "epoch": 0.25535851966075557,
-      "grad_norm": 3.125,
-      "learning_rate": 1.387189484040308e-05,
-      "loss": 0.9795,
-      "step": 207
-    },
-    {
-      "epoch": 0.25659213569776407,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.3860360721173195e-05,
-      "loss": 0.8939,
-      "step": 208
-    },
-    {
-      "epoch": 0.25782575173477257,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.384877278318482e-05,
-      "loss": 0.7896,
-      "step": 209
-    },
-    {
-      "epoch": 0.259059367771781,
-      "grad_norm": 2.84375,
-      "learning_rate": 1.3837131124490328e-05,
-      "loss": 0.928,
-      "step": 210
-    },
-    {
-      "epoch": 0.2602929838087895,
-      "grad_norm": 2.625,
-      "learning_rate": 1.3825435843596644e-05,
-      "loss": 0.8116,
-      "step": 211
-    },
-    {
-      "epoch": 0.261526599845798,
-      "grad_norm": 2.65625,
-      "learning_rate": 1.3813687039464431e-05,
-      "loss": 0.8786,
-      "step": 212
-    },
-    {
-      "epoch": 0.26276021588280646,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.3801884811507244e-05,
-      "loss": 0.8351,
-      "step": 213
-    },
-    {
-      "epoch": 0.26399383191981496,
-      "grad_norm": 2.875,
-      "learning_rate": 1.3790029259590681e-05,
-      "loss": 1.0575,
-      "step": 214
-    },
-    {
-      "epoch": 0.26522744795682346,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.3778120484031554e-05,
-      "loss": 0.9084,
-      "step": 215
-    },
-    {
-      "epoch": 0.2664610639938319,
-      "grad_norm": 2.890625,
-      "learning_rate": 1.3766158585597025e-05,
-      "loss": 0.8379,
-      "step": 216
-    },
-    {
-      "epoch": 0.2676946800308404,
-      "grad_norm": 2.53125,
-      "learning_rate": 1.3754143665503761e-05,
-      "loss": 0.7727,
-      "step": 217
-    },
-    {
-      "epoch": 0.2689282960678489,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.3742075825417085e-05,
-      "loss": 0.8714,
-      "step": 218
-    },
-    {
-      "epoch": 0.27016191210485735,
-      "grad_norm": 2.8125,
-      "learning_rate": 1.3729955167450092e-05,
-      "loss": 0.8959,
-      "step": 219
-    },
-    {
-      "epoch": 0.27139552814186585,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.3717781794162813e-05,
-      "loss": 0.8023,
-      "step": 220
-    },
-    {
-      "epoch": 0.27262914417887435,
-      "grad_norm": 2.625,
-      "learning_rate": 1.3705555808561329e-05,
-      "loss": 0.8788,
-      "step": 221
-    },
-    {
-      "epoch": 0.2738627602158828,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.3693277314096907e-05,
-      "loss": 0.8071,
-      "step": 222
-    },
-    {
-      "epoch": 0.2750963762528913,
-      "grad_norm": 2.984375,
-      "learning_rate": 1.3680946414665117e-05,
-      "loss": 1.037,
-      "step": 223
-    },
-    {
-      "epoch": 0.2763299922898998,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.3668563214604968e-05,
-      "loss": 0.8609,
-      "step": 224
-    },
-    {
-      "epoch": 0.27756360832690824,
-      "grad_norm": 2.6875,
-      "learning_rate": 1.3656127818698005e-05,
-      "loss": 0.8023,
-      "step": 225
-    },
-    {
-      "epoch": 0.27879722436391674,
-      "grad_norm": 2.9375,
-      "learning_rate": 1.364364033216744e-05,
-      "loss": 0.8773,
-      "step": 226
-    },
-    {
-      "epoch": 0.2800308404009252,
-      "grad_norm": 2.875,
-      "learning_rate": 1.363110086067725e-05,
-      "loss": 0.8701,
-      "step": 227
-    },
-    {
-      "epoch": 0.2812644564379337,
-      "grad_norm": 3.0,
-      "learning_rate": 1.3618509510331292e-05,
-      "loss": 1.0324,
-      "step": 228
-    },
-    {
-      "epoch": 0.2824980724749422,
-      "grad_norm": 2.421875,
-      "learning_rate": 1.3605866387672396e-05,
-      "loss": 0.7342,
-      "step": 229
-    },
-    {
-      "epoch": 0.28373168851195063,
-      "grad_norm": 3.0625,
-      "learning_rate": 1.3593171599681469e-05,
-      "loss": 1.0176,
-      "step": 230
-    },
-    {
-      "epoch": 0.28496530454895913,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.3580425253776593e-05,
-      "loss": 0.7673,
-      "step": 231
-    },
-    {
-      "epoch": 0.28619892058596763,
-      "grad_norm": 2.4375,
-      "learning_rate": 1.3567627457812107e-05,
-      "loss": 0.7595,
-      "step": 232
-    },
-    {
-      "epoch": 0.2874325366229761,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.35547783200777e-05,
-      "loss": 0.8567,
-      "step": 233
-    },
-    {
-      "epoch": 0.2886661526599846,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.3541877949297497e-05,
-      "loss": 0.7637,
-      "step": 234
-    },
-    {
-      "epoch": 0.2898997686969931,
-      "grad_norm": 2.765625,
-      "learning_rate": 1.3528926454629128e-05,
-      "loss": 0.8102,
-      "step": 235
-    },
-    {
-      "epoch": 0.2911333847340015,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.3515923945662829e-05,
-      "loss": 0.8473,
-      "step": 236
-    },
-    {
-      "epoch": 0.29236700077101,
-      "grad_norm": 3.296875,
-      "learning_rate": 1.3502870532420477e-05,
-      "loss": 0.8666,
-      "step": 237
-    },
-    {
-      "epoch": 0.2936006168080185,
-      "grad_norm": 2.78125,
-      "learning_rate": 1.3489766325354697e-05,
-      "loss": 0.8621,
-      "step": 238
-    },
-    {
-      "epoch": 0.29483423284502697,
-      "grad_norm": 2.71875,
-      "learning_rate": 1.3476611435347898e-05,
-      "loss": 0.8762,
-      "step": 239
-    },
-    {
-      "epoch": 0.29606784888203547,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.3463405973711359e-05,
-      "loss": 0.834,
-      "step": 240
-    },
-    {
-      "epoch": 0.29730146491904397,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.3450150052184264e-05,
-      "loss": 0.8045,
-      "step": 241
-    },
-    {
-      "epoch": 0.2985350809560524,
-      "grad_norm": 2.796875,
-      "learning_rate": 1.3436843782932776e-05,
-      "loss": 0.8966,
-      "step": 242
-    },
-    {
-      "epoch": 0.2997686969930609,
-      "grad_norm": 2.625,
-      "learning_rate": 1.3423487278549074e-05,
-      "loss": 0.816,
-      "step": 243
-    },
-    {
-      "epoch": 0.3010023130300694,
-      "grad_norm": 2.9375,
-      "learning_rate": 1.3410080652050414e-05,
-      "loss": 1.0124,
-      "step": 244
-    },
-    {
-      "epoch": 0.30223592906707786,
-      "grad_norm": 3.4375,
-      "learning_rate": 1.3396624016878157e-05,
-      "loss": 0.9205,
-      "step": 245
-    },
-    {
-      "epoch": 0.30346954510408636,
-      "grad_norm": 2.734375,
-      "learning_rate": 1.3383117486896819e-05,
-      "loss": 0.8574,
-      "step": 246
-    },
-    {
-      "epoch": 0.30470316114109486,
-      "grad_norm": 2.546875,
-      "learning_rate": 1.3369561176393105e-05,
-      "loss": 0.7445,
-      "step": 247
-    },
-    {
-      "epoch": 0.3059367771781033,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.3355955200074944e-05,
-      "loss": 0.8033,
-      "step": 248
-    },
-    {
-      "epoch": 0.3071703932151118,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.3342299673070518e-05,
-      "loss": 0.7991,
-      "step": 249
-    },
-    {
-      "epoch": 0.3084040092521203,
-      "grad_norm": 2.921875,
-      "learning_rate": 1.3328594710927282e-05,
-      "loss": 0.845,
-      "step": 250
-    },
-    {
-      "epoch": 0.30963762528912875,
-      "grad_norm": 2.84375,
-      "learning_rate": 1.3314840429610994e-05,
-      "loss": 0.8651,
-      "step": 251
-    },
-    {
-      "epoch": 0.31087124132613725,
-      "grad_norm": 3.1875,
-      "learning_rate": 1.3301036945504729e-05,
-      "loss": 0.8845,
-      "step": 252
-    },
-    {
-      "epoch": 0.3121048573631457,
-      "grad_norm": 2.765625,
-      "learning_rate": 1.32871843754079e-05,
-      "loss": 0.8365,
-      "step": 253
-    },
-    {
-      "epoch": 0.3133384734001542,
-      "grad_norm": 3.140625,
-      "learning_rate": 1.3273282836535258e-05,
-      "loss": 0.944,
-      "step": 254
-    },
-    {
-      "epoch": 0.3145720894371627,
-      "grad_norm": 2.75,
-      "learning_rate": 1.3259332446515915e-05,
-      "loss": 0.8001,
-      "step": 255
-    },
-    {
-      "epoch": 0.31580570547417114,
-      "grad_norm": 2.609375,
-      "learning_rate": 1.3245333323392335e-05,
-      "loss": 0.8206,
-      "step": 256
-    },
-    {
-      "epoch": 0.31703932151117964,
-      "grad_norm": 2.953125,
-      "learning_rate": 1.3231285585619347e-05,
-      "loss": 0.9388,
-      "step": 257
-    },
-    {
-      "epoch": 0.31827293754818814,
-      "grad_norm": 2.90625,
-      "learning_rate": 1.3217189352063137e-05,
-      "loss": 0.9575,
-      "step": 258
-    },
-    {
-      "epoch": 0.3195065535851966,
-      "grad_norm": 2.703125,
-      "learning_rate": 1.3203044742000232e-05,
-      "loss": 0.8216,
-      "step": 259
-    },
-    {
-      "epoch": 0.3207401696222051,
-      "grad_norm": 3.25,
-      "learning_rate": 1.3188851875116517e-05,
-      "loss": 0.8773,
-      "step": 260
-    },
-    {
-      "epoch": 0.3219737856592136,
-      "grad_norm": 2.5625,
-      "learning_rate": 1.3174610871506197e-05,
-      "loss": 0.7536,
-      "step": 261
-    },
-    {
-      "epoch": 0.32320740169622203,
-      "grad_norm": 3.234375,
-      "learning_rate": 1.316032185167079e-05,
-      "loss": 0.9915,
-      "step": 262
-    },
-    {
-      "epoch": 0.32444101773323053,
-      "grad_norm": 2.671875,
-      "learning_rate": 1.3145984936518113e-05,
-      "loss": 0.7831,
-      "step": 263
-    }
-  ],
-  "logging_steps": 1,
-  "max_steps": 1095,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
-  "save_steps": 263,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 8.54765681289696e+16,
-  "train_batch_size": 1,
-  "trial_name": null,
-  "trial_params": null
-}

last-checkpoint/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e820973b850a8a27748f78ed62e9249dc3221b0b56cb992844b2506032fb8870
-size 6353