diff --git "a/model.safetensors.index.json" "b/model.safetensors.index.json"
new file mode 100644--- /dev/null
+++ "b/model.safetensors.index.json"
@@ -0,0 +1,1589 @@
+{
+    "metadata": {
+        "total_size": 3609118208,
+        "total_parameters": 4429679360
+    },
+    "weight_map": {
+        "adapter.w_in.biases": "model.safetensors",
+        "adapter.w_in.scales": "model.safetensors",
+        "adapter.w_in.weight": "model.safetensors",
+        "adapter.w_out.biases": "model.safetensors",
+        "adapter.w_out.scales": "model.safetensors",
+        "adapter.w_out.weight": "model.safetensors",
+        "encoder.conv1.bias": "model.safetensors",
+        "encoder.conv1.weight": "model.safetensors",
+        "encoder.conv2.bias": "model.safetensors",
+        "encoder.conv2.weight": "model.safetensors",
+        "encoder.layers.0.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.0.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.0.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.0.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.0.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.0.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.0.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.0.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.0.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.0.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.0.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.0.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.0.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.0.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.0.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.0.attn_norm.weight": "model.safetensors",
+        "encoder.layers.0.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.0.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.0.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.0.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.0.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.0.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.0.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.0.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.0.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.0.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.0.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.1.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.1.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.1.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.1.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.1.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.1.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.1.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.1.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.1.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.1.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.1.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.1.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.1.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.1.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.1.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.1.attn_norm.weight": "model.safetensors",
+        "encoder.layers.1.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.1.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.1.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.1.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.1.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.1.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.1.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.1.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.1.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.1.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.1.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.10.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.10.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.10.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.10.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.10.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.10.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.10.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.10.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.10.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.10.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.10.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.10.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.10.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.10.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.10.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.10.attn_norm.weight": "model.safetensors",
+        "encoder.layers.10.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.10.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.10.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.10.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.10.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.10.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.10.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.10.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.10.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.10.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.10.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.11.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.11.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.11.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.11.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.11.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.11.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.11.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.11.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.11.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.11.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.11.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.11.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.11.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.11.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.11.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.11.attn_norm.weight": "model.safetensors",
+        "encoder.layers.11.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.11.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.11.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.11.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.11.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.11.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.11.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.11.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.11.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.11.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.11.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.12.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.12.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.12.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.12.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.12.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.12.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.12.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.12.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.12.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.12.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.12.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.12.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.12.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.12.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.12.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.12.attn_norm.weight": "model.safetensors",
+        "encoder.layers.12.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.12.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.12.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.12.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.12.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.12.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.12.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.12.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.12.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.12.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.12.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.13.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.13.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.13.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.13.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.13.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.13.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.13.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.13.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.13.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.13.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.13.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.13.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.13.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.13.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.13.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.13.attn_norm.weight": "model.safetensors",
+        "encoder.layers.13.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.13.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.13.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.13.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.13.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.13.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.13.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.13.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.13.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.13.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.13.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.14.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.14.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.14.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.14.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.14.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.14.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.14.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.14.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.14.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.14.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.14.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.14.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.14.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.14.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.14.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.14.attn_norm.weight": "model.safetensors",
+        "encoder.layers.14.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.14.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.14.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.14.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.14.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.14.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.14.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.14.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.14.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.14.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.14.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.15.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.15.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.15.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.15.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.15.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.15.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.15.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.15.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.15.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.15.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.15.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.15.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.15.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.15.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.15.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.15.attn_norm.weight": "model.safetensors",
+        "encoder.layers.15.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.15.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.15.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.15.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.15.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.15.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.15.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.15.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.15.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.15.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.15.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.16.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.16.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.16.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.16.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.16.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.16.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.16.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.16.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.16.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.16.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.16.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.16.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.16.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.16.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.16.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.16.attn_norm.weight": "model.safetensors",
+        "encoder.layers.16.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.16.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.16.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.16.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.16.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.16.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.16.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.16.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.16.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.16.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.16.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.17.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.17.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.17.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.17.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.17.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.17.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.17.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.17.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.17.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.17.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.17.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.17.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.17.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.17.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.17.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.17.attn_norm.weight": "model.safetensors",
+        "encoder.layers.17.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.17.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.17.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.17.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.17.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.17.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.17.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.17.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.17.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.17.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.17.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.18.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.18.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.18.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.18.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.18.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.18.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.18.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.18.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.18.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.18.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.18.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.18.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.18.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.18.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.18.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.18.attn_norm.weight": "model.safetensors",
+        "encoder.layers.18.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.18.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.18.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.18.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.18.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.18.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.18.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.18.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.18.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.18.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.18.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.19.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.19.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.19.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.19.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.19.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.19.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.19.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.19.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.19.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.19.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.19.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.19.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.19.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.19.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.19.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.19.attn_norm.weight": "model.safetensors",
+        "encoder.layers.19.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.19.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.19.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.19.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.19.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.19.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.19.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.19.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.19.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.19.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.19.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.2.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.2.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.2.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.2.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.2.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.2.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.2.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.2.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.2.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.2.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.2.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.2.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.2.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.2.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.2.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.2.attn_norm.weight": "model.safetensors",
+        "encoder.layers.2.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.2.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.2.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.2.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.2.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.2.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.2.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.2.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.2.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.2.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.2.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.20.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.20.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.20.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.20.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.20.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.20.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.20.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.20.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.20.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.20.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.20.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.20.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.20.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.20.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.20.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.20.attn_norm.weight": "model.safetensors",
+        "encoder.layers.20.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.20.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.20.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.20.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.20.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.20.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.20.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.20.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.20.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.20.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.20.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.21.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.21.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.21.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.21.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.21.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.21.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.21.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.21.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.21.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.21.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.21.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.21.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.21.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.21.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.21.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.21.attn_norm.weight": "model.safetensors",
+        "encoder.layers.21.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.21.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.21.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.21.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.21.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.21.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.21.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.21.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.21.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.21.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.21.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.22.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.22.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.22.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.22.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.22.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.22.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.22.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.22.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.22.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.22.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.22.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.22.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.22.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.22.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.22.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.22.attn_norm.weight": "model.safetensors",
+        "encoder.layers.22.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.22.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.22.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.22.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.22.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.22.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.22.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.22.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.22.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.22.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.22.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.23.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.23.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.23.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.23.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.23.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.23.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.23.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.23.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.23.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.23.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.23.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.23.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.23.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.23.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.23.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.23.attn_norm.weight": "model.safetensors",
+        "encoder.layers.23.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.23.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.23.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.23.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.23.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.23.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.23.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.23.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.23.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.23.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.23.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.24.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.24.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.24.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.24.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.24.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.24.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.24.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.24.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.24.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.24.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.24.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.24.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.24.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.24.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.24.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.24.attn_norm.weight": "model.safetensors",
+        "encoder.layers.24.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.24.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.24.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.24.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.24.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.24.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.24.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.24.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.24.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.24.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.24.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.25.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.25.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.25.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.25.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.25.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.25.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.25.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.25.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.25.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.25.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.25.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.25.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.25.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.25.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.25.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.25.attn_norm.weight": "model.safetensors",
+        "encoder.layers.25.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.25.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.25.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.25.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.25.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.25.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.25.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.25.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.25.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.25.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.25.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.26.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.26.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.26.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.26.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.26.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.26.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.26.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.26.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.26.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.26.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.26.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.26.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.26.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.26.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.26.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.26.attn_norm.weight": "model.safetensors",
+        "encoder.layers.26.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.26.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.26.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.26.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.26.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.26.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.26.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.26.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.26.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.26.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.26.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.27.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.27.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.27.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.27.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.27.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.27.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.27.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.27.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.27.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.27.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.27.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.27.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.27.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.27.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.27.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.27.attn_norm.weight": "model.safetensors",
+        "encoder.layers.27.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.27.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.27.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.27.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.27.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.27.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.27.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.27.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.27.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.27.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.27.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.28.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.28.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.28.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.28.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.28.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.28.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.28.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.28.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.28.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.28.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.28.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.28.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.28.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.28.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.28.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.28.attn_norm.weight": "model.safetensors",
+        "encoder.layers.28.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.28.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.28.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.28.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.28.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.28.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.28.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.28.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.28.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.28.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.28.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.29.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.29.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.29.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.29.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.29.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.29.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.29.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.29.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.29.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.29.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.29.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.29.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.29.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.29.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.29.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.29.attn_norm.weight": "model.safetensors",
+        "encoder.layers.29.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.29.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.29.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.29.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.29.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.29.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.29.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.29.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.29.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.29.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.29.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.3.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.3.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.3.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.3.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.3.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.3.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.3.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.3.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.3.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.3.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.3.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.3.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.3.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.3.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.3.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.3.attn_norm.weight": "model.safetensors",
+        "encoder.layers.3.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.3.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.3.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.3.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.3.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.3.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.3.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.3.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.3.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.3.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.3.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.30.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.30.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.30.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.30.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.30.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.30.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.30.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.30.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.30.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.30.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.30.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.30.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.30.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.30.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.30.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.30.attn_norm.weight": "model.safetensors",
+        "encoder.layers.30.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.30.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.30.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.30.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.30.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.30.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.30.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.30.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.30.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.30.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.30.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.31.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.31.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.31.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.31.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.31.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.31.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.31.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.31.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.31.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.31.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.31.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.31.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.31.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.31.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.31.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.31.attn_norm.weight": "model.safetensors",
+        "encoder.layers.31.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.31.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.31.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.31.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.31.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.31.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.31.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.31.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.31.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.31.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.31.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.4.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.4.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.4.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.4.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.4.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.4.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.4.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.4.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.4.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.4.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.4.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.4.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.4.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.4.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.4.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.4.attn_norm.weight": "model.safetensors",
+        "encoder.layers.4.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.4.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.4.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.4.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.4.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.4.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.4.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.4.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.4.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.4.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.4.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.5.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.5.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.5.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.5.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.5.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.5.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.5.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.5.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.5.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.5.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.5.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.5.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.5.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.5.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.5.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.5.attn_norm.weight": "model.safetensors",
+        "encoder.layers.5.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.5.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.5.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.5.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.5.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.5.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.5.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.5.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.5.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.5.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.5.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.6.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.6.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.6.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.6.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.6.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.6.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.6.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.6.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.6.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.6.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.6.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.6.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.6.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.6.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.6.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.6.attn_norm.weight": "model.safetensors",
+        "encoder.layers.6.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.6.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.6.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.6.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.6.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.6.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.6.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.6.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.6.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.6.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.6.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.7.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.7.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.7.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.7.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.7.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.7.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.7.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.7.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.7.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.7.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.7.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.7.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.7.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.7.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.7.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.7.attn_norm.weight": "model.safetensors",
+        "encoder.layers.7.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.7.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.7.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.7.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.7.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.7.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.7.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.7.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.7.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.7.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.7.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.8.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.8.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.8.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.8.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.8.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.8.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.8.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.8.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.8.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.8.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.8.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.8.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.8.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.8.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.8.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.8.attn_norm.weight": "model.safetensors",
+        "encoder.layers.8.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.8.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.8.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.8.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.8.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.8.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.8.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.8.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.8.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.8.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.8.mlp.up_proj.weight": "model.safetensors",
+        "encoder.layers.9.attention.k_proj.biases": "model.safetensors",
+        "encoder.layers.9.attention.k_proj.scales": "model.safetensors",
+        "encoder.layers.9.attention.k_proj.weight": "model.safetensors",
+        "encoder.layers.9.attention.o_proj.bias": "model.safetensors",
+        "encoder.layers.9.attention.o_proj.biases": "model.safetensors",
+        "encoder.layers.9.attention.o_proj.scales": "model.safetensors",
+        "encoder.layers.9.attention.o_proj.weight": "model.safetensors",
+        "encoder.layers.9.attention.q_proj.bias": "model.safetensors",
+        "encoder.layers.9.attention.q_proj.biases": "model.safetensors",
+        "encoder.layers.9.attention.q_proj.scales": "model.safetensors",
+        "encoder.layers.9.attention.q_proj.weight": "model.safetensors",
+        "encoder.layers.9.attention.v_proj.bias": "model.safetensors",
+        "encoder.layers.9.attention.v_proj.biases": "model.safetensors",
+        "encoder.layers.9.attention.v_proj.scales": "model.safetensors",
+        "encoder.layers.9.attention.v_proj.weight": "model.safetensors",
+        "encoder.layers.9.attn_norm.weight": "model.safetensors",
+        "encoder.layers.9.ffn_norm.weight": "model.safetensors",
+        "encoder.layers.9.mlp.down_proj.bias": "model.safetensors",
+        "encoder.layers.9.mlp.down_proj.biases": "model.safetensors",
+        "encoder.layers.9.mlp.down_proj.scales": "model.safetensors",
+        "encoder.layers.9.mlp.down_proj.weight": "model.safetensors",
+        "encoder.layers.9.mlp.gate_proj.biases": "model.safetensors",
+        "encoder.layers.9.mlp.gate_proj.scales": "model.safetensors",
+        "encoder.layers.9.mlp.gate_proj.weight": "model.safetensors",
+        "encoder.layers.9.mlp.up_proj.biases": "model.safetensors",
+        "encoder.layers.9.mlp.up_proj.scales": "model.safetensors",
+        "encoder.layers.9.mlp.up_proj.weight": "model.safetensors",
+        "encoder.norm.weight": "model.safetensors",
+        "language_model.embed_tokens.biases": "model.safetensors",
+        "language_model.embed_tokens.scales": "model.safetensors",
+        "language_model.embed_tokens.weight": "model.safetensors",
+        "language_model.layers.0.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.0.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.0.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.0.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.0.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.0.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.0.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.0.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.0.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.0.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.0.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.0.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.0.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.0.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.0.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.0.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.0.attn_norm.weight": "model.safetensors",
+        "language_model.layers.0.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.0.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.0.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.0.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.0.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.0.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.0.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.0.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.0.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.0.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.1.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.1.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.1.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.1.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.1.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.1.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.1.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.1.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.1.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.1.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.1.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.1.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.1.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.1.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.1.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.1.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.1.attn_norm.weight": "model.safetensors",
+        "language_model.layers.1.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.1.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.1.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.1.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.1.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.1.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.1.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.1.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.1.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.1.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.10.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.10.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.10.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.10.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.10.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.10.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.10.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.10.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.10.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.10.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.10.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.10.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.10.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.10.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.10.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.10.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.10.attn_norm.weight": "model.safetensors",
+        "language_model.layers.10.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.10.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.10.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.10.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.10.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.10.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.10.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.10.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.10.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.10.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.11.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.11.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.11.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.11.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.11.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.11.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.11.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.11.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.11.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.11.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.11.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.11.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.11.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.11.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.11.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.11.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.11.attn_norm.weight": "model.safetensors",
+        "language_model.layers.11.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.11.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.11.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.11.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.11.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.11.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.11.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.11.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.11.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.11.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.12.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.12.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.12.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.12.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.12.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.12.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.12.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.12.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.12.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.12.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.12.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.12.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.12.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.12.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.12.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.12.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.12.attn_norm.weight": "model.safetensors",
+        "language_model.layers.12.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.12.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.12.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.12.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.12.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.12.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.12.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.12.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.12.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.12.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.13.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.13.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.13.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.13.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.13.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.13.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.13.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.13.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.13.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.13.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.13.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.13.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.13.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.13.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.13.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.13.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.13.attn_norm.weight": "model.safetensors",
+        "language_model.layers.13.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.13.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.13.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.13.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.13.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.13.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.13.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.13.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.13.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.13.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.14.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.14.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.14.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.14.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.14.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.14.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.14.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.14.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.14.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.14.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.14.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.14.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.14.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.14.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.14.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.14.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.14.attn_norm.weight": "model.safetensors",
+        "language_model.layers.14.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.14.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.14.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.14.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.14.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.14.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.14.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.14.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.14.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.14.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.15.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.15.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.15.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.15.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.15.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.15.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.15.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.15.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.15.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.15.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.15.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.15.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.15.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.15.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.15.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.15.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.15.attn_norm.weight": "model.safetensors",
+        "language_model.layers.15.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.15.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.15.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.15.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.15.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.15.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.15.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.15.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.15.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.15.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.16.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.16.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.16.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.16.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.16.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.16.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.16.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.16.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.16.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.16.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.16.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.16.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.16.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.16.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.16.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.16.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.16.attn_norm.weight": "model.safetensors",
+        "language_model.layers.16.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.16.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.16.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.16.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.16.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.16.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.16.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.16.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.16.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.16.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.17.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.17.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.17.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.17.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.17.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.17.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.17.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.17.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.17.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.17.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.17.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.17.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.17.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.17.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.17.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.17.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.17.attn_norm.weight": "model.safetensors",
+        "language_model.layers.17.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.17.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.17.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.17.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.17.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.17.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.17.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.17.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.17.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.17.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.18.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.18.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.18.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.18.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.18.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.18.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.18.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.18.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.18.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.18.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.18.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.18.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.18.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.18.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.18.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.18.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.18.attn_norm.weight": "model.safetensors",
+        "language_model.layers.18.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.18.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.18.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.18.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.18.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.18.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.18.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.18.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.18.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.18.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.19.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.19.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.19.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.19.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.19.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.19.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.19.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.19.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.19.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.19.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.19.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.19.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.19.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.19.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.19.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.19.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.19.attn_norm.weight": "model.safetensors",
+        "language_model.layers.19.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.19.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.19.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.19.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.19.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.19.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.19.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.19.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.19.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.19.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.2.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.2.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.2.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.2.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.2.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.2.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.2.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.2.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.2.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.2.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.2.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.2.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.2.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.2.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.2.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.2.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.2.attn_norm.weight": "model.safetensors",
+        "language_model.layers.2.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.2.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.2.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.2.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.2.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.2.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.2.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.2.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.2.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.2.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.20.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.20.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.20.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.20.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.20.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.20.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.20.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.20.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.20.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.20.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.20.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.20.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.20.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.20.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.20.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.20.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.20.attn_norm.weight": "model.safetensors",
+        "language_model.layers.20.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.20.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.20.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.20.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.20.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.20.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.20.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.20.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.20.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.20.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.21.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.21.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.21.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.21.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.21.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.21.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.21.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.21.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.21.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.21.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.21.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.21.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.21.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.21.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.21.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.21.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.21.attn_norm.weight": "model.safetensors",
+        "language_model.layers.21.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.21.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.21.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.21.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.21.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.21.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.21.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.21.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.21.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.21.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.22.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.22.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.22.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.22.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.22.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.22.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.22.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.22.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.22.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.22.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.22.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.22.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.22.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.22.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.22.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.22.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.22.attn_norm.weight": "model.safetensors",
+        "language_model.layers.22.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.22.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.22.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.22.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.22.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.22.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.22.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.22.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.22.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.22.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.23.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.23.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.23.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.23.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.23.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.23.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.23.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.23.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.23.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.23.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.23.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.23.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.23.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.23.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.23.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.23.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.23.attn_norm.weight": "model.safetensors",
+        "language_model.layers.23.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.23.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.23.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.23.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.23.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.23.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.23.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.23.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.23.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.23.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.24.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.24.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.24.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.24.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.24.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.24.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.24.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.24.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.24.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.24.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.24.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.24.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.24.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.24.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.24.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.24.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.24.attn_norm.weight": "model.safetensors",
+        "language_model.layers.24.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.24.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.24.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.24.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.24.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.24.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.24.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.24.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.24.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.24.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.25.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.25.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.25.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.25.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.25.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.25.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.25.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.25.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.25.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.25.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.25.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.25.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.25.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.25.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.25.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.25.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.25.attn_norm.weight": "model.safetensors",
+        "language_model.layers.25.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.25.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.25.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.25.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.25.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.25.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.25.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.25.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.25.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.25.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.3.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.3.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.3.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.3.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.3.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.3.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.3.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.3.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.3.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.3.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.3.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.3.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.3.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.3.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.3.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.3.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.3.attn_norm.weight": "model.safetensors",
+        "language_model.layers.3.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.3.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.3.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.3.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.3.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.3.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.3.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.3.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.3.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.3.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.4.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.4.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.4.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.4.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.4.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.4.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.4.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.4.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.4.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.4.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.4.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.4.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.4.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.4.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.4.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.4.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.4.attn_norm.weight": "model.safetensors",
+        "language_model.layers.4.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.4.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.4.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.4.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.4.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.4.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.4.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.4.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.4.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.4.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.5.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.5.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.5.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.5.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.5.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.5.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.5.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.5.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.5.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.5.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.5.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.5.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.5.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.5.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.5.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.5.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.5.attn_norm.weight": "model.safetensors",
+        "language_model.layers.5.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.5.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.5.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.5.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.5.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.5.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.5.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.5.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.5.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.5.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.6.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.6.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.6.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.6.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.6.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.6.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.6.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.6.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.6.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.6.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.6.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.6.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.6.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.6.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.6.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.6.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.6.attn_norm.weight": "model.safetensors",
+        "language_model.layers.6.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.6.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.6.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.6.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.6.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.6.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.6.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.6.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.6.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.6.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.7.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.7.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.7.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.7.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.7.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.7.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.7.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.7.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.7.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.7.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.7.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.7.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.7.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.7.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.7.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.7.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.7.attn_norm.weight": "model.safetensors",
+        "language_model.layers.7.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.7.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.7.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.7.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.7.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.7.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.7.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.7.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.7.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.7.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.8.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.8.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.8.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.8.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.8.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.8.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.8.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.8.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.8.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.8.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.8.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.8.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.8.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.8.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.8.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.8.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.8.attn_norm.weight": "model.safetensors",
+        "language_model.layers.8.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.8.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.8.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.8.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.8.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.8.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.8.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.8.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.8.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.8.mlp.up_proj.weight": "model.safetensors",
+        "language_model.layers.9.ada_norm.linear_in.biases": "model.safetensors",
+        "language_model.layers.9.ada_norm.linear_in.scales": "model.safetensors",
+        "language_model.layers.9.ada_norm.linear_in.weight": "model.safetensors",
+        "language_model.layers.9.ada_norm.linear_out.weight": "model.safetensors",
+        "language_model.layers.9.attention.k_proj.biases": "model.safetensors",
+        "language_model.layers.9.attention.k_proj.scales": "model.safetensors",
+        "language_model.layers.9.attention.k_proj.weight": "model.safetensors",
+        "language_model.layers.9.attention.o_proj.biases": "model.safetensors",
+        "language_model.layers.9.attention.o_proj.scales": "model.safetensors",
+        "language_model.layers.9.attention.o_proj.weight": "model.safetensors",
+        "language_model.layers.9.attention.q_proj.biases": "model.safetensors",
+        "language_model.layers.9.attention.q_proj.scales": "model.safetensors",
+        "language_model.layers.9.attention.q_proj.weight": "model.safetensors",
+        "language_model.layers.9.attention.v_proj.biases": "model.safetensors",
+        "language_model.layers.9.attention.v_proj.scales": "model.safetensors",
+        "language_model.layers.9.attention.v_proj.weight": "model.safetensors",
+        "language_model.layers.9.attn_norm.weight": "model.safetensors",
+        "language_model.layers.9.ffn_norm.weight": "model.safetensors",
+        "language_model.layers.9.mlp.down_proj.biases": "model.safetensors",
+        "language_model.layers.9.mlp.down_proj.scales": "model.safetensors",
+        "language_model.layers.9.mlp.down_proj.weight": "model.safetensors",
+        "language_model.layers.9.mlp.gate_proj.biases": "model.safetensors",
+        "language_model.layers.9.mlp.gate_proj.scales": "model.safetensors",
+        "language_model.layers.9.mlp.gate_proj.weight": "model.safetensors",
+        "language_model.layers.9.mlp.up_proj.biases": "model.safetensors",
+        "language_model.layers.9.mlp.up_proj.scales": "model.safetensors",
+        "language_model.layers.9.mlp.up_proj.weight": "model.safetensors",
+        "language_model.norm.weight": "model.safetensors"
+    }
+}
\ No newline at end of file