Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +23 -278
config.json +2 -2
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +436 -436

README.md CHANGED Viewed

@@ -1,282 +1,27 @@
----
-library_name: transformers
-license: mit
-base_model: Qwen/Qwen2.5-3B-Instruct
-tags:
-- text-generation
-- conversational
-- immigration-law
-- legal-assistant
-- qwen
-- lora
----
-# Model Card for DoloresAI-Merged
-## Model Summary
-**DoloresAI-Merged** is a fine-tuned conversational AI assistant specialized in U.S. immigration law. This model is a merged version of a LoRA adapter trained on the base model `Qwen/Qwen2.5-3B-Instruct`. It provides accurate, context-aware responses to immigration-related questions and assists with form completion, case management, and legal guidance.
 ## Model Details
-### Model Description
-DoloresAI-Merged is a merged model that combines the base Qwen2.5-3B-Instruct model with fine-tuned LoRA weights. The model has been specifically trained to understand and respond to immigration law queries, USCIS form questions, and provide legal assistance for immigrants navigating the U.S. immigration system.
-- **Developed by:** JustiGuide
-- **Model type:** Causal Language Model (Decoder-only)
-- **Language(s):** English (primary), with support for multilingual queries
-- **License:** MIT
-- **Finetuned from:** `Qwen/Qwen2.5-3B-Instruct`
-- **Merged from:** `JustiGuide/DoloresAI` (LoRA adapter)
-### Model Architecture
-- **Base Model:** Qwen/Qwen2.5-3B-Instruct (3B parameters)
-- **Architecture:** Transformer-based decoder
-- **Context Length:** 32,768 tokens
-- **Model Format:** Merged (LoRA weights integrated into base model)
-### Model Sources
-- **Repository:** https://huggingface.co/JustiGuide/DoloresAI-Merged
-- **Base Model:** https://huggingface.co/Qwen/Qwen2.5-3B-Instruct
-- **Original LoRA Adapter:** https://huggingface.co/JustiGuide/DoloresAI
-## Uses
-### Direct Use
-This model is intended for use as an immigration law assistant that can:
-- Answer questions about U.S. immigration law and procedures
-- Assist with USCIS form completion (I-130, I-765, I-589, I-129, N-400)
-- Provide guidance on immigration processes and requirements
-- Help users understand legal terminology and requirements
-- Support case management and document preparation
-### Intended Use Cases
-1. **Immigration Form Assistance:** Help users complete USCIS forms accurately
-2. **Legal Q&A:** Answer questions about immigration law, processes, and requirements
-3. **Case Management:** Assist with tracking immigration cases and deadlines
-4. **Educational Support:** Provide explanations of immigration concepts and procedures
-### Out-of-Scope Use
-This model should NOT be used for:
-- Providing definitive legal advice (users should consult licensed attorneys)
-- Making final legal decisions
-- Replacing professional legal counsel
-- Handling emergency legal situations
-- Providing advice on non-U.S. immigration systems
-## Bias, Risks, and Limitations
-### Limitations
-1. **Not Legal Advice:** This model provides information and assistance but does not constitute legal advice. Users should consult licensed immigration attorneys for legal representation.
-2. **Training Data Limitations:** The model's knowledge is based on training data and may not reflect the most recent changes in immigration law or policy.
-3. **Context Window:** Limited to 32,768 tokens, which may not capture all relevant context for complex cases.
-4. **Language:** Primarily trained on English; performance may vary for other languages.
-5. **Accuracy:** While trained on immigration law data, responses should be verified with official sources and legal professionals.
-### Recommendations
-- Always verify information with official USCIS sources
-- Consult licensed immigration attorneys for legal representation
-- Use this model as a tool to assist, not replace, professional legal services
-- Keep in mind that immigration law changes frequently
-## How to Get Started with the Model
-### Using Transformers
-```python
-from transformers import AutoModelForCausalLM, AutoTokenizer
-model_name = "JustiGuide/DoloresAI-Merged"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
-# Format prompt for Qwen2.5 chat template
-messages = [
-    {"role": "system", "content": "You are Dolores, an immigration law assistant."},
-    {"role": "user", "content": "What is an H-1B visa?"}
-]
-# Apply chat template
-prompt = tokenizer.apply_chat_template(
-    messages,
-    tokenize=False,
-    add_generation_prompt=True
-)
-# Generate response
-inputs = tokenizer(prompt, return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=256, temperature=0.7)
-response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-print(response)
-```
-### Using Hugging Face Inference Endpoint
-```python
-import requests
-endpoint_url = "YOUR_ENDPOINT_URL"
-headers = {
-    "Authorization": "Bearer YOUR_API_KEY",
-    "Content-Type": "application/json"
-}
-payload = {
-    "inputs": "User: What is an H-1B visa?\nAssistant:",
-    "parameters": {
-        "max_new_tokens": 256,
-        "temperature": 0.7,
-        "top_p": 0.9
-    }
-}
-response = requests.post(endpoint_url, json=payload, headers=headers)
-print(response.json())
-```
-## Training Details
-### Training Data
-The model was fine-tuned on a custom dataset of:
-- Immigration law questions and answers
-- USCIS form instructions and examples
-- Legal terminology and definitions
-- Case management scenarios
-- Immigration process documentation
-**Dataset Size:** 338+ training examples (as of training)
-### Training Procedure
-#### Preprocessing
-- Training data was formatted using Qwen2.5 chat template
-- System prompts included role definitions and instructions
-- Context and examples were included in training format
-#### Training Hyperparameters
-- **Training Type:** LoRA (Low-Rank Adaptation)
-- **Base Model:** Qwen/Qwen2.5-3B-Instruct
-- **LoRA Rank (r):** 16
-- **LoRA Alpha:** 32
-- **LoRA Dropout:** 0.1
-- **Target Modules:** q_proj, v_proj, k_proj, o_proj, gate_proj, up_proj, down_proj
-- **Learning Rate:** 2e-4 (0.0002)
-- **Batch Size:** 4
-- **Gradient Accumulation Steps:** 4
-- **Effective Batch Size:** 16
-- **Epochs:** 3
-- **Max Sequence Length:** 1024 tokens
-- **Warmup Steps:** 50
-- **Mixed Precision:** FP16
-#### Training Infrastructure
-- **Platform:** Hugging Face AutoTrain
-- **Hardware:** GPU (specific GPU type may vary)
-- **Training Time:** 1-3 hours (depending on hardware)
-### Model Merging
-The LoRA adapter was merged with the base model to create a single, unified model file. This process:
-- Integrates LoRA weights into the base model
-- Creates a standalone model that doesn't require adapter loading
-- Improves inference stability and reduces CUDA errors
-- Maintains all fine-tuning benefits
-## Evaluation
-### Testing Data
-The model was evaluated on:
-- Immigration law Q&A accuracy
-- Form completion assistance quality
-- Legal terminology understanding
-- Response coherence and relevance
-### Metrics
-- **Training Loss:** Decreased from ~2.5 to ~1.5-2.0
-- **Response Quality:** Improved context awareness and accuracy
-- **Form Assistance:** Accurate guidance on USCIS forms
-### Results
-The merged model maintains the fine-tuning benefits while providing:
-- ✅ Stable inference (no CUDA errors from adapter loading)
-- ✅ Faster inference (single model file)
-- ✅ Better compatibility with inference endpoints
-- ✅ Preserved training quality
-## Technical Specifications
-### Model Architecture
-- **Architecture:** Transformer Decoder
-- **Parameters:** ~3B
-- **Layers:** Based on Qwen2.5-3B-Instruct architecture
-- **Attention Mechanism:** Multi-head self-attention
-- **Activation:** SwiGLU
-### Compute Infrastructure
-#### Hardware
-- **Training:** GPU (via Hugging Face AutoTrain)
-- **Inference:** GPU recommended (T4, A10G, or A100)
-- **Minimum:** CPU inference possible but slower
-#### Software
-- **Framework:** PyTorch
-- **Transformers:** Hugging Face Transformers library
-- **LoRA:** PEFT (Parameter-Efficient Fine-Tuning)
-## Citation
-If you use this model, please cite:
-```bibtex
-@model{JustiGuide/DoloresAI-Merged,
-  title={DoloresAI-Merged: Immigration Law Assistant},
-  author={JustiGuide},
-  year={2025},
-  url={https://huggingface.co/JustiGuide/DoloresAI-Merged},
-  base_model={Qwen/Qwen2.5-3B-Instruct}
-}
-```
-## Model Card Contact
-For questions or issues, please contact:
-- **Organization:** JustiGuide
-- **Model Repository:** https://huggingface.co/JustiGuide/DoloresAI-Merged
-## Acknowledgments
-- Base model: Qwen/Qwen2.5-3B-Instruct by Alibaba Cloud
-- Training platform: Hugging Face AutoTrain
-- Framework: Hugging Face Transformers and PEFT
-## Version History
-- **v1.0 (Merged):** Initial merged model release
-  - Merged LoRA adapter with base model
-  - Optimized for inference endpoints
-  - Fixed CUDA compatibility issues

+# DoloresAI-Merged (Fixed)
+This is a fixed version of the DoloresAI merged model with vocabulary mismatch resolved.
+## Changes
+- Fixed vocabulary size mismatch between model (151936) and tokenizer (151665)
+- Model embeddings resized to match tokenizer: 151665 tokens
+- Ready for deployment on HuggingFace Inference Endpoints
 ## Model Details
+- Base Model: Qwen2-7B-Instruct
+- Fine-tuned for: Immigration law assistance
+- Fixed on: 2026-01-11 00:38:12
+## Deployment
+This model is ready to deploy on HuggingFace Inference Endpoints without CUDA errors.
+## Testing
+The vocabulary sizes have been verified to match:
+- Model vocab size: 151665
+- Tokenizer vocab size: 151665
+- Match: ✅
+## Next Steps
+1. Upload to HuggingFace: `huggingface-cli upload JustiGuide/DoloresAI-Merged ./dolores-merged-fixed --repo-type model`
+2. Deploy new inference endpoint
+3. Update backend secrets with new endpoint URL

config.json CHANGED Viewed

@@ -4,7 +4,7 @@
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
-  "dtype": "bfloat16",
   "eos_token_id": 151645,
   "hidden_act": "silu",
   "hidden_size": 2048,
@@ -62,5 +62,5 @@
   "transformers_version": "4.57.3",
   "use_cache": true,
   "use_sliding_window": false,
-  "vocab_size": 151936
 }

   ],
   "attention_dropout": 0.0,
   "bos_token_id": 151643,
+  "dtype": "float32",
   "eos_token_id": 151645,
   "hidden_act": "silu",
   "hidden_size": 2048,
   "transformers_version": "4.57.3",
   "use_cache": true,
   "use_sliding_window": false,
+  "vocab_size": 151665
 }

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d8416fb083c2aa9716f973bdd94d5f8ae6be8253fb743aea93652699363b11f
+size 4979911504

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d11fc85b6c2c71b9f26ac54dbb4b8c9737dbdcdc413e71b23b95d0bd75db2cc
+size 4932949336

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:419889ec7da51ed6ae1d335b35ee1e0add54a5d37989130cf71e764ed7e5e05d
+size 2428723160

model.safetensors.index.json CHANGED Viewed

@@ -1,442 +1,442 @@
 {
   "metadata": {
-    "total_parameters": 3085938688,
-    "total_size": 6171877376
   },
   "weight_map": {
-    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
-    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.norm.weight": "model-00002-of-00002.safetensors"
   }
 }

 {
   "metadata": {
+    "total_parameters": 3085383680,
+    "total_size": 12341534720
   },
   "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
   }
 }