Upload EEVE Korean Custom model (checkpoint-500 merged)

Browse files

Files changed (15) hide show

README.md +281 -0
UPLOAD_GUIDE.md +177 -0
chat_template.jinja +6 -0
config.json +29 -0
generation_config.json +7 -0
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +443 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +66 -0
upload_to_hf.py +198 -0

README.md ADDED Viewed

	@@ -0,0 +1,281 @@

+---
+language:
+- ko
+- en
+license: cc-by-nc-sa-4.0
+base_model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0
+tags:
+- korean
+- instruction-tuning
+- lora
+- merged
+library_name: transformers
+pipeline_tag: text-generation
+---
+# EEVE-Korean-Custom-10.8B
+> 🇰🇷 **한국어 커스텀 파인튜닝** - 반말 질문에도 존댓말로 정중하게 답변합니다
+## 모델 소개
+이 모델은 [EEVE-Korean-Instruct-10.8B-v1.0](https://huggingface.co/yanolja/EEVE-Korean-Instruct-10.8B-v1.0)을 베이스로, 고품질 한국어 instruction 데이터로 **LoRA 파인튜닝**한 후 **병합(merged)** 한 모델입니다.
+### 주요 특징
+- ✅ **고품질 한국어**: 100K+ 고품질 instruction 데이터로 훈련
+- ✅ **8K context**: 긴 문맥 지원
+- ✅ **한영 bilingual**: 한국어와 영어 모두 지원
+## 빠른 시작
+### 설치
+```bash
+pip install transformers torch accelerate
+```
+### 기본 사용
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# 모델 로드 (PEFT 없이!)
+model = AutoModelForCausalLM.from_pretrained(
+    "MyeongHo0621/eeve-vss-smh",
+    device_map="auto",
+    torch_dtype="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained("MyeongHo0621/eeve-vss-smh")
+# 프롬프트 템플릿 (EEVE 형식)
+def create_prompt(user_input):
+    return f"""A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
+Human: {user_input}
+Assistant: """
+# 대화
+user_input = "파이썬으로 피보나치 수열 구현해줘"  # 반말
+prompt = create_prompt(user_input)
+inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+outputs = model.generate(
+    **inputs,
+    max_new_tokens=512,
+    temperature=0.3,
+    top_p=0.85,
+    repetition_penalty=1.0,
+    do_sample=True
+)
+response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
+print(response)  # 존댓말로 답변
+```
+### 스트리밍 생성
+```python
+from transformers import TextIteratorStreamer
+from threading import Thread
+streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
+generation_kwargs = {
+    **inputs,
+    "max_new_tokens": 512,
+    "temperature": 0.3,
+    "top_p": 0.85,
+    "streamer": streamer
+}
+thread = Thread(target=model.generate, kwargs=generation_kwargs)
+thread.start()
+for text in streamer:
+    print(text, end="", flush=True)
+```
+## 훈련 세부사항
+### 데이터셋
+- **크기**: ~100,000 샘플
+- **출처**: 고품질 한국어 instruction 데이터셋 조합
+  - KoAlpaca
+  - Ko-Ultrachat
+  - KoInstruct
+  - Kullm-v2
+  - Smol Korean Talk
+  - Korean Wiki QA
+- **정제**: 길이 필터링, 반복 제거, 언어 확인, 특수문자 제거
+### LoRA 설정
+```yaml
+r: 64                    # LoRA rank
+lora_alpha: 128          # alpha = 2 * r
+lora_dropout: 0.05       # 낮게 설정 (이미 instruction-tuned)
+target_modules:
+  - q_proj
+  - k_proj
+  - v_proj
+  - o_proj
+  - gate_proj
+  - up_proj
+  - down_proj
+bias: none
+task_type: CAUSAL_LM
+```
+### 훈련 하이퍼파라미터
+| 파라미터 | 값 | 설명 |
+|---------|-----|------|
+| **Epochs** | 2 | 빠른 수렴 |
+| **Batch Size** | 4 (per device) | 메모리 효율 |
+| **Gradient Accumulation** | 4 | Effective batch = 16 |
+| **Learning Rate** | 1e-4 | 낮은 LR (안정적) |
+| **Max Length** | 2048 | 토큰 길이 |
+| **Warmup Ratio** | 0.05 | 초기 안정화 |
+| **Weight Decay** | 0.01 | 정규화 |
+| **Optimizer** | AdamW (8-bit) | 메모리 최적화 |
+| **LR Scheduler** | Cosine | 부드러운 감소 |
+### 메모리 최적화
+- **4-bit Quantization**: NF4 (훈련 시)
+- **Gradient Checkpointing**: 활성화
+- **BF16 Training**: H100E 최적화
+- **VRAM 사용량**: ~11GB (훈련 시)
+### 훈련 환경
+- **GPU**: NVIDIA H100 80GB HBM3
+- **Framework**: PyTorch 2.6, Transformers 4.46.3, PEFT 0.13.2
+- **훈련 시간**: ~6-8시간 (500 steps)
+- **Checkpoint**: checkpoint-500 (병합됨)
+## 성능 예시
+### 반말 → 존댓말 변환
+**입력 (반말)**:
+```
+WMS가 뭐야?
+```
+**출력 (존댓말)**:
+```
+WMS는 Warehouse Management System의 약자로, 창고 관리 시스템을 의미합니다.
+재고 추적, 입출고 관리, 피킹, 패킹 등의 물류 프로세스를 자동화하고 최적화하는
+소프트웨어 시스템입니다. 효율적인 창고 운영을 위해 사용되며, 실시간 재고 가시성과
+작업 생산성 향상을 제공합니다.
+```
+### 코드 생성
+**입력**:
+```
+파이썬으로 리스트를 역순으로 만들어줘
+```
+**출력**:
+```
+파이썬에서 리스트를 역순으로 만드는 방법을 알려드리겠습니다:
+1. reverse() 메서드 사용:
+my_list = [1, 2, 3, 4, 5]
+my_list.reverse()
+print(my_list)  # [5, 4, 3, 2, 1]
+2. 슬라이싱 사용:
+my_list = [1, 2, 3, 4, 5]
+reversed_list = my_list[::-1]
+print(reversed_list)  # [5, 4, 3, 2, 1]
+3. reversed() 함수 사용:
+my_list = [1, 2, 3, 4, 5]
+reversed_list = list(reversed(my_list))
+print(reversed_list)  # [5, 4, 3, 2, 1]
+각 방법의 차이점:
+- reverse()는 원본 리스트를 직접 수정합니다
+- 슬라이싱과 reversed()는 새로운 리스트를 생성합니다
+```
+## 프롬프트 템플릿
+이 모델은 EEVE의 표준 템플릿을 사용합니다:
+```python
+template = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
+Human: {user_message}
+Assistant: """
+```
+**중요**: 이 템플릿을 정확히 사용해야 최적의 성능을 얻을 수 있습니다.
+## 추천 생성 파라미터
+```python
+generation_config = {
+    "max_new_tokens": 512,
+    "temperature": 0.3,      # 낮음 = 일관성
+    "top_p": 0.85,           # Nucleus sampling
+    "repetition_penalty": 1.0,  # 반복 방지
+    "do_sample": True,
+    "pad_token_id": tokenizer.pad_token_id,
+    "eos_token_id": tokenizer.eos_token_id,
+}
+```
+### 파라미터 조정 가이드
+| 용도 | Temperature | Top P | Repetition Penalty |
+|------|-------------|-------|-------------------|
+| **정확한 답변** | 0.1-0.3 | 0.8-0.9 | 1.0 |
+| **균형잡힌 답변** | 0.5-0.7 | 0.85-0.95 | 1.0 |
+| **창의적 답변** | 0.8-1.0 | 0.9-1.0 | 1.05-1.1 |
+## 제한사항
+- 이 모델은 **연구 및 교육 목적**으로 공개되었습니다
+- 상업적 사용 시 CC-BY-NC-SA-4.0 라이선스를 준수해야 합니다
+- 한국어에 최적화되어 있으나, 다른 언어도 부분적으로 지원합니다
+- checkpoint-500 기준으로, 추가 훈련 시 성능이 향상될 수 있습니다
+## 라이선스
+- **모델 라이선스**: CC-BY-NC-SA-4.0
+- **베이스 모델**: [EEVE-Korean-Instruct-10.8B-v1.0](https://huggingface.co/yanolja/EEVE-Korean-Instruct-10.8B-v1.0)의 라이선스 준수
+- **상업적 사용**: 제한적 (라이선스 참조)
+## Citation
+```bibtex
+@misc{eeve-vss-smh-2024,
+  author = {MyeongHo0621},
+  title = {EEVE-VSS-SMH: Korean Custom Fine-tuned Model},
+  year = {2024},
+  publisher = {Hugging Face},
+  howpublished = {\url{https://huggingface.co/MyeongHo0621/eeve-vss-smh}},
+  note = {LoRA fine-tuned and merged model based on EEVE-Korean-Instruct-10.8B-v1.0}
+}
+```
+## Acknowledgments
+- **베이스 모델**: [Yanolja](https://huggingface.co/yanolja) - EEVE-Korean-Instruct-10.8B-v1.0
+- **훈련 인프라**: KT Cloud H100E
+- **프레임워크**: Hugging Face Transformers, PEFT
+## Contact
+- **GitHub**: [MyeongHo0621](https://github.com/MyeongHo0621)
+- **Model Repository**: [tesseract](https://github.com/MyeongHo0621/tuned_solar)
+---
+**Last Updated**: 2024-10-11
+**Checkpoint**: 500 steps
+**Status**: Merged & Ready for Deployment 🚀

UPLOAD_GUIDE.md ADDED Viewed

	@@ -0,0 +1,177 @@

+# Hugging Face 업로드 가이드
+## 모델 정보
+- **모델 이름**: `MyeongHo0621/eeve-vss-smh`
+- **크기**: ~21GB
+- **예상 업로드 시간**: 20-30분
+---
+## 🚀 업로드 단계
+### 1단계: Hugging Face 로그인
+```bash
+# 최신 명령어
+hf auth login
+# 또는
+huggingface-cli login
+```
+**토큰 받기**:
+1. https://huggingface.co/settings/tokens 접속
+2. `New token` 클릭
+3. Name: `tesseract-upload` (아무거나)
+4. Type: `Write` ✅ (중요!)
+5. 생성된 토큰 복사
+6. 터미널에 붙여넣기
+---
+### 2단계: 업로드 실행
+#### 방법 A: Python 스크립트 (추천)
+```bash
+cd /home/work/tesseract/eeve_hf_upload
+# Public 업로드
+python upload_to_hf.py --repo-id MyeongHo0621/eeve-vss-smh
+# Private 업로드 (테스트용)
+python upload_to_hf.py --repo-id MyeongHo0621/eeve-vss-smh --private
+```
+#### 방법 B: CLI 직접 사용
+```bash
+# 최신 명령어
+hf upload MyeongHo0621/eeve-vss-smh /home/work/tesseract/eeve_hf_upload
+# 또는 기존 명령어
+huggingface-cli upload MyeongHo0621/eeve-vss-smh /home/work/tesseract/eeve_hf_upload
+```
+---
+### 3단계: 업로드 확인
+업로드 완료 후:
+1. **모델 페이지**: https://huggingface.co/MyeongHo0621/eeve-vss-smh
+2. **Files and versions** 탭에서 파일 확인:
+   - ✅ README.md
+   - ✅ config.json
+   - ✅ model-00001-of-00005.safetensors (4.6GB)
+   - ✅ model-00002-of-00005.safetensors (4.6GB)
+   - ✅ model-00003-of-00005.safetensors (4.7GB)
+   - ✅ model-00004-of-00005.safetensors (4.6GB)
+   - ✅ model-00005-of-00005.safetensors (1.8GB)
+   - ✅ tokenizer files
+---
+## 🧪 업로드 후 테스트
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# 모델 다운로드 및 로드
+model = AutoModelForCausalLM.from_pretrained(
+    "MyeongHo0621/eeve-vss-smh",
+    device_map="auto",
+    torch_dtype="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained("MyeongHo0621/eeve-vss-smh")
+# 간단한 테스트
+prompt = """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
+Human: 안녕
+Assistant: """
+inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_new_tokens=50)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+---
+## 🔧 문제 해결
+### 문제 1: "Not logged in"
+```bash
+hf auth login
+# 토큰 입력 (Write 권한 필요)
+```
+### 문제 2: "Repository not found"
+- 리포지토리 이름이 정확한지 확인
+- `MyeongHo0621/eeve-vss-smh` (대소문자 구분)
+### 문제 3: 업로드 실패
+```bash
+# 재시도
+python upload_to_hf.py --repo-id MyeongHo0621/eeve-vss-smh
+# 또는 Git LFS 사용
+git lfs install
+huggingface-cli repo create MyeongHo0621/eeve-vss-smh --type model
+git clone https://huggingface.co/MyeongHo0621/eeve-vss-smh
+cd eeve-vss-smh
+cp -r /home/work/tesseract/eeve_hf_upload/* .
+git add .
+git commit -m "Upload EEVE-VSS-SMH model"
+git push
+```
+### 문제 4: 네트워크 타임아웃
+```bash
+# 재시도 (자동 재개)
+python upload_to_hf.py --repo-id MyeongHo0621/eeve-vss-smh
+```
+---
+## 📊 업로드 상태 모니터링
+```bash
+# 별도 터미널에서 실행
+watch -n 5 'ls -lh /home/work/tesseract/eeve_hf_upload/'
+```
+---
+## ✅ 완료 체크리스트
+- [ ] Hugging Face 로그인 완료
+- [ ] 업로드 스크립트 실행
+- [ ] 모델 페이지 접속 확인
+- [ ] README.md 정상 표시 확인
+- [ ] 모델 파일 전부 업로드 확인 (21GB)
+- [ ] 테스트 코드로 모델 로드 확인
+---
+## 🎯 업로드 후
+업로드가 완료되면:
+1. **모델 카드 수정**: https://huggingface.co/MyeongHo0621/eeve-vss-smh/edit/main/README.md
+2. **Model Card 메타데이터 확인**: 언어, 라이선스, 태그 등
+3. **커뮤니티 공유**: Model 페이지에서 "Share" 버튼
+---
+**준비 완료!** 🚀
+```bash
+cd /home/work/tesseract/eeve_hf_upload
+python upload_to_hf.py --repo-id MyeongHo0621/eeve-vss-smh
+```

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,6 @@

+{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = 'You are a helpful assistant.' %}{% endif %}{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in loop_messages %}{% if loop.index0 == 0 %}{{'<|im_start|>system
+' + system_message + '<|im_end|>
+'}}{% endif %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "float16",
+  "eos_token_id": 32000,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 4096,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 48,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.2",
+  "use_cache": false,
+  "vocab_size": 40960
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 32000,
+  "transformers_version": "4.56.2",
+  "use_cache": false
+}

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16f7997fd0a5804811b1d5ec0b7a7575aa78cc5cef49797a1bec663e6de9d40a
+size 4899121936

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a300b1e8cf672656b093f2d25ae950b5efbb61f86227f53bbe225e2b747c2e8
+size 4915916080

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df88d4b78145a6204070a8126ea35f04b218a653b63524696542fd9a244ee103
+size 4999819232

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd39558859b4e31c82eb8ee7ea374dd4a7d224727d99ecd3b2f4bc3e28b5f85c
+size 4915916080

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:815246982a287064485a7757c0400d947ce6931662a21a3edc7d372a864d616e
+size 1879125696

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,443 @@

+{
+  "metadata": {
+    "total_parameters": 10804924416,
+    "total_size": 21609848832
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00005-of-00005.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.norm.weight": "model-00005-of-00005.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "max_length": 2048,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "LlamaTokenizerFast",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "trust_remote_code": false,
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": true
+}

upload_to_hf.py ADDED Viewed

	@@ -0,0 +1,198 @@

+#!/usr/bin/env python3
+"""
+Hugging Face Hub 업로드 스크립트
+- 병합된 EEVE 모델을 Hugging Face Hub에 업로드
+- 모델 카드(README.md) 포함
+"""
+import os
+import argparse
+from pathlib import Path
+from huggingface_hub import HfApi, create_repo, upload_folder
+def upload_model_to_hub(
+    model_dir: str,
+    repo_id: str,
+    token: str = None,
+    private: bool = False,
+    commit_message: str = "Upload EEVE Korean Custom model"
+):
+    """
+    모델을 Hugging Face Hub에 업로드
+    Args:
+        model_dir: 업로드할 모델 디렉토리 경로
+        repo_id: Hugging Face 리포지토리 ID (username/model-name)
+        token: Hugging Face API 토큰 (None이면 환경변수 또는 CLI 로그인 사용)
+        private: Private 리포지토리로 생성할지 여부
+        commit_message: 커밋 메시지
+    """
+    print("\n" + "="*80)
+    print(" Hugging Face Hub 업로드")
+    print("="*80)
+    print(f"📁 모델 디렉토리: {model_dir}")
+    print(f"🎯 리포지토리: {repo_id}")
+    print(f"🔒 공개 여부: {'Private' if private else 'Public'}")
+    print("="*80 + "\n")
+    # HfApi 초기화
+    api = HfApi(token=token)
+    # 1. 리포지토리 생성 (이미 있으면 스킵)
+    print("1️⃣ 리포지토리 생성 중...")
+    try:
+        repo_url = create_repo(
+            repo_id=repo_id,
+            token=token,
+            private=private,
+            exist_ok=True,
+            repo_type="model"
+        )
+        print(f"✓ 리포지토리: {repo_url}\n")
+    except Exception as e:
+        print(f"⚠️  리포지토리가 이미 존재하거나 오류 발생: {e}\n")
+    # 2. 파일 업로드
+    print("2️⃣ 모델 파일 업로드 중...")
+    print("   ⏱️  이 작업은 시간이 걸립니다 (모델 크기: ~20GB)...\n")
+    try:
+        upload_folder(
+            repo_id=repo_id,
+            folder_path=model_dir,
+            token=token,
+            commit_message=commit_message,
+            repo_type="model"
+        )
+        print("✓ 업로드 완료!\n")
+    except Exception as e:
+        print(f"❌ 업로드 실패: {e}")
+        raise
+    # 3. 완료
+    print("="*80)
+    print("✅ 업로드 성공!")
+    print("="*80)
+    print(f"\n🔗 모델 페이지: https://huggingface.co/{repo_id}")
+    print(f"📖 사용 방법:")
+    print(f"""
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained("{repo_id}")
+tokenizer = AutoTokenizer.from_pretrained("{repo_id}")
+""")
+    print("="*80 + "\n")
+def main():
+    parser = argparse.ArgumentParser(
+        description="EEVE 모델을 Hugging Face Hub에 업로드",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+사용 예시:
+# 기본 사용 (public)
+python upload_to_hf.py --repo-id username/model-name
+# Private 리포지토리로 업로드
+python upload_to_hf.py --repo-id username/model-name --private
+# 토큰 직접 지정
+python upload_to_hf.py --repo-id username/model-name --token hf_xxxxx
+# 다른 디렉토리에서 업로드
+python upload_to_hf.py --repo-id username/model-name --model-dir /path/to/model
+전체 옵션:
+python upload_to_hf.py \\
+    --repo-id MyeongHo0621/EEVE-Korean-Custom-10.8B \\
+    --model-dir /home/work/tesseract/eeve_hf_upload \\
+    --private \\
+    --commit-message "Initial upload: checkpoint-500 merged"
+주의사항:
+1. 먼저 Hugging Face에 로그인해야 합니다:
+   huggingface-cli login
+   또는
+   hf auth login
+2. 토큰은 Write 권한이 있어야 합니다:
+   https://huggingface.co/settings/tokens
+3. 업로드 시간: ~20-30분 (네트워크 속도에 따라)
+        """
+    )
+    parser.add_argument(
+        "--repo-id",
+        type=str,
+        required=True,
+        help="Hugging Face 리포지토리 ID (username/model-name)"
+    )
+    parser.add_argument(
+        "--model-dir",
+        type=str,
+        default="/home/work/tesseract/eeve_hf_upload",
+        help="업로드할 모델 디렉토리 (기본: eeve_hf_upload)"
+    )
+    parser.add_argument(
+        "--token",
+        type=str,
+        default=None,
+        help="Hugging Face API 토큰 (선택, 없으면 CLI 로그인 사용)"
+    )
+    parser.add_argument(
+        "--private",
+        action="store_true",
+        help="Private 리포지토리로 생성"
+    )
+    parser.add_argument(
+        "--commit-message",
+        type=str,
+        default="Upload EEVE Korean Custom model (checkpoint-500 merged)",
+        help="커밋 메시지"
+    )
+    args = parser.parse_args()
+    # 모델 디렉토리 확인
+    model_dir = Path(args.model_dir)
+    if not model_dir.exists():
+        print(f"❌ 오류: 모델 디렉토리를 찾을 수 없습니다: {model_dir}")
+        return 1
+    # 필수 파일 확인
+    required_files = ["config.json", "tokenizer_config.json"]
+    missing_files = [f for f in required_files if not (model_dir / f).exists()]
+    if missing_files:
+        print(f"❌ 오류: 필수 파일이 없습니다: {missing_files}")
+        return 1
+    # 업로드 실행
+    try:
+        upload_model_to_hub(
+            model_dir=str(model_dir),
+            repo_id=args.repo_id,
+            token=args.token,
+            private=args.private,
+            commit_message=args.commit_message
+        )
+        print("✅ 모든 작업이 완료되었습니다!")
+        return 0
+    except Exception as e:
+        print(f"\n❌ 오류 발생: {e}")
+        import traceback
+        traceback.print_exc()
+        return 1
+if __name__ == "__main__":
+    exit(main())