Spaces:

hajimemat
/

glaive-7b-training

Runtime error

App Files Files Community

Hajime MATSUMOTO commited on Nov 27, 2025

Commit

9706c88

1 Parent(s): 6d8a316

Add local setup guide for RTX 3090

Browse files

Files changed (1) hide show

LOCAL_SETUP.md +104 -0

LOCAL_SETUP.md ADDED Viewed

	@@ -0,0 +1,104 @@

+# ローカル実行ガイド (RTX 3090)
+Qwen2.5-7B + glaive-function-calling-v2 QLoRA学習をローカルで実行する手順
+## 必要環境
+- **GPU**: RTX 3090 (24GB) 以上
+- **Python**: 3.10+
+- **CUDA**: 12.x
+- **ストレージ**: 50GB以上の空き
+## セットアップ
+```bash
+# 1. リポジトリをクローン
+git clone https://huggingface.co/spaces/hajimemat/glaive-7b-training
+cd glaive-7b-training
+# 2. 仮想環境作成（推奨）
+python -m venv venv
+source venv/bin/activate  # Windows: venv\Scripts\activate
+# 3. 依存パッケージインストール
+pip install -r requirements.txt
+# 4. HuggingFaceにログイン（モデルアップロード用）
+huggingface-cli login
+```
+## 学習実行
+```bash
+python train.py
+```
+### 学習中の出力例
+```
+[14:30:15] Step 100/7000 (1.4%) | Loss: 1.2345 | LR: 9.85e-05 | Elapsed: 00:15:30 | ETA: 02:45:00
+[14:30:45] Step 110/7000 (1.6%) | Loss: 1.1890 | LR: 9.80e-05 | Elapsed: 00:16:00 | ETA: 02:44:30
+```
+### チェックポイント
+- 500ステップごとに `./checkpoints/` に自動保存
+- 中断しても再実行で自動再開
+## 学習完了後
+### 1. LoRAマージ + AWQ量子化
+```bash
+python merge_and_quantize.py
+```
+出力:
+- `./merged_model/` - マージ済みモデル（約15GB）
+- `./quantized_model/` - AWQ量子化済み（約5GB）
+- HFに自動アップロード: `hajimemat/qwen2.5-7b-glaive-fc-awq`
+### 2. vLLMでテスト（オプション）
+```bash
+# 量子化モデルをローカルでテスト
+pip install vllm
+python -m vllm.entrypoints.openai.api_server \
+  --model ./quantized_model \
+  --port 8000
+```
+## トラブルシューティング
+### CUDA Out of Memory
+バッチサイズを下げる（train.py内）:
+```python
+per_device_train_batch_size=1,  # 2→1に変更
+gradient_accumulation_steps=32,  # 16→32に変更
+```
+### 学習が遅い
+gradient_checkpointingを確認（メモリと速度のトレードオフ）
+### HFアップロード失敗
+手動でアップロード:
+```bash
+huggingface-cli upload hajimemat/qwen2.5-7b-glaive-fc-lora ./output/final
+```
+## 推定時間
+| GPU | 時間 |
+|-----|------|
+| RTX 3090 | 5-7時間 |
+| RTX 4090 | 3-5時間 |
+| A100 | 2-3時間 |
+## ファイル構成
+```
+glaive-7b-training/
+├── train.py              # 学習スクリプト
+├── merge_and_quantize.py # マージ・量子化スクリプト
+├── requirements.txt      # 依存パッケージ
+├── checkpoints/          # チェックポイント（自動生成）
+├── output/final/         # 最終LoRA（自動生成）
+├── merged_model/         # マージ済み（自動生成）
+└── quantized_model/      # AWQ量子化済み（自動生成）
+```