Spaces:

hajimemat
/

glaive-7b-training

Runtime error

Hajime MATSUMOTO commited on 15 days ago

Commit

b491772

1 Parent(s): ce66137

Use single GPU with larger batch size for L40S 48GB

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -21,6 +21,5 @@ ENV HF_TOKEN=""
 ENV TRANSFORMERS_CACHE=/app/cache
 ENV HF_HOME=/app/cache
-# マルチGPU学習 (4xL40S)
-# シングルGPUの場合は: CMD ["python", "train.py"]
-CMD ["accelerate", "launch", "--num_processes", "4", "train_multi_gpu.py"]

 ENV TRANSFORMERS_CACHE=/app/cache
 ENV HF_HOME=/app/cache
+# シングルGPU学習 (L40S 48GB)
+CMD ["python", "train.py"]

train.py CHANGED Viewed

@@ -234,10 +234,10 @@ training_args = TrainingArguments(
     num_train_epochs=2,
     max_steps=-1,  # -1 = エポックベース
-    # バッチサイズ (7Bは3Bより小さく)
-    per_device_train_batch_size=2,
-    per_device_eval_batch_size=2,
-    gradient_accumulation_steps=16,  # 有効バッチサイズ: 2*16=32
     # 学習率
     learning_rate=1e-4,

     num_train_epochs=2,
     max_steps=-1,  # -1 = エポックベース
+    # バッチサイズ (L40S 48GBなら大きく取れる)
+    per_device_train_batch_size=8,
+    per_device_eval_batch_size=8,
+    gradient_accumulation_steps=4,  # 有効バッチサイズ: 8*4=32
     # 学習率
     learning_rate=1e-4,

train_multi_gpu.py CHANGED Viewed

@@ -1,7 +1,7 @@
 #!/usr/bin/env python3
 """
 Qwen2.5-7B + glaive-function-calling-v2 QLoRA学習スクリプト
-マルチGPU対応版 (4xA10G等)
 実行方法:
   accelerate launch --num_processes 4 train_multi_gpu.py
@@ -195,10 +195,10 @@ training_args = TrainingArguments(
     num_train_epochs=2,
-    # マルチGPU: バッチサイズを上げる
-    per_device_train_batch_size=4,  # 1GPUあたり4
-    per_device_eval_batch_size=4,
-    gradient_accumulation_steps=4,  # 有効バッチ: 4*4*num_gpus
     learning_rate=1e-4,
     weight_decay=0.01,

 #!/usr/bin/env python3
 """
 Qwen2.5-7B + glaive-function-calling-v2 QLoRA学習スクリプト
+マルチGPU対応版 (4xL40S等)
 実行方法:
   accelerate launch --num_processes 4 train_multi_gpu.py
     num_train_epochs=2,
+    # マルチGPU: L40Sは48GB VRAMなのでバッチサイズを上げる
+    per_device_train_batch_size=8,  # 1GPUあたり8 (L40S 48GB)
+    per_device_eval_batch_size=8,
+    gradient_accumulation_steps=2,  # 有効バッチ: 8*2*4=64
     learning_rate=1e-4,
     weight_decay=0.01,