SmolFactory

Sleeping

Tonic commited on Aug 7, 2025

Commit

4e59f6d

1 Parent(s): 8b56686

increases batchsize and gradient accumulation steps in memory optimized

Files changed (1) hide show

config/train_gpt_oss_openhermes_fr_memory_optimized.py CHANGED Viewed

@@ -42,8 +42,8 @@ config = GPTOSSEnhancedCustomConfig(
     # ============================================================================
     # Batch configuration following memory optimization principles
     num_train_epochs=1.0,                   # Single epoch to reduce memory pressure
-    batch_size=2,                           # Reduced from 6 for memory efficiency
-    gradient_accumulation_steps=16,         # Increased to maintain effective batch size 32
     # Learning rate optimized for single epoch + memory constraints
     learning_rate=2e-4,                     # Standard GPT-OSS learning rate

     # ============================================================================
     # Batch configuration following memory optimization principles
     num_train_epochs=1.0,                   # Single epoch to reduce memory pressure
+    batch_size=8,                           # Reduced from 6 for memory efficiency
+    gradient_accumulation_steps=8,         # Increased to maintain effective batch size 32
     # Learning rate optimized for single epoch + memory constraints
     learning_rate=2e-4,                     # Standard GPT-OSS learning rate