Spaces:

George-API
/

qwen4bit

Sleeping

George-API commited on Mar 12

Commit

29848e1

verified ·

1 Parent(s): aa250a7

Upload run_cloud_training.py with huggingface_hub

Files changed (1) hide show

run_cloud_training.py CHANGED Viewed

@@ -571,6 +571,11 @@ def train(config_path, dataset_name, output_dir):
         # Initialize ds_config_path to None before checking
         ds_config_path = None
         # Check if DeepSpeed config is available
         deepspeed_config = config.get("deepspeed_config", None)
         if deepspeed_config:
@@ -644,11 +649,6 @@ def train(config_path, dataset_name, output_dir):
             reports = ["none"]
             logger.warning("No reporting backends available - training metrics won't be logged")
-        # Optimize batch size for multi-GPU setup
-        # For 4x L4 GPUs (24GB each), we can safely use a larger batch size
-        per_device_train_batch_size = 4 if gpu_count >= 4 else 2
-        logger.info(f"Using batch size: {per_device_train_batch_size} per device (effective batch size: {per_device_train_batch_size * gpu_count * training_config.get('gradient_accumulation_steps', 4)})")
         training_args_dict = {
             "output_dir": output_dir,
             "num_train_epochs": training_config.get("num_train_epochs", 3),

         # Initialize ds_config_path to None before checking
         ds_config_path = None
+        # Optimize batch size for multi-GPU setup
+        # For 4x L4 GPUs (24GB each), we can safely use a larger batch size
+        per_device_train_batch_size = 4 if gpu_count >= 4 else 2
+        logger.info(f"Using batch size: {per_device_train_batch_size} per device (effective batch size: {per_device_train_batch_size * gpu_count * training_config.get('gradient_accumulation_steps', 4)})")
         # Check if DeepSpeed config is available
         deepspeed_config = config.get("deepspeed_config", None)
         if deepspeed_config:
             reports = ["none"]
             logger.warning("No reporting backends available - training metrics won't be logged")
         training_args_dict = {
             "output_dir": output_dir,
             "num_train_epochs": training_config.get("num_train_epochs", 3),