ibrahima2222
/

nanochat-d32

+{
+  "model_config": {
+    "sequence_len": 2048,
+    "vocab_size": 65536,
+    "n_layer": 32,
+    "n_head": 16,
+    "n_kv_head": 16,
+    "n_embd": 2048,
+    "intermediate_size": null,
+    "mlp_type": "relu2",
+    "rope_theta": 10000.0,
+    "attention_bias": false,
+    "moe_num_experts": 0,
+    "moe_top_k": 1,
+    "moe_layer_start": 0,
+    "moe_layer_end": -1,
+    "moe_layer_stride": 1,
+    "moe_capacity_factor": 1.25,
+    "moe_aux_loss_coef": 0.01
+  },
+  "user_config": {
+    "run": "r1_grpo_grpo",
+    "source": "sft",
+    "ref_source": "sft",
+    "dtype": "float32",
+    "device_batch_size": 1,
+    "examples_per_step": 16,
+    "num_samples": 4,
+    "ppo_minibatch_size": 64,
+    "max_prompt_tokens": 1024,
+    "max_new_tokens": 2048,
+    "temperature": 1.0,
+    "top_k": 50,
+    "kl_coef": 0.0,
+    "kl_max_threshold": 50.0,
+    "reward_scale": 1.0,
+    "reward_mode": "dapo",
+    "group_dynamic_sampling": 0,
+    "group_dynamic_sampling_max_tries": 50,
+    "use_best_of_n": 0,
+    "active_sampling": 1,
+    "zero_grad_filtering": 1,
+    "zero_adv_eps": 1e-08,
+    "format_hint_mode": "eval",
+    "learning_rate": 1e-06,
+    "lr_schedule": "constant",
+    "temp_start": 1.0,
+    "temp_end": 1.0,
+    "temp_schedule": "none",
+    "length_penalty_mode": "dapo",
+    "length_penalty_coef": 1.0,
+    "length_penalty_target": 2048,
+    "length_penalty_floor": 0.0,
+    "clip_eps": 0.2,
+    "clip_ratio_low": 0.8,
+    "clip_ratio_high": 1.28,
+    "advantage_clip": 5.0,
+    "grpo_epochs": 4,
+    "grpo_lr_scale": 1.0,
+    "num_steps": 500,
+    "total_examples": -1,
+    "save_every": 100,
+    "eval_every": 50,
+    "eval_num_per_task": 5,
+    "eval_seed": 123,
+    "eval_temperature": 0.0,
+    "eval_top_k": 0,
+    "eval_max_new_tokens": 256,
+    "use_deepspeed": 0,
+    "deepspeed_config": "slurm/deepspeed_zero3.json",
+    "use_fsdp": 0,
+    "fsdp_min_num_params": 1000000,
+    "fsdp_cpu_offload": 0,
+    "task_mix": "dolci:1.0,gsm8k:0.45,math:0.20,mmlu_science:0.10,mbpp:0.25",
+    "dolci_dataset_id": "allenai/Dolci-Think-RL-32B",
+    "dolci_split": "train",
+    "dolci_mode": "cot",
+    "dolci_stop": -1,
+    "dolci_streaming": 0,
+    "dolci_stream_cache": ""
+  }
+}