Upload results/scaling_law/owt/qwen3_hyp/owt_scaling_v3/qwen3_hyp_p686m_t1_32_suite-owt_scaling_v3_family-qwen3_geometry_id-hyp_variant-base_init_slope-std/attempt1_20260209_230103/trainer_state.json with huggingface_hub

Browse files

Files changed (1) hide show

results/scaling_law/owt/qwen3_hyp/owt_scaling_v3/qwen3_hyp_p686m_t1_32_suite-owt_scaling_v3_family-qwen3_geometry_id-hyp_variant-base_init_slope-std/attempt1_20260209_230103/trainer_state.json +169 -0

results/scaling_law/owt/qwen3_hyp/owt_scaling_v3/qwen3_hyp_p686m_t1_32_suite-owt_scaling_v3_family-qwen3_geometry_id-hyp_variant-base_init_slope-std/attempt1_20260209_230103/trainer_state.json ADDED Viewed

	@@ -0,0 +1,169 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.030113980362736582,
+  "eval_steps": 128,
+  "global_step": 1001,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.003008389646627031,
+      "grad_norm": 1.2120198011398315,
+      "learning_rate": 9.844506277446577e-05,
+      "loss": 8.1046,
+      "step": 100
+    },
+    {
+      "epoch": 0.0038507387476825997,
+      "eval_loss": 6.402813911437988,
+      "eval_runtime": 28.6031,
+      "eval_samples_per_second": 148.166,
+      "eval_steps_per_second": 4.65,
+      "step": 128
+    },
+    {
+      "epoch": 0.006016779293254062,
+      "grad_norm": 1.0962634086608887,
+      "learning_rate": 9.207842527714767e-05,
+      "loss": 6.2709,
+      "step": 200
+    },
+    {
+      "epoch": 0.007701477495365199,
+      "eval_loss": 5.732907772064209,
+      "eval_runtime": 28.591,
+      "eval_samples_per_second": 148.229,
+      "eval_steps_per_second": 4.652,
+      "step": 256
+    },
+    {
+      "epoch": 0.009025168939881093,
+      "grad_norm": 0.6911008954048157,
+      "learning_rate": 8.142447989440618e-05,
+      "loss": 5.7647,
+      "step": 300
+    },
+    {
+      "epoch": 0.0115522162430478,
+      "eval_loss": 5.367537975311279,
+      "eval_runtime": 28.6593,
+      "eval_samples_per_second": 147.875,
+      "eval_steps_per_second": 4.641,
+      "step": 384
+    },
+    {
+      "epoch": 0.012033558586508125,
+      "grad_norm": 0.732850968837738,
+      "learning_rate": 6.756874120406714e-05,
+      "loss": 5.4545,
+      "step": 400
+    },
+    {
+      "epoch": 0.015041948233135156,
+      "grad_norm": 0.6058043837547302,
+      "learning_rate": 5.192294972051992e-05,
+      "loss": 5.2435,
+      "step": 500
+    },
+    {
+      "epoch": 0.015402954990730399,
+      "eval_loss": 5.149702072143555,
+      "eval_runtime": 28.626,
+      "eval_samples_per_second": 148.047,
+      "eval_steps_per_second": 4.646,
+      "step": 512
+    },
+    {
+      "epoch": 0.018050337879762186,
+      "grad_norm": 0.6564653515815735,
+      "learning_rate": 3.608123176287685e-05,
+      "loss": 5.1083,
+      "step": 600
+    },
+    {
+      "epoch": 0.019253693738413,
+      "eval_loss": 5.0159125328063965,
+      "eval_runtime": 28.6214,
+      "eval_samples_per_second": 148.071,
+      "eval_steps_per_second": 4.647,
+      "step": 640
+    },
+    {
+      "epoch": 0.021058727526389216,
+      "grad_norm": 0.6653856635093689,
+      "learning_rate": 2.165767630597752e-05,
+      "loss": 5.0093,
+      "step": 700
+    },
+    {
+      "epoch": 0.0231044324860956,
+      "eval_loss": 4.945389747619629,
+      "eval_runtime": 28.6219,
+      "eval_samples_per_second": 148.068,
+      "eval_steps_per_second": 4.647,
+      "step": 768
+    },
+    {
+      "epoch": 0.02406711717301625,
+      "grad_norm": 0.5155009031295776,
+      "learning_rate": 1.0121877866225781e-05,
+      "loss": 4.9512,
+      "step": 800
+    },
+    {
+      "epoch": 0.026955171233778198,
+      "eval_loss": 4.9168829917907715,
+      "eval_runtime": 28.6624,
+      "eval_samples_per_second": 147.859,
+      "eval_steps_per_second": 4.64,
+      "step": 896
+    },
+    {
+      "epoch": 0.02707550681964328,
+      "grad_norm": 0.5433395504951477,
+      "learning_rate": 2.6492017119189417e-06,
+      "loss": 4.9169,
+      "step": 900
+    },
+    {
+      "epoch": 0.030083896466270313,
+      "grad_norm": 0.5387678742408752,
+      "learning_rate": 1.0276520816976387e-09,
+      "loss": 4.9135,
+      "step": 1000
+    },
+    {
+      "epoch": 0.030113980362736582,
+      "step": 1001,
+      "total_flos": 1.3865860380418376e+18,
+      "train_loss": 5.57313633631993,
+      "train_runtime": 3600.2509,
+      "train_samples_per_second": 35.589,
+      "train_steps_per_second": 0.278
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1001,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 256,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3865860380418376e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}