Upload Qwen2.5-Coder-1.5B-LoRA-Deep_training_logs.json

Browse files

Files changed (1) hide show

Qwen2.5-Coder-1.5B-LoRA-Deep_training_logs.json +1168 -0

Qwen2.5-Coder-1.5B-LoRA-Deep_training_logs.json ADDED Viewed

	@@ -0,0 +1,1168 @@

+[
+    {
+        "loss":1.2008,
+        "grad_norm":0.3822754323,
+        "learning_rate":0.0001407407,
+        "entropy":1.0346003115,
+        "num_tokens":322124.0,
+        "mean_token_accuracy":0.7109046429,
+        "epoch":0.0673400673,
+        "step":20,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.9385,
+        "grad_norm":0.2103841156,
+        "learning_rate":0.0001999048,
+        "entropy":0.9494877957,
+        "num_tokens":642995.0,
+        "mean_token_accuracy":0.7539383888,
+        "epoch":0.1346801347,
+        "step":40,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.915,
+        "grad_norm":0.206428811,
+        "learning_rate":0.0001993238,
+        "entropy":0.9191693425,
+        "num_tokens":966396.0,
+        "mean_token_accuracy":0.7584572025,
+        "epoch":0.202020202,
+        "step":60,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.8441,
+        "grad_norm":0.3027354181,
+        "learning_rate":0.0001982178,
+        "entropy":0.8431956261,
+        "num_tokens":1287058.0,
+        "mean_token_accuracy":0.7713396206,
+        "epoch":0.2693602694,
+        "step":80,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.8408,
+        "grad_norm":0.2982031703,
+        "learning_rate":0.0001965926,
+        "entropy":0.8472392239,
+        "num_tokens":1607723.0,
+        "mean_token_accuracy":0.7738652974,
+        "epoch":0.3367003367,
+        "step":100,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":0.3367003367,
+        "step":100,
+        "eval_loss":0.8332510591,
+        "eval_runtime":10.3382,
+        "eval_samples_per_second":24.182,
+        "eval_steps_per_second":3.095,
+        "eval_entropy":0.8475092333,
+        "eval_num_tokens":1607723.0,
+        "eval_mean_token_accuracy":0.7752955835,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.8262,
+        "grad_norm":0.2738818824,
+        "learning_rate":0.0001944568,
+        "entropy":0.8286631659,
+        "num_tokens":1928620.0,
+        "mean_token_accuracy":0.7755305201,
+        "epoch":0.404040404,
+        "step":120,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.8089,
+        "grad_norm":0.2727711201,
+        "learning_rate":0.0001918216,
+        "entropy":0.8132541452,
+        "num_tokens":2249401.0,
+        "mean_token_accuracy":0.779610493,
+        "epoch":0.4713804714,
+        "step":140,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.7815,
+        "grad_norm":0.253259182,
+        "learning_rate":0.0001887011,
+        "entropy":0.7838059939,
+        "num_tokens":2571041.0,
+        "mean_token_accuracy":0.785765557,
+        "epoch":0.5387205387,
+        "step":160,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.763,
+        "grad_norm":0.2851669788,
+        "learning_rate":0.0001851117,
+        "entropy":0.7674662221,
+        "num_tokens":2890814.0,
+        "mean_token_accuracy":0.7893050611,
+        "epoch":0.6060606061,
+        "step":180,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.7434,
+        "grad_norm":0.2782152891,
+        "learning_rate":0.0001810723,
+        "entropy":0.7478979569,
+        "num_tokens":3212811.0,
+        "mean_token_accuracy":0.7946783796,
+        "epoch":0.6734006734,
+        "step":200,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":0.6734006734,
+        "step":200,
+        "eval_loss":0.7540781498,
+        "eval_runtime":10.3368,
+        "eval_samples_per_second":24.185,
+        "eval_steps_per_second":3.096,
+        "eval_entropy":0.7548957299,
+        "eval_num_tokens":3212811.0,
+        "eval_mean_token_accuracy":0.7921991255,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.718,
+        "grad_norm":0.2911323905,
+        "learning_rate":0.0001766044,
+        "entropy":0.7216884721,
+        "num_tokens":3534962.0,
+        "mean_token_accuracy":0.8007057041,
+        "epoch":0.7407407407,
+        "step":220,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.7015,
+        "grad_norm":0.3469219804,
+        "learning_rate":0.0001717316,
+        "entropy":0.7073224507,
+        "num_tokens":3855519.0,
+        "mean_token_accuracy":0.8033309393,
+        "epoch":0.8080808081,
+        "step":240,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.7066,
+        "grad_norm":0.3413038254,
+        "learning_rate":0.0001664796,
+        "entropy":0.7131307989,
+        "num_tokens":4174694.0,
+        "mean_token_accuracy":0.8030782551,
+        "epoch":0.8754208754,
+        "step":260,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.6725,
+        "grad_norm":0.3970124125,
+        "learning_rate":0.0001608761,
+        "entropy":0.6751278345,
+        "num_tokens":4495214.0,
+        "mean_token_accuracy":0.8109409161,
+        "epoch":0.9427609428,
+        "step":280,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.6567,
+        "grad_norm":0.4383921921,
+        "learning_rate":0.0001549509,
+        "entropy":0.6729893133,
+        "num_tokens":4815033.0,
+        "mean_token_accuracy":0.8148056932,
+        "epoch":1.0101010101,
+        "step":300,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":1.0101010101,
+        "step":300,
+        "eval_loss":0.6720606685,
+        "eval_runtime":10.367,
+        "eval_samples_per_second":24.115,
+        "eval_steps_per_second":3.087,
+        "eval_entropy":0.6333643645,
+        "eval_num_tokens":4815033.0,
+        "eval_mean_token_accuracy":0.8116748761,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.5649,
+        "grad_norm":0.4388367832,
+        "learning_rate":0.0001487352,
+        "entropy":0.5757804383,
+        "num_tokens":5135569.0,
+        "mean_token_accuracy":0.8381757662,
+        "epoch":1.0774410774,
+        "step":320,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.564,
+        "grad_norm":0.4527507126,
+        "learning_rate":0.0001422618,
+        "entropy":0.5801134199,
+        "num_tokens":5456292.0,
+        "mean_token_accuracy":0.8384027012,
+        "epoch":1.1447811448,
+        "step":340,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.5403,
+        "grad_norm":0.6442076564,
+        "learning_rate":0.0001355651,
+        "entropy":0.5545659784,
+        "num_tokens":5779926.0,
+        "mean_token_accuracy":0.8451263145,
+        "epoch":1.2121212121,
+        "step":360,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.5554,
+        "grad_norm":0.5305426717,
+        "learning_rate":0.0001286803,
+        "entropy":0.5719649505,
+        "num_tokens":6100921.0,
+        "mean_token_accuracy":0.8403378457,
+        "epoch":1.2794612795,
+        "step":380,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.5345,
+        "grad_norm":0.5867527723,
+        "learning_rate":0.000121644,
+        "entropy":0.5514425825,
+        "num_tokens":6423622.0,
+        "mean_token_accuracy":0.8455459923,
+        "epoch":1.3468013468,
+        "step":400,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":1.3468013468,
+        "step":400,
+        "eval_loss":0.5978295803,
+        "eval_runtime":10.3395,
+        "eval_samples_per_second":24.179,
+        "eval_steps_per_second":3.095,
+        "eval_entropy":0.5523942402,
+        "eval_num_tokens":6423622.0,
+        "eval_mean_token_accuracy":0.8328636196,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.5122,
+        "grad_norm":0.5380092859,
+        "learning_rate":0.0001144932,
+        "entropy":0.5361574471,
+        "num_tokens":6744569.0,
+        "mean_token_accuracy":0.8533119515,
+        "epoch":1.4141414141,
+        "step":420,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4923,
+        "grad_norm":0.5738714933,
+        "learning_rate":0.0001072658,
+        "entropy":0.5068911854,
+        "num_tokens":7065251.0,
+        "mean_token_accuracy":0.8583682023,
+        "epoch":1.4814814815,
+        "step":440,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4808,
+        "grad_norm":0.5104277134,
+        "learning_rate":0.0001,
+        "entropy":0.504258769,
+        "num_tokens":7385952.0,
+        "mean_token_accuracy":0.861315985,
+        "epoch":1.5488215488,
+        "step":460,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4867,
+        "grad_norm":0.5913535357,
+        "learning_rate":0.0000927342,
+        "entropy":0.5113813952,
+        "num_tokens":7704982.0,
+        "mean_token_accuracy":0.8592018247,
+        "epoch":1.6161616162,
+        "step":480,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4591,
+        "grad_norm":0.5065989494,
+        "learning_rate":0.0000855068,
+        "entropy":0.4817487616,
+        "num_tokens":8026316.0,
+        "mean_token_accuracy":0.8679369375,
+        "epoch":1.6835016835,
+        "step":500,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":1.6835016835,
+        "step":500,
+        "eval_loss":0.511384666,
+        "eval_runtime":10.3657,
+        "eval_samples_per_second":24.118,
+        "eval_steps_per_second":3.087,
+        "eval_entropy":0.514307227,
+        "eval_num_tokens":8026316.0,
+        "eval_mean_token_accuracy":0.8547733743,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4296,
+        "grad_norm":0.5839767456,
+        "learning_rate":0.000078356,
+        "entropy":0.4638194107,
+        "num_tokens":8348213.0,
+        "mean_token_accuracy":0.8757635169,
+        "epoch":1.7508417508,
+        "step":520,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4351,
+        "grad_norm":0.6890075207,
+        "learning_rate":0.0000713197,
+        "entropy":0.4628964256,
+        "num_tokens":8671513.0,
+        "mean_token_accuracy":0.8734818839,
+        "epoch":1.8181818182,
+        "step":540,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4173,
+        "grad_norm":0.5538685918,
+        "learning_rate":0.0000644349,
+        "entropy":0.4462708168,
+        "num_tokens":8990602.0,
+        "mean_token_accuracy":0.8780993037,
+        "epoch":1.8855218855,
+        "step":560,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.4249,
+        "grad_norm":0.6900932789,
+        "learning_rate":0.0000577382,
+        "entropy":0.4559292875,
+        "num_tokens":9310065.0,
+        "mean_token_accuracy":0.8769208066,
+        "epoch":1.9528619529,
+        "step":580,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3863,
+        "grad_norm":0.6177843809,
+        "learning_rate":0.0000512648,
+        "entropy":0.4270478457,
+        "num_tokens":9629281.0,
+        "mean_token_accuracy":0.8871142037,
+        "epoch":2.0202020202,
+        "step":600,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":2.0202020202,
+        "step":600,
+        "eval_loss":0.4490914941,
+        "eval_runtime":10.371,
+        "eval_samples_per_second":24.106,
+        "eval_steps_per_second":3.086,
+        "eval_entropy":0.4390519308,
+        "eval_num_tokens":9629281.0,
+        "eval_mean_token_accuracy":0.8718043752,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3554,
+        "grad_norm":0.5899857879,
+        "learning_rate":0.0000450491,
+        "entropy":0.396466079,
+        "num_tokens":9951673.0,
+        "mean_token_accuracy":0.8959640451,
+        "epoch":2.0875420875,
+        "step":620,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3401,
+        "grad_norm":0.6384023428,
+        "learning_rate":0.0000391239,
+        "entropy":0.3796210378,
+        "num_tokens":10273617.0,
+        "mean_token_accuracy":0.8999493234,
+        "epoch":2.1548821549,
+        "step":640,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3281,
+        "grad_norm":0.6890760064,
+        "learning_rate":0.0000335204,
+        "entropy":0.3717882721,
+        "num_tokens":10594830.0,
+        "mean_token_accuracy":0.9037643224,
+        "epoch":2.2222222222,
+        "step":660,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.32,
+        "grad_norm":0.6508978605,
+        "learning_rate":0.0000282684,
+        "entropy":0.3625029052,
+        "num_tokens":10916597.0,
+        "mean_token_accuracy":0.9063778028,
+        "epoch":2.2895622896,
+        "step":680,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3189,
+        "grad_norm":0.6131536961,
+        "learning_rate":0.0000233956,
+        "entropy":0.3583062481,
+        "num_tokens":11235743.0,
+        "mean_token_accuracy":0.9068948857,
+        "epoch":2.3569023569,
+        "step":700,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":2.3569023569,
+        "step":700,
+        "eval_loss":0.4149619639,
+        "eval_runtime":10.3707,
+        "eval_samples_per_second":24.106,
+        "eval_steps_per_second":3.086,
+        "eval_entropy":0.4037288642,
+        "eval_num_tokens":11235743.0,
+        "eval_mean_token_accuracy":0.8824688997,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3248,
+        "grad_norm":0.5035169125,
+        "learning_rate":0.0000189277,
+        "entropy":0.3696210571,
+        "num_tokens":11556934.0,
+        "mean_token_accuracy":0.9046057545,
+        "epoch":2.4242424242,
+        "step":720,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3126,
+        "grad_norm":0.5420159698,
+        "learning_rate":0.0000148883,
+        "entropy":0.3530109294,
+        "num_tokens":11879049.0,
+        "mean_token_accuracy":0.910102234,
+        "epoch":2.4915824916,
+        "step":740,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3017,
+        "grad_norm":0.4808464348,
+        "learning_rate":0.0000112989,
+        "entropy":0.3429520307,
+        "num_tokens":12199559.0,
+        "mean_token_accuracy":0.9116890863,
+        "epoch":2.5589225589,
+        "step":760,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.2944,
+        "grad_norm":0.5233286023,
+        "learning_rate":0.0000081784,
+        "entropy":0.3373699239,
+        "num_tokens":12518745.0,
+        "mean_token_accuracy":0.9141617462,
+        "epoch":2.6262626263,
+        "step":780,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3132,
+        "grad_norm":0.540781498,
+        "learning_rate":0.0000055432,
+        "entropy":0.3541788673,
+        "num_tokens":12839323.0,
+        "mean_token_accuracy":0.9097139165,
+        "epoch":2.6936026936,
+        "step":800,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":2.6936026936,
+        "step":800,
+        "eval_loss":0.3966158926,
+        "eval_runtime":10.3484,
+        "eval_samples_per_second":24.158,
+        "eval_steps_per_second":3.092,
+        "eval_entropy":0.3902668599,
+        "eval_num_tokens":12839323.0,
+        "eval_mean_token_accuracy":0.8880477473,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3082,
+        "grad_norm":0.5258508921,
+        "learning_rate":0.0000034074,
+        "entropy":0.3506111713,
+        "num_tokens":13160627.0,
+        "mean_token_accuracy":0.9098422483,
+        "epoch":2.7609427609,
+        "step":820,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3079,
+        "grad_norm":0.4996784031,
+        "learning_rate":0.0000017822,
+        "entropy":0.3474921705,
+        "num_tokens":13481114.0,
+        "mean_token_accuracy":0.9094100349,
+        "epoch":2.8282828283,
+        "step":840,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3092,
+        "grad_norm":0.4853805304,
+        "learning_rate":0.0000006762,
+        "entropy":0.3521205258,
+        "num_tokens":13803114.0,
+        "mean_token_accuracy":0.9098572351,
+        "epoch":2.8956228956,
+        "step":860,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":0.3038,
+        "grad_norm":0.5111385584,
+        "learning_rate":0.0000000952,
+        "entropy":0.3490505032,
+        "num_tokens":14125289.0,
+        "mean_token_accuracy":0.9108231679,
+        "epoch":2.962962963,
+        "step":880,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":null,
+        "train_samples_per_second":null,
+        "train_steps_per_second":null,
+        "total_flos":null,
+        "train_loss":null
+    },
+    {
+        "loss":null,
+        "grad_norm":null,
+        "learning_rate":null,
+        "entropy":null,
+        "num_tokens":null,
+        "mean_token_accuracy":null,
+        "epoch":3.0,
+        "step":891,
+        "eval_loss":null,
+        "eval_runtime":null,
+        "eval_samples_per_second":null,
+        "eval_steps_per_second":null,
+        "eval_entropy":null,
+        "eval_num_tokens":null,
+        "eval_mean_token_accuracy":null,
+        "train_runtime":1912.4699,
+        "train_samples_per_second":7.451,
+        "train_steps_per_second":0.466,
+        "total_flos":1.163395683e+17,
+        "train_loss":0.5388089069
+    }
+]