Training in progress, step 43000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a2fefdad4151a99e63ae166d56e8a067e9a45ca5f3593e23025024d085087cf
 size 563074920

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f40af4f458fcf98ff975a8a67bf6d8f825776f93c4fc893bfff9e777a429186
 size 563074920

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d5b1d4b777cae5e9916f147902b1092566fa9ffed9791e0e98c64471a83c547
 size 1125916346

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2806be43a2dbc11749a984f9f27c3c727021a3459f016ea43cf735de07b8e8b
 size 1125916346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb738c4448993bfabe6ccb3cd4eb736ae6765e9a75360a49be850fad829fbf26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4616c29adbb72fca86a53186f80355f9390c75c85ef3660d2db8c34d983194a4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b25eb8da59d422374fd03939a74626640022fbe8ead6db5fc1660c4003101153
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:baf398bf7bc1350249be7408612b67c8ebc4068beabac28de92ab798dacce92e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2825129527143945,
   "eval_steps": 500,
-  "global_step": 42000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7484,11 +7484,189 @@
       "eval_steps_per_second": 8.724,
       "num_input_tokens_seen": 11010048000,
       "step": 42000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 11010048000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7503,7 +7681,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.01579283922944e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2892394515885468,
   "eval_steps": 500,
+  "global_step": 43000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 8.724,
       "num_input_tokens_seen": 11010048000,
       "step": 42000
+    },
+    {
+      "epoch": 0.28284927765810214,
+      "grad_norm": 0.6817448735237122,
+      "learning_rate": 0.0005871683190370497,
+      "loss": 12.0507,
+      "num_input_tokens_seen": 11023155200,
+      "step": 42050
+    },
+    {
+      "epoch": 0.28318560260180975,
+      "grad_norm": 1.443415641784668,
+      "learning_rate": 0.0005864706724332221,
+      "loss": 12.0804,
+      "num_input_tokens_seen": 11036262400,
+      "step": 42100
+    },
+    {
+      "epoch": 0.28352192754551736,
+      "grad_norm": 0.7497735619544983,
+      "learning_rate": 0.0005857549961807582,
+      "loss": 12.1135,
+      "num_input_tokens_seen": 11049369600,
+      "step": 42150
+    },
+    {
+      "epoch": 0.28385825248922497,
+      "grad_norm": 0.7141171097755432,
+      "learning_rate": 0.0005850213353222835,
+      "loss": 12.0707,
+      "num_input_tokens_seen": 11062476800,
+      "step": 42200
+    },
+    {
+      "epoch": 0.2841945774329326,
+      "grad_norm": 0.6800997257232666,
+      "learning_rate": 0.0005842697360323246,
+      "loss": 12.0946,
+      "num_input_tokens_seen": 11075584000,
+      "step": 42250
+    },
+    {
+      "epoch": 0.2845309023766402,
+      "grad_norm": 0.6729973554611206,
+      "learning_rate": 0.0005835002456144005,
+      "loss": 12.0882,
+      "num_input_tokens_seen": 11088691200,
+      "step": 42300
+    },
+    {
+      "epoch": 0.2848672273203478,
+      "grad_norm": 0.715886116027832,
+      "learning_rate": 0.0005827129124980481,
+      "loss": 12.0713,
+      "num_input_tokens_seen": 11101798400,
+      "step": 42350
+    },
+    {
+      "epoch": 0.2852035522640554,
+      "grad_norm": 0.7392980456352234,
+      "learning_rate": 0.0005819077862357724,
+      "loss": 12.0934,
+      "num_input_tokens_seen": 11114905600,
+      "step": 42400
+    },
+    {
+      "epoch": 0.285539877207763,
+      "grad_norm": 0.7118540406227112,
+      "learning_rate": 0.0005810849174999285,
+      "loss": 12.0531,
+      "num_input_tokens_seen": 11128012800,
+      "step": 42450
+    },
+    {
+      "epoch": 0.28587620215147064,
+      "grad_norm": 0.6643871665000916,
+      "learning_rate": 0.000580244358079532,
+      "loss": 12.0812,
+      "num_input_tokens_seen": 11141120000,
+      "step": 42500
+    },
+    {
+      "epoch": 0.28587620215147064,
+      "eval_loss": 2.9250741004943848,
+      "eval_runtime": 143.6479,
+      "eval_samples_per_second": 34.807,
+      "eval_steps_per_second": 8.702,
+      "num_input_tokens_seen": 11141120000,
+      "step": 42500
+    },
+    {
+      "epoch": 0.2862125270951783,
+      "grad_norm": 0.7261589169502258,
+      "learning_rate": 0.0005793861608770001,
+      "loss": 12.0856,
+      "num_input_tokens_seen": 11154227200,
+      "step": 42550
+    },
+    {
+      "epoch": 0.2865488520388859,
+      "grad_norm": 0.7352684140205383,
+      "learning_rate": 0.0005785103799048218,
+      "loss": 12.094,
+      "num_input_tokens_seen": 11167334400,
+      "step": 42600
+    },
+    {
+      "epoch": 0.2868851769825935,
+      "grad_norm": 0.650610089302063,
+      "learning_rate": 0.0005776170702821582,
+      "loss": 12.0796,
+      "num_input_tokens_seen": 11180441600,
+      "step": 42650
+    },
+    {
+      "epoch": 0.28722150192630114,
+      "grad_norm": 0.6917529106140137,
+      "learning_rate": 0.0005767062882313743,
+      "loss": 12.0511,
+      "num_input_tokens_seen": 11193548800,
+      "step": 42700
+    },
+    {
+      "epoch": 0.28755782687000875,
+      "grad_norm": 0.8611562252044678,
+      "learning_rate": 0.0005757780910744997,
+      "loss": 12.0772,
+      "num_input_tokens_seen": 11206656000,
+      "step": 42750
+    },
+    {
+      "epoch": 0.28789415181371636,
+      "grad_norm": 0.7321364283561707,
+      "learning_rate": 0.0005748325372296208,
+      "loss": 12.0432,
+      "num_input_tokens_seen": 11219763200,
+      "step": 42800
+    },
+    {
+      "epoch": 0.28823047675742397,
+      "grad_norm": 0.6974388957023621,
+      "learning_rate": 0.0005738696862072053,
+      "loss": 12.0408,
+      "num_input_tokens_seen": 11232870400,
+      "step": 42850
+    },
+    {
+      "epoch": 0.2885668017011316,
+      "grad_norm": 0.6981905102729797,
+      "learning_rate": 0.0005728895986063554,
+      "loss": 12.0419,
+      "num_input_tokens_seen": 11245977600,
+      "step": 42900
+    },
+    {
+      "epoch": 0.2889031266448392,
+      "grad_norm": 0.7019402384757996,
+      "learning_rate": 0.000571892336110995,
+      "loss": 12.0206,
+      "num_input_tokens_seen": 11259084800,
+      "step": 42950
+    },
+    {
+      "epoch": 0.2892394515885468,
+      "grad_norm": 0.7176699042320251,
+      "learning_rate": 0.0005708779614859863,
+      "loss": 12.0641,
+      "num_input_tokens_seen": 11272192000,
+      "step": 43000
+    },
+    {
+      "epoch": 0.2892394515885468,
+      "eval_loss": 2.9219655990600586,
+      "eval_runtime": 144.3813,
+      "eval_samples_per_second": 34.631,
+      "eval_steps_per_second": 8.658,
+      "num_input_tokens_seen": 11272192000,
+      "step": 43000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 11272192000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 7.18283552587776e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null