Training in progress, step 52000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b71ed16611cd95fe8479b9b5158a65681e32cd86fc06fd6104792dca5e0ea90c
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3592942d50fd128f616a1b607af53de041def2895dde8221a2068841bbfc75f
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4d0121bc94172a095cdea5c65ddbc39cc2a2d68c3e7dea1521191e5bf66d6e4
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:c28c8ab74c2ab24140a66eba7b08b4da3f0a1c0487aa3d24a61f15278b3cefdb
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:871241677306799dd94bb012f99e77b35a49885274956fc7cf6b8c017fdd6180
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:746267b8ba996549a033d105e363328c635034a7afa0e3070ea8447957aaca5a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38e628546b6b3793b4db9c04b0c48bd7f457b5c91e760c9c29b133754fb90815
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:24b3fcbecd3d55078c913506015bb6e1182f04ee52bf4c0845fc043823a61161
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24327128325601918,
   "eval_steps": 500,
-  "global_step": 51000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9086,11 +9086,189 @@
       "eval_steps_per_second": 23.341,
       "num_input_tokens_seen": 13369339456,
       "step": 51000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 13369339456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9105,7 +9283,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5764287892330906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2480413084179019,
   "eval_steps": 500,
+  "global_step": 52000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.341,
       "num_input_tokens_seen": 13369339456,
       "step": 51000
+    },
+    {
+      "epoch": 0.24350978451411331,
+      "grad_norm": 0.20502831041812897,
+      "learning_rate": 0.001,
+      "loss": 2.6059,
+      "num_input_tokens_seen": 13382446656,
+      "step": 51050
+    },
+    {
+      "epoch": 0.24374828577220745,
+      "grad_norm": 0.20750559866428375,
+      "learning_rate": 0.001,
+      "loss": 2.6056,
+      "num_input_tokens_seen": 13395553856,
+      "step": 51100
+    },
+    {
+      "epoch": 0.24398678703030158,
+      "grad_norm": 0.19882823526859283,
+      "learning_rate": 0.001,
+      "loss": 2.5983,
+      "num_input_tokens_seen": 13408661056,
+      "step": 51150
+    },
+    {
+      "epoch": 0.2442252882883957,
+      "grad_norm": 0.20900660753250122,
+      "learning_rate": 0.001,
+      "loss": 2.6087,
+      "num_input_tokens_seen": 13421768256,
+      "step": 51200
+    },
+    {
+      "epoch": 0.24446378954648987,
+      "grad_norm": 0.21428415179252625,
+      "learning_rate": 0.001,
+      "loss": 2.5901,
+      "num_input_tokens_seen": 13434875456,
+      "step": 51250
+    },
+    {
+      "epoch": 0.244702290804584,
+      "grad_norm": 0.19987250864505768,
+      "learning_rate": 0.001,
+      "loss": 2.5982,
+      "num_input_tokens_seen": 13447982656,
+      "step": 51300
+    },
+    {
+      "epoch": 0.24494079206267813,
+      "grad_norm": 0.2045862078666687,
+      "learning_rate": 0.001,
+      "loss": 2.6058,
+      "num_input_tokens_seen": 13461089856,
+      "step": 51350
+    },
+    {
+      "epoch": 0.24517929332077226,
+      "grad_norm": 0.22261273860931396,
+      "learning_rate": 0.001,
+      "loss": 2.5972,
+      "num_input_tokens_seen": 13474197056,
+      "step": 51400
+    },
+    {
+      "epoch": 0.2454177945788664,
+      "grad_norm": 0.20395706593990326,
+      "learning_rate": 0.001,
+      "loss": 2.6064,
+      "num_input_tokens_seen": 13487304256,
+      "step": 51450
+    },
+    {
+      "epoch": 0.24565629583696055,
+      "grad_norm": 0.21490858495235443,
+      "learning_rate": 0.001,
+      "loss": 2.5922,
+      "num_input_tokens_seen": 13500411456,
+      "step": 51500
+    },
+    {
+      "epoch": 0.24565629583696055,
+      "eval_loss": 2.488300085067749,
+      "eval_runtime": 53.7972,
+      "eval_samples_per_second": 92.942,
+      "eval_steps_per_second": 23.235,
+      "num_input_tokens_seen": 13500411456,
+      "step": 51500
+    },
+    {
+      "epoch": 0.24589479709505468,
+      "grad_norm": 0.2039102464914322,
+      "learning_rate": 0.001,
+      "loss": 2.5894,
+      "num_input_tokens_seen": 13513518656,
+      "step": 51550
+    },
+    {
+      "epoch": 0.24613329835314882,
+      "grad_norm": 0.21426360309123993,
+      "learning_rate": 0.001,
+      "loss": 2.6089,
+      "num_input_tokens_seen": 13526625856,
+      "step": 51600
+    },
+    {
+      "epoch": 0.24637179961124295,
+      "grad_norm": 0.194682314991951,
+      "learning_rate": 0.001,
+      "loss": 2.5932,
+      "num_input_tokens_seen": 13539733056,
+      "step": 51650
+    },
+    {
+      "epoch": 0.24661030086933708,
+      "grad_norm": 0.1901472508907318,
+      "learning_rate": 0.001,
+      "loss": 2.6031,
+      "num_input_tokens_seen": 13552840256,
+      "step": 51700
+    },
+    {
+      "epoch": 0.2468488021274312,
+      "grad_norm": 0.20517823100090027,
+      "learning_rate": 0.001,
+      "loss": 2.5978,
+      "num_input_tokens_seen": 13565947456,
+      "step": 51750
+    },
+    {
+      "epoch": 0.24708730338552537,
+      "grad_norm": 0.23713302612304688,
+      "learning_rate": 0.001,
+      "loss": 2.6061,
+      "num_input_tokens_seen": 13579054656,
+      "step": 51800
+    },
+    {
+      "epoch": 0.2473258046436195,
+      "grad_norm": 0.2431441992521286,
+      "learning_rate": 0.001,
+      "loss": 2.6062,
+      "num_input_tokens_seen": 13592161856,
+      "step": 51850
+    },
+    {
+      "epoch": 0.24756430590171363,
+      "grad_norm": 0.20358557999134064,
+      "learning_rate": 0.001,
+      "loss": 2.6161,
+      "num_input_tokens_seen": 13605269056,
+      "step": 51900
+    },
+    {
+      "epoch": 0.24780280715980776,
+      "grad_norm": 0.21245016157627106,
+      "learning_rate": 0.001,
+      "loss": 2.6166,
+      "num_input_tokens_seen": 13618376256,
+      "step": 51950
+    },
+    {
+      "epoch": 0.2480413084179019,
+      "grad_norm": 0.24295999109745026,
+      "learning_rate": 0.001,
+      "loss": 2.6139,
+      "num_input_tokens_seen": 13631483456,
+      "step": 52000
+    },
+    {
+      "epoch": 0.2480413084179019,
+      "eval_loss": 2.4932186603546143,
+      "eval_runtime": 53.6797,
+      "eval_samples_per_second": 93.145,
+      "eval_steps_per_second": 23.286,
+      "num_input_tokens_seen": 13631483456,
+      "step": 52000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 13631483456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.6465548677585306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null