Training in progress, step 53000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3592942d50fd128f616a1b607af53de041def2895dde8221a2068841bbfc75f
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:36284509c9073dd2ec02f720b116d0aa77896518dd97e6cb1b15bf18c5f1971e
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c28c8ab74c2ab24140a66eba7b08b4da3f0a1c0487aa3d24a61f15278b3cefdb
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d392d61f01d27253443cebf734042b0281783df28f92f8dae1e7a4619df1a45
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:746267b8ba996549a033d105e363328c635034a7afa0e3070ea8447957aaca5a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5f53c01b35d1753a4f571c1ddd2b16976530a7b71c320877f1fbd74ce1de4ed
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b3fcbecd3d55078c913506015bb6e1182f04ee52bf4c0845fc043823a61161
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3771019f4815646a43bbc09acce698c65d4ba61e6cbb0516a172314f7fbb077
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2480413084179019,
   "eval_steps": 500,
-  "global_step": 52000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9264,11 +9264,189 @@
       "eval_steps_per_second": 23.286,
       "num_input_tokens_seen": 13631483456,
       "step": 52000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 13631483456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9283,7 +9461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.6465548677585306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.25281133357978464,
   "eval_steps": 500,
+  "global_step": 53000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.286,
       "num_input_tokens_seen": 13631483456,
       "step": 52000
+    },
+    {
+      "epoch": 0.24827980967599603,
+      "grad_norm": 0.22135989367961884,
+      "learning_rate": 0.001,
+      "loss": 2.5947,
+      "num_input_tokens_seen": 13644590656,
+      "step": 52050
+    },
+    {
+      "epoch": 0.2485183109340902,
+      "grad_norm": 0.3656958341598511,
+      "learning_rate": 0.001,
+      "loss": 2.6263,
+      "num_input_tokens_seen": 13657697856,
+      "step": 52100
+    },
+    {
+      "epoch": 0.24875681219218432,
+      "grad_norm": 0.2960817813873291,
+      "learning_rate": 0.001,
+      "loss": 2.6086,
+      "num_input_tokens_seen": 13670805056,
+      "step": 52150
+    },
+    {
+      "epoch": 0.24899531345027845,
+      "grad_norm": 0.2150612622499466,
+      "learning_rate": 0.001,
+      "loss": 2.6314,
+      "num_input_tokens_seen": 13683912256,
+      "step": 52200
+    },
+    {
+      "epoch": 0.24923381470837258,
+      "grad_norm": 0.23089592158794403,
+      "learning_rate": 0.001,
+      "loss": 2.6072,
+      "num_input_tokens_seen": 13697019456,
+      "step": 52250
+    },
+    {
+      "epoch": 0.2494723159664667,
+      "grad_norm": 0.19151148200035095,
+      "learning_rate": 0.001,
+      "loss": 2.6177,
+      "num_input_tokens_seen": 13710126656,
+      "step": 52300
+    },
+    {
+      "epoch": 0.24971081722456087,
+      "grad_norm": 0.47803962230682373,
+      "learning_rate": 0.001,
+      "loss": 2.6018,
+      "num_input_tokens_seen": 13723233856,
+      "step": 52350
+    },
+    {
+      "epoch": 0.249949318482655,
+      "grad_norm": 0.2346401810646057,
+      "learning_rate": 0.001,
+      "loss": 2.6068,
+      "num_input_tokens_seen": 13736341056,
+      "step": 52400
+    },
+    {
+      "epoch": 0.2501878197407491,
+      "grad_norm": 0.21514126658439636,
+      "learning_rate": 0.001,
+      "loss": 2.6186,
+      "num_input_tokens_seen": 13749448256,
+      "step": 52450
+    },
+    {
+      "epoch": 0.25042632099884327,
+      "grad_norm": 0.20311090350151062,
+      "learning_rate": 0.001,
+      "loss": 2.595,
+      "num_input_tokens_seen": 13762555456,
+      "step": 52500
+    },
+    {
+      "epoch": 0.25042632099884327,
+      "eval_loss": 2.490104913711548,
+      "eval_runtime": 53.8709,
+      "eval_samples_per_second": 92.814,
+      "eval_steps_per_second": 23.204,
+      "num_input_tokens_seen": 13762555456,
+      "step": 52500
+    },
+    {
+      "epoch": 0.2506648222569374,
+      "grad_norm": 0.2120152711868286,
+      "learning_rate": 0.001,
+      "loss": 2.6027,
+      "num_input_tokens_seen": 13775662656,
+      "step": 52550
+    },
+    {
+      "epoch": 0.25090332351503153,
+      "grad_norm": 0.3172776401042938,
+      "learning_rate": 0.001,
+      "loss": 2.6089,
+      "num_input_tokens_seen": 13788769856,
+      "step": 52600
+    },
+    {
+      "epoch": 0.2511418247731257,
+      "grad_norm": 0.24425551295280457,
+      "learning_rate": 0.001,
+      "loss": 2.611,
+      "num_input_tokens_seen": 13801877056,
+      "step": 52650
+    },
+    {
+      "epoch": 0.2513803260312198,
+      "grad_norm": 0.24523352086544037,
+      "learning_rate": 0.001,
+      "loss": 2.6066,
+      "num_input_tokens_seen": 13814984256,
+      "step": 52700
+    },
+    {
+      "epoch": 0.25161882728931395,
+      "grad_norm": 0.21642154455184937,
+      "learning_rate": 0.001,
+      "loss": 2.6069,
+      "num_input_tokens_seen": 13828091456,
+      "step": 52750
+    },
+    {
+      "epoch": 0.2518573285474081,
+      "grad_norm": 0.21867206692695618,
+      "learning_rate": 0.001,
+      "loss": 2.6163,
+      "num_input_tokens_seen": 13841198656,
+      "step": 52800
+    },
+    {
+      "epoch": 0.2520958298055022,
+      "grad_norm": 0.2124466449022293,
+      "learning_rate": 0.001,
+      "loss": 2.6045,
+      "num_input_tokens_seen": 13854305856,
+      "step": 52850
+    },
+    {
+      "epoch": 0.2523343310635964,
+      "grad_norm": 0.20598042011260986,
+      "learning_rate": 0.001,
+      "loss": 2.5881,
+      "num_input_tokens_seen": 13867413056,
+      "step": 52900
+    },
+    {
+      "epoch": 0.2525728323216905,
+      "grad_norm": 0.1949404776096344,
+      "learning_rate": 0.001,
+      "loss": 2.6051,
+      "num_input_tokens_seen": 13880520256,
+      "step": 52950
+    },
+    {
+      "epoch": 0.25281133357978464,
+      "grad_norm": 0.18877142667770386,
+      "learning_rate": 0.001,
+      "loss": 2.608,
+      "num_input_tokens_seen": 13893627456,
+      "step": 53000
+    },
+    {
+      "epoch": 0.25281133357978464,
+      "eval_loss": 2.485513210296631,
+      "eval_runtime": 53.7202,
+      "eval_samples_per_second": 93.075,
+      "eval_steps_per_second": 23.269,
+      "num_input_tokens_seen": 13893627456,
+      "step": 53000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 13893627456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.7166809462839706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null