Training in progress, step 54000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76223d6bdee171cffd4cda1d9c4bbbab95942f789f412cecdfbcec4b8715383c
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:7005ee4ac699efbe46e787cdaab363f958cca84ce68e125ca53c53198e13eeac
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e3b0c1d87658be3018021f1815500a16d4cf88fae3993a3710e48c97c61995c
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5151b63ca0c165877166c8eeb6faa3b784251ae57745f30c89f3dbaf08defd7
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5f53c01b35d1753a4f571c1ddd2b16976530a7b71c320877f1fbd74ce1de4ed
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e516d1931a63763a7fdfb84f01f54aaada25beb218520b62969ba08ff897cee4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3771019f4815646a43bbc09acce698c65d4ba61e6cbb0516a172314f7fbb077
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b89459823d581d70469027e8df5427d5b9a07aadbd42c55eac43368b994e74e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3565044403300693,
   "eval_steps": 500,
-  "global_step": 53000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9442,11 +9442,189 @@
       "eval_steps_per_second": 23.488,
       "num_input_tokens_seen": 13893632000,
       "step": 53000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 13893632000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9461,7 +9639,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.71668216184832e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36323093920422156,
   "eval_steps": 500,
+  "global_step": 54000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.488,
       "num_input_tokens_seen": 13893632000,
       "step": 53000
+    },
+    {
+      "epoch": 0.3568407652737769,
+      "grad_norm": 0.3147699236869812,
+      "learning_rate": 0.001,
+      "loss": 3.0557,
+      "num_input_tokens_seen": 13906739200,
+      "step": 53050
+    },
+    {
+      "epoch": 0.3571770902174845,
+      "grad_norm": 0.22110533714294434,
+      "learning_rate": 0.001,
+      "loss": 3.0515,
+      "num_input_tokens_seen": 13919846400,
+      "step": 53100
+    },
+    {
+      "epoch": 0.3575134151611921,
+      "grad_norm": 0.23334212601184845,
+      "learning_rate": 0.001,
+      "loss": 3.0523,
+      "num_input_tokens_seen": 13932953600,
+      "step": 53150
+    },
+    {
+      "epoch": 0.3578497401048997,
+      "grad_norm": 0.200640469789505,
+      "learning_rate": 0.001,
+      "loss": 3.0621,
+      "num_input_tokens_seen": 13946060800,
+      "step": 53200
+    },
+    {
+      "epoch": 0.35818606504860734,
+      "grad_norm": 0.20875929296016693,
+      "learning_rate": 0.001,
+      "loss": 3.0591,
+      "num_input_tokens_seen": 13959168000,
+      "step": 53250
+    },
+    {
+      "epoch": 0.35852238999231495,
+      "grad_norm": 0.19065573811531067,
+      "learning_rate": 0.001,
+      "loss": 3.0591,
+      "num_input_tokens_seen": 13972275200,
+      "step": 53300
+    },
+    {
+      "epoch": 0.35885871493602256,
+      "grad_norm": 0.18688392639160156,
+      "learning_rate": 0.001,
+      "loss": 3.0475,
+      "num_input_tokens_seen": 13985382400,
+      "step": 53350
+    },
+    {
+      "epoch": 0.3591950398797302,
+      "grad_norm": 0.1864282786846161,
+      "learning_rate": 0.001,
+      "loss": 3.0485,
+      "num_input_tokens_seen": 13998489600,
+      "step": 53400
+    },
+    {
+      "epoch": 0.35953136482343784,
+      "grad_norm": 0.20456114411354065,
+      "learning_rate": 0.001,
+      "loss": 3.0529,
+      "num_input_tokens_seen": 14011596800,
+      "step": 53450
+    },
+    {
+      "epoch": 0.35986768976714545,
+      "grad_norm": 0.24362069368362427,
+      "learning_rate": 0.001,
+      "loss": 3.0444,
+      "num_input_tokens_seen": 14024704000,
+      "step": 53500
+    },
+    {
+      "epoch": 0.35986768976714545,
+      "eval_loss": 2.943416118621826,
+      "eval_runtime": 53.1574,
+      "eval_samples_per_second": 94.06,
+      "eval_steps_per_second": 23.515,
+      "num_input_tokens_seen": 14024704000,
+      "step": 53500
+    },
+    {
+      "epoch": 0.36020401471085306,
+      "grad_norm": 0.19701169431209564,
+      "learning_rate": 0.001,
+      "loss": 3.0513,
+      "num_input_tokens_seen": 14037811200,
+      "step": 53550
+    },
+    {
+      "epoch": 0.36054033965456067,
+      "grad_norm": 0.1785692274570465,
+      "learning_rate": 0.001,
+      "loss": 3.0541,
+      "num_input_tokens_seen": 14050918400,
+      "step": 53600
+    },
+    {
+      "epoch": 0.3608766645982683,
+      "grad_norm": 0.1865462064743042,
+      "learning_rate": 0.001,
+      "loss": 3.0367,
+      "num_input_tokens_seen": 14064025600,
+      "step": 53650
+    },
+    {
+      "epoch": 0.3612129895419759,
+      "grad_norm": 0.4129047095775604,
+      "learning_rate": 0.001,
+      "loss": 3.043,
+      "num_input_tokens_seen": 14077132800,
+      "step": 53700
+    },
+    {
+      "epoch": 0.3615493144856835,
+      "grad_norm": 0.21066440641880035,
+      "learning_rate": 0.001,
+      "loss": 3.0585,
+      "num_input_tokens_seen": 14090240000,
+      "step": 53750
+    },
+    {
+      "epoch": 0.3618856394293911,
+      "grad_norm": 0.6820788383483887,
+      "learning_rate": 0.001,
+      "loss": 3.0534,
+      "num_input_tokens_seen": 14103347200,
+      "step": 53800
+    },
+    {
+      "epoch": 0.3622219643730987,
+      "grad_norm": 0.9664424657821655,
+      "learning_rate": 0.001,
+      "loss": 3.069,
+      "num_input_tokens_seen": 14116454400,
+      "step": 53850
+    },
+    {
+      "epoch": 0.36255828931680634,
+      "grad_norm": 0.35416921973228455,
+      "learning_rate": 0.001,
+      "loss": 3.0629,
+      "num_input_tokens_seen": 14129561600,
+      "step": 53900
+    },
+    {
+      "epoch": 0.36289461426051395,
+      "grad_norm": 0.3159606158733368,
+      "learning_rate": 0.001,
+      "loss": 3.0722,
+      "num_input_tokens_seen": 14142668800,
+      "step": 53950
+    },
+    {
+      "epoch": 0.36323093920422156,
+      "grad_norm": 0.2518790662288666,
+      "learning_rate": 0.001,
+      "loss": 3.071,
+      "num_input_tokens_seen": 14155776000,
+      "step": 54000
+    },
+    {
+      "epoch": 0.36323093920422156,
+      "eval_loss": 2.9483964443206787,
+      "eval_runtime": 53.2042,
+      "eval_samples_per_second": 93.978,
+      "eval_steps_per_second": 23.494,
+      "num_input_tokens_seen": 14155776000,
+      "step": 54000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 14155776000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.78680824037376e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null