Training in progress, step 118000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ccf8d1ee3da4942ba95f7a3a54578d6c16809257e74ad1be0b26812641e3056
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb226fadbf28661b9371114993dc12e49ac5975cdb3cc0b050988cda066eda63
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f1a7487954ffb44d1bab57c681b14f7a5680ded0c52a6c8bb015865beff7ed1
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:619f8c200e9aaadfdae5aad82237b7f7ba5a625617b8275ba58c98a0a1cd45f8
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48498b576bbabf1971bbdc1b63e18da5e5d6ff6ee2d2893d269ddf346414745c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eadabea5b840d3b07e42e9e423397807b167316e75ece7076e65c7e1fda35503
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f7ac3b8ebf1c0d4bfd4f038411c119a54a5a538a834ebe005f085cdf984be31
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c77e72696edbb72e0b5c20319181466e8d1ea3a266d160a365b8e9afc9f97b0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1161882728931396,
   "eval_steps": 500,
-  "global_step": 117000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20834,11 +20834,189 @@
       "eval_steps_per_second": 15.104,
       "num_input_tokens_seen": 61331831488,
       "step": 117000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 61331831488,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -20853,7 +21031,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0854615480769659e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1257283232169049,
   "eval_steps": 500,
+  "global_step": 118000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.104,
       "num_input_tokens_seen": 61331831488,
       "step": 117000
+    },
+    {
+      "epoch": 1.1166652754093278,
+      "grad_norm": 0.13141483068466187,
+      "learning_rate": 0.0009218630989585645,
+      "loss": 2.0933,
+      "num_input_tokens_seen": 61358045888,
+      "step": 117050
+    },
+    {
+      "epoch": 1.117142277925516,
+      "grad_norm": 0.14495305716991425,
+      "learning_rate": 0.0009203508214822651,
+      "loss": 2.0864,
+      "num_input_tokens_seen": 61384257568,
+      "step": 117100
+    },
+    {
+      "epoch": 1.1176192804417044,
+      "grad_norm": 0.14642465114593506,
+      "learning_rate": 0.0009188253147794443,
+      "loss": 2.0918,
+      "num_input_tokens_seen": 61410471968,
+      "step": 117150
+    },
+    {
+      "epoch": 1.1180962829578927,
+      "grad_norm": 0.13314634561538696,
+      "learning_rate": 0.0009172866268606513,
+      "loss": 2.0896,
+      "num_input_tokens_seen": 61436668768,
+      "step": 117200
+    },
+    {
+      "epoch": 1.1185732854740809,
+      "grad_norm": 0.15387175977230072,
+      "learning_rate": 0.0009157348061512727,
+      "loss": 2.0771,
+      "num_input_tokens_seen": 61462881056,
+      "step": 117250
+    },
+    {
+      "epoch": 1.119050287990269,
+      "grad_norm": 0.13886821269989014,
+      "learning_rate": 0.0009141699014900082,
+      "loss": 2.0945,
+      "num_input_tokens_seen": 61489085536,
+      "step": 117300
+    },
+    {
+      "epoch": 1.1195272905064575,
+      "grad_norm": 0.13939301669597626,
+      "learning_rate": 0.0009125919621273348,
+      "loss": 2.0918,
+      "num_input_tokens_seen": 61515286016,
+      "step": 117350
+    },
+    {
+      "epoch": 1.1200042930226457,
+      "grad_norm": 0.1996990144252777,
+      "learning_rate": 0.0009110010377239551,
+      "loss": 2.0859,
+      "num_input_tokens_seen": 61541500416,
+      "step": 117400
+    },
+    {
+      "epoch": 1.120481295538834,
+      "grad_norm": 0.135545015335083,
+      "learning_rate": 0.0009093971783492354,
+      "loss": 2.089,
+      "num_input_tokens_seen": 61567714816,
+      "step": 117450
+    },
+    {
+      "epoch": 1.1209582980550223,
+      "grad_norm": 0.1394105702638626,
+      "learning_rate": 0.0009077804344796301,
+      "loss": 2.0759,
+      "num_input_tokens_seen": 61593927520,
+      "step": 117500
+    },
+    {
+      "epoch": 1.1209582980550223,
+      "eval_loss": 2.003880739212036,
+      "eval_runtime": 83.0803,
+      "eval_samples_per_second": 60.183,
+      "eval_steps_per_second": 15.046,
+      "num_input_tokens_seen": 61593927520,
+      "step": 117500
+    },
+    {
+      "epoch": 1.1214353005712105,
+      "grad_norm": 0.1590648591518402,
+      "learning_rate": 0.0009061508569970925,
+      "loss": 2.0825,
+      "num_input_tokens_seen": 61620139072,
+      "step": 117550
+    },
+    {
+      "epoch": 1.1219123030873988,
+      "grad_norm": 0.13328000903129578,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 2.0877,
+      "num_input_tokens_seen": 61646353472,
+      "step": 117600
+    },
+    {
+      "epoch": 1.122389305603587,
+      "grad_norm": 0.13834019005298615,
+      "learning_rate": 0.0009028534067389086,
+      "loss": 2.0871,
+      "num_input_tokens_seen": 61672566336,
+      "step": 117650
+    },
+    {
+      "epoch": 1.1228663081197754,
+      "grad_norm": 0.13156409561634064,
+      "learning_rate": 0.000901185637740189,
+      "loss": 2.0906,
+      "num_input_tokens_seen": 61698777696,
+      "step": 117700
+    },
+    {
+      "epoch": 1.1233433106359636,
+      "grad_norm": 0.1528773009777069,
+      "learning_rate": 0.0008995052426791246,
+      "loss": 2.0731,
+      "num_input_tokens_seen": 61724974336,
+      "step": 117750
+    },
+    {
+      "epoch": 1.1238203131521518,
+      "grad_norm": 0.14865480363368988,
+      "learning_rate": 0.0008978122744408905,
+      "loss": 2.082,
+      "num_input_tokens_seen": 61751177792,
+      "step": 117800
+    },
+    {
+      "epoch": 1.1242973156683402,
+      "grad_norm": 0.14318804442882538,
+      "learning_rate": 0.0008961067863063638,
+      "loss": 2.0891,
+      "num_input_tokens_seen": 61777391648,
+      "step": 117850
+    },
+    {
+      "epoch": 1.1247743181845284,
+      "grad_norm": 0.14581789076328278,
+      "learning_rate": 0.0008943888319504456,
+      "loss": 2.0908,
+      "num_input_tokens_seen": 61803602176,
+      "step": 117900
+    },
+    {
+      "epoch": 1.1252513207007167,
+      "grad_norm": 0.14142882823944092,
+      "learning_rate": 0.0008926584654403724,
+      "loss": 2.0791,
+      "num_input_tokens_seen": 61829816576,
+      "step": 117950
+    },
+    {
+      "epoch": 1.1257283232169049,
+      "grad_norm": 0.15033917129039764,
+      "learning_rate": 0.000890915741234015,
+      "loss": 2.0801,
+      "num_input_tokens_seen": 61856020192,
+      "step": 118000
+    },
+    {
+      "epoch": 1.1257283232169049,
+      "eval_loss": 2.0019845962524414,
+      "eval_runtime": 82.7188,
+      "eval_samples_per_second": 60.446,
+      "eval_steps_per_second": 15.111,
+      "num_input_tokens_seen": 61856020192,
+      "step": 118000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 61856020192,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0947387320175698e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null