Training in progress, step 140000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +183 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6173b4bc562c2e11366705c8c76e7d31698b3a60389b9a754914d9b8842cf90f
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e43382fe5ddb78fed06a23ba6c7b8489c50f8ee7949d8db86e49cd8910036e
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3048a59b63da999ae8fc02b473b5d2a50c2be60b98f1004a6c79f0035ac60f1
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c18874d88aac76ea7c7006e997509fca95df88b10d2c13b5a6816de7643ed6e
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ef3d8a81eedcecdd331f8207cd63df8c3721e9e06bbee141ce7de5f7de358d9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:82993dca9aea22266a253201514efb5478f36bf5a374573dc48fbab5e03c52d6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0f0628bbbac738b6a9aa97ca88652280d641a00de879a3f6b83636f7c99513d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf74877c1fcc66d6df58cb7c2b28db5c3be81aec77034ec2a9ace3e30449eb22
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3260693800159795,
   "eval_steps": 500,
-  "global_step": 139000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24750,11 +24750,189 @@
       "eval_steps_per_second": 15.14,
       "num_input_tokens_seen": 72864248896,
       "step": 139000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 72864248896,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -24764,12 +24942,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.2895643010692137e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.335609430339745,
   "eval_steps": 500,
+  "global_step": 140000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.14,
       "num_input_tokens_seen": 72864248896,
       "step": 139000
+    },
+    {
+      "epoch": 1.3265463825321677,
+      "grad_norm": 0.11243559420108795,
+      "learning_rate": 2.837655575097964e-06,
+      "loss": 2.0318,
+      "num_input_tokens_seen": 72890458688,
+      "step": 139050
+    },
+    {
+      "epoch": 1.3270233850483562,
+      "grad_norm": 0.11617834120988846,
+      "learning_rate": 2.547062725623828e-06,
+      "loss": 2.0384,
+      "num_input_tokens_seen": 72916673088,
+      "step": 139100
+    },
+    {
+      "epoch": 1.3275003875645444,
+      "grad_norm": 0.11737903952598572,
+      "learning_rate": 2.2721256504567023e-06,
+      "loss": 2.0235,
+      "num_input_tokens_seen": 72942884768,
+      "step": 139150
+    },
+    {
+      "epoch": 1.3279773900807328,
+      "grad_norm": 0.10866422206163406,
+      "learning_rate": 2.012853002380466e-06,
+      "loss": 2.024,
+      "num_input_tokens_seen": 72969088544,
+      "step": 139200
+    },
+    {
+      "epoch": 1.328454392596921,
+      "grad_norm": 0.11547800898551941,
+      "learning_rate": 1.769252941190458e-06,
+      "loss": 2.0323,
+      "num_input_tokens_seen": 72995301472,
+      "step": 139250
+    },
+    {
+      "epoch": 1.3289313951131092,
+      "grad_norm": 0.11617856472730637,
+      "learning_rate": 1.541333133436018e-06,
+      "loss": 2.0294,
+      "num_input_tokens_seen": 73021507392,
+      "step": 139300
+    },
+    {
+      "epoch": 1.3294083976292974,
+      "grad_norm": 0.11435816437005997,
+      "learning_rate": 1.3291007521799014e-06,
+      "loss": 2.0288,
+      "num_input_tokens_seen": 73047719968,
+      "step": 139350
+    },
+    {
+      "epoch": 1.3298854001454858,
+      "grad_norm": 0.11262206733226776,
+      "learning_rate": 1.132562476771959e-06,
+      "loss": 2.0301,
+      "num_input_tokens_seen": 73073924576,
+      "step": 139400
+    },
+    {
+      "epoch": 1.330362402661674,
+      "grad_norm": 0.11383078992366791,
+      "learning_rate": 9.517244926393609e-07,
+      "loss": 2.0187,
+      "num_input_tokens_seen": 73100138976,
+      "step": 139450
+    },
+    {
+      "epoch": 1.3308394051778623,
+      "grad_norm": 0.1159028634428978,
+      "learning_rate": 7.865924910916978e-07,
+      "loss": 2.0366,
+      "num_input_tokens_seen": 73126349984,
+      "step": 139500
+    },
+    {
+      "epoch": 1.3308394051778623,
+      "eval_loss": 1.9510103464126587,
+      "eval_runtime": 82.8489,
+      "eval_samples_per_second": 60.351,
+      "eval_steps_per_second": 15.088,
+      "num_input_tokens_seen": 73126349984,
+      "step": 139500
+    },
+    {
+      "epoch": 1.3313164076940507,
+      "grad_norm": 0.1160767450928688,
+      "learning_rate": 6.371716691419005e-07,
+      "loss": 2.0374,
+      "num_input_tokens_seen": 73152559296,
+      "step": 139550
+    },
+    {
+      "epoch": 1.331793410210239,
+      "grad_norm": 0.11154640465974808,
+      "learning_rate": 5.034667293427053e-07,
+      "loss": 2.0385,
+      "num_input_tokens_seen": 73178773696,
+      "step": 139600
+    },
+    {
+      "epoch": 1.332270412726427,
+      "grad_norm": 0.11127237975597382,
+      "learning_rate": 3.854818796385495e-07,
+      "loss": 2.0281,
+      "num_input_tokens_seen": 73204985664,
+      "step": 139650
+    },
+    {
+      "epoch": 1.3327474152426153,
+      "grad_norm": 0.11270651966333389,
+      "learning_rate": 2.8322083323334415e-07,
+      "loss": 2.022,
+      "num_input_tokens_seen": 73231192992,
+      "step": 139700
+    },
+    {
+      "epoch": 1.3332244177588037,
+      "grad_norm": 0.11388963460922241,
+      "learning_rate": 1.9668680847356734e-07,
+      "loss": 2.0305,
+      "num_input_tokens_seen": 73257397792,
+      "step": 139750
+    },
+    {
+      "epoch": 1.333701420274992,
+      "grad_norm": 0.11808367073535919,
+      "learning_rate": 1.2588252874673466e-07,
+      "loss": 2.0302,
+      "num_input_tokens_seen": 73283607648,
+      "step": 139800
+    },
+    {
+      "epoch": 1.3341784227911802,
+      "grad_norm": 0.11369805783033371,
+      "learning_rate": 7.081022239591173e-08,
+      "loss": 2.0355,
+      "num_input_tokens_seen": 73309822048,
+      "step": 139850
+    },
+    {
+      "epoch": 1.3346554253073686,
+      "grad_norm": 0.11115424335002899,
+      "learning_rate": 3.147162264971471e-08,
+      "loss": 2.027,
+      "num_input_tokens_seen": 73336032384,
+      "step": 139900
+    },
+    {
+      "epoch": 1.3351324278235568,
+      "grad_norm": 0.11730392277240753,
+      "learning_rate": 7.867967567354306e-09,
+      "loss": 2.0268,
+      "num_input_tokens_seen": 73362242112,
+      "step": 139950
+    },
+    {
+      "epoch": 1.335609430339745,
+      "grad_norm": 0.11209023743867874,
+      "learning_rate": 0.0,
+      "loss": 2.0315,
+      "num_input_tokens_seen": 73388446624,
+      "step": 140000
+    },
+    {
+      "epoch": 1.335609430339745,
+      "eval_loss": 1.9509990215301514,
+      "eval_runtime": 82.6099,
+      "eval_samples_per_second": 60.525,
+      "eval_steps_per_second": 15.131,
+      "num_input_tokens_seen": 73388446624,
+      "step": 140000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 73388446624,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2988416447181578e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null