Training in progress, step 1060, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:741f1e82263544b2af2ddd5880bd1151acdef154443223e1af5fa74c84fa4c5b
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:83db771df950e62ad2023cec1215f51219493e18859b93162135ea811647b4ee
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5e875a68f7de1135ec7eff6679cca0153967f574ae2078888d36849fcc7fa49
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6b7dbda1b23eed1009be33bc92a27f23738750bb760895a3877eb8413e63752
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09e6b49e9c75de37719a5ce5ce7ac22edb82ba14494ff3f8378eb2a2213d04a5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7097ad8e44eb73dccc917ee5a890bd970cf5e65b02ff96ff5daa468616d769c6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8540a59a904db0631e6ba6215ec79696a37252ba8141132429ae3f3eee3075b9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2ed300d9a9b5101b0a51972c41bba244062680bd71a8f222001fe6d7c1bf120
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.37209302325581395,
   "eval_steps": 500,
-  "global_step": 1040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -839,14 +839,30 @@
       "loss": 0.4253,
       "num_input_tokens_seen": 695760,
       "step": 1040
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 695760,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 1.564518539870208e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.37924865831842575,
   "eval_steps": 500,
+  "global_step": 1060,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.4253,
       "num_input_tokens_seen": 695760,
       "step": 1040
+    },
+    {
+      "epoch": 0.3756708407871199,
+      "grad_norm": 0.26929447054862976,
+      "learning_rate": 0.00012486583184257604,
+      "loss": 0.405,
+      "num_input_tokens_seen": 702561,
+      "step": 1050
+    },
+    {
+      "epoch": 0.37924865831842575,
+      "grad_norm": 0.24823708832263947,
+      "learning_rate": 0.00012415026833631485,
+      "loss": 0.4317,
+      "num_input_tokens_seen": 710659,
+      "step": 1060
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 710659,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 1.5980211294492672e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null