Training in progress, step 1860, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a35a2af3ea2b94599601250de962941256a5efcad327f119611098c5b727b81
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:81c0fb722843588eee478f65ab11d8b8e96df244fd57771fd9be860e18c547d7
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b232299157051b5378f91d7d702fbb841c1ef5ad7312b7cdc673c0431537e5b
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:c19914d7442e833e08e530157a0890d83ebb6e0d430a182b75551705233b59ea
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0eb529110b293466c5e24700957fd7c44cccfdb2c6358ccd14c0e45847418541
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9515ff9e5e81cfc0c3cbf5c49b20b93394f26ac1e036ebfa97cd7e4c9487789f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d98628c593bf963c980bce85f986fc776c13df4f931f97e7900bb98fb04dfa21
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:35839298b707f74b9e3e09621648f865d090f196ef03c44145768e462863f517
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6583184257602862,
   "eval_steps": 500,
-  "global_step": 1840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1479,14 +1479,30 @@
       "loss": 0.3934,
       "num_input_tokens_seen": 1248683,
       "step": 1840
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1248683,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 2.8078471080843264e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6654740608228981,
   "eval_steps": 500,
+  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.3934,
       "num_input_tokens_seen": 1248683,
       "step": 1840
+    },
+    {
+      "epoch": 0.6618962432915921,
+      "grad_norm": 0.36599206924438477,
+      "learning_rate": 6.762075134168157e-05,
+      "loss": 0.3758,
+      "num_input_tokens_seen": 1254021,
+      "step": 1850
+    },
+    {
+      "epoch": 0.6654740608228981,
+      "grad_norm": 0.29867666959762573,
+      "learning_rate": 6.69051878354204e-05,
+      "loss": 0.3846,
+      "num_input_tokens_seen": 1260977,
+      "step": 1860
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1260977,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 2.8354919725910016e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null