Training in progress, step 1880, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81c0fb722843588eee478f65ab11d8b8e96df244fd57771fd9be860e18c547d7
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:2afddf3ec7ee4eb13b2ada4bf4720336a66bcb17f46f329977812b67bd67d4e2
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c19914d7442e833e08e530157a0890d83ebb6e0d430a182b75551705233b59ea
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:c254584d7510ca4eeaff0cca975c08ed55d713bbf9e668172f8cbf97495e77e2
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9515ff9e5e81cfc0c3cbf5c49b20b93394f26ac1e036ebfa97cd7e4c9487789f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac4550c76533f857f7cf55740ed3623cc9b4550e64e43f48fe63acb894cf87d3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35839298b707f74b9e3e09621648f865d090f196ef03c44145768e462863f517
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcbe60adc58daefe5828383acc365415f8f2c12797679d185c0ae4e7a1e01d05
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6654740608228981,
   "eval_steps": 500,
-  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1495,14 +1495,30 @@
       "loss": 0.3846,
       "num_input_tokens_seen": 1260977,
       "step": 1860
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1260977,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 2.8354919725910016e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6726296958855098,
   "eval_steps": 500,
+  "global_step": 1880,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.3846,
       "num_input_tokens_seen": 1260977,
       "step": 1860
+    },
+    {
+      "epoch": 0.669051878354204,
+      "grad_norm": 0.3520377576351166,
+      "learning_rate": 6.618962432915921e-05,
+      "loss": 0.406,
+      "num_input_tokens_seen": 1268015,
+      "step": 1870
+    },
+    {
+      "epoch": 0.6726296958855098,
+      "grad_norm": 0.48654794692993164,
+      "learning_rate": 6.547406082289803e-05,
+      "loss": 0.3948,
+      "num_input_tokens_seen": 1273256,
+      "step": 1880
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1273256,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 2.863103107394765e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null