Training in progress, step 4200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cee57ad0381bc1b055cba8019e3874d3d51ea7718ee34053bb8a093241cdc0ca
 size 1482788592

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4c395680d89b01821da1bb33984f1c2e9553029f87090f8cd3c027b66de846e
 size 1482788592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96ef3fe806149fc64c6859504d4f7f7bd12ece1c70eebd5bc5f528bccee2fb8f
 size 2897966842

 version https://git-lfs.github.com/spec/v1
+oid sha256:99f6515a9eba4ffb6aed2e9196810686af54d3882ecef9ebccbe475775dec4c1
 size 2897966842

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc5e70602abcdd87279e45b3ea66eb0df7e6c6689b3fc21feb99b888c0268021
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2aba1e092bb5e9c7cb4142b16fd16e351b46865a4a17fbe78a8e97a303f189e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f678cfbe535c0958633b7acde2a94c53563cd625fa79dcdd0634f74c4367210
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba021163979d3718a3a614ea92e798f442b4a1460b3153e40b61917eeda84568
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2179657220840454,
-  "best_model_checkpoint": "./output/checkpoint-4050",
-  "epoch": 0.2676977989292088,
   "eval_steps": 150,
-  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3058,6 +3058,119 @@
       "eval_samples_per_second": 9.415,
       "eval_steps_per_second": 9.415,
       "step": 4050
     }
   ],
   "logging_steps": 10,
@@ -3077,7 +3190,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8018239306596352e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2168010473251343,
+  "best_model_checkpoint": "./output/checkpoint-4200",
+  "epoch": 0.2776125322228832,
   "eval_steps": 150,
+  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.415,
       "eval_steps_per_second": 9.415,
       "step": 4050
+    },
+    {
+      "epoch": 0.2683587811487871,
+      "grad_norm": 11.658596992492676,
+      "learning_rate": 1.9697137208823396e-06,
+      "loss": 1.172,
+      "step": 4060
+    },
+    {
+      "epoch": 0.2690197633683654,
+      "grad_norm": 5.082404613494873,
+      "learning_rate": 1.9292707397221775e-06,
+      "loss": 1.1331,
+      "step": 4070
+    },
+    {
+      "epoch": 0.2696807455879437,
+      "grad_norm": 13.126559257507324,
+      "learning_rate": 1.8892080337807171e-06,
+      "loss": 1.1899,
+      "step": 4080
+    },
+    {
+      "epoch": 0.27034172780752197,
+      "grad_norm": 11.264731407165527,
+      "learning_rate": 1.8495272498788887e-06,
+      "loss": 1.0929,
+      "step": 4090
+    },
+    {
+      "epoch": 0.27100271002710025,
+      "grad_norm": 12.232498168945312,
+      "learning_rate": 1.8102300191383008e-06,
+      "loss": 1.1517,
+      "step": 4100
+    },
+    {
+      "epoch": 0.2716636922466786,
+      "grad_norm": 6.517210483551025,
+      "learning_rate": 1.7713179569141897e-06,
+      "loss": 1.1451,
+      "step": 4110
+    },
+    {
+      "epoch": 0.27232467446625686,
+      "grad_norm": 10.073516845703125,
+      "learning_rate": 1.7327926627290298e-06,
+      "loss": 1.1757,
+      "step": 4120
+    },
+    {
+      "epoch": 0.27298565668583513,
+      "grad_norm": 10.904183387756348,
+      "learning_rate": 1.6946557202067662e-06,
+      "loss": 1.201,
+      "step": 4130
+    },
+    {
+      "epoch": 0.27364663890541346,
+      "grad_norm": 9.502151489257812,
+      "learning_rate": 1.6569086970077352e-06,
+      "loss": 1.1649,
+      "step": 4140
+    },
+    {
+      "epoch": 0.27430762112499174,
+      "grad_norm": 12.71923542022705,
+      "learning_rate": 1.6195531447642177e-06,
+      "loss": 1.2048,
+      "step": 4150
+    },
+    {
+      "epoch": 0.27496860334457,
+      "grad_norm": 13.27767562866211,
+      "learning_rate": 1.582590599016653e-06,
+      "loss": 1.0894,
+      "step": 4160
+    },
+    {
+      "epoch": 0.27562958556414835,
+      "grad_norm": 12.859643936157227,
+      "learning_rate": 1.5460225791505258e-06,
+      "loss": 1.1565,
+      "step": 4170
+    },
+    {
+      "epoch": 0.2762905677837266,
+      "grad_norm": 6.589792728424072,
+      "learning_rate": 1.509850588333905e-06,
+      "loss": 1.0296,
+      "step": 4180
+    },
+    {
+      "epoch": 0.2769515500033049,
+      "grad_norm": 13.752243995666504,
+      "learning_rate": 1.4740761134556557e-06,
+      "loss": 1.312,
+      "step": 4190
+    },
+    {
+      "epoch": 0.2776125322228832,
+      "grad_norm": 12.691303253173828,
+      "learning_rate": 1.4387006250643236e-06,
+      "loss": 1.1494,
+      "step": 4200
+    },
+    {
+      "epoch": 0.2776125322228832,
+      "eval_loss": 1.2168010473251343,
+      "eval_runtime": 51.4283,
+      "eval_samples_per_second": 9.742,
+      "eval_steps_per_second": 9.742,
+      "step": 4200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.9003778620227584e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null