Training in progress, step 2900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d30664c24582ef426cecc6b2f612244044620e0e06ff3d8452192ed4cfab5c50
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:c68e8c855af7ce029e77d935ea6d50ab8ff65b53f8b732fd62606e6f4e94a3ad
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0696d726d3385b865521f141ae91e2d0fe1f4228ee365d5652aeca808082757c
 size 84571156

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c2475eea7161bda804e44ced84f5d7e8c84b4bd906e8931faacb1cc373043cb
 size 84571156

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7daf2ab93344b5e45e5be1f158d17f8822fd5eb1ed869d193e9975edf4262373
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:acf8464b9ab89c78316db94316b00396d810be7b149368baece7aae5615e5e1c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2f7f0b4bbf49140eb3da3fcb1d2744efcd19eb95f3ae358dfc0793656d28eb9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3efffc0eba4e49da286aa6b0f6ed4fab25a91f90d33362bf2f8dcc327a6a26b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0800385728061717,
   "eval_steps": 100,
-  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2191,6 +2191,84 @@
       "eval_samples_per_second": 54.854,
       "eval_steps_per_second": 6.866,
       "step": 2800
     }
   ],
   "logging_steps": 10,
@@ -2210,7 +2288,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3138015975135642e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1186113789778207,
   "eval_steps": 100,
+  "global_step": 2900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.854,
       "eval_steps_per_second": 6.866,
       "step": 2800
+    },
+    {
+      "epoch": 1.0838958534233365,
+      "grad_norm": 1.879629373550415,
+      "learning_rate": 1.7976797679767978e-05,
+      "loss": 0.4553,
+      "step": 2810
+    },
+    {
+      "epoch": 1.0877531340405016,
+      "grad_norm": 2.0610523223876953,
+      "learning_rate": 1.7951795179517953e-05,
+      "loss": 0.4842,
+      "step": 2820
+    },
+    {
+      "epoch": 1.0916104146576664,
+      "grad_norm": 1.8454833030700684,
+      "learning_rate": 1.792679267926793e-05,
+      "loss": 0.4288,
+      "step": 2830
+    },
+    {
+      "epoch": 1.0954676952748312,
+      "grad_norm": 1.7830801010131836,
+      "learning_rate": 1.79017901790179e-05,
+      "loss": 0.4552,
+      "step": 2840
+    },
+    {
+      "epoch": 1.099324975891996,
+      "grad_norm": 1.7110368013381958,
+      "learning_rate": 1.787678767876788e-05,
+      "loss": 0.4557,
+      "step": 2850
+    },
+    {
+      "epoch": 1.1031822565091611,
+      "grad_norm": 2.69413161277771,
+      "learning_rate": 1.785178517851785e-05,
+      "loss": 0.5252,
+      "step": 2860
+    },
+    {
+      "epoch": 1.107039537126326,
+      "grad_norm": 2.2572829723358154,
+      "learning_rate": 1.7826782678267827e-05,
+      "loss": 0.5042,
+      "step": 2870
+    },
+    {
+      "epoch": 1.1108968177434908,
+      "grad_norm": 2.144115447998047,
+      "learning_rate": 1.7801780178017802e-05,
+      "loss": 0.4615,
+      "step": 2880
+    },
+    {
+      "epoch": 1.1147540983606556,
+      "grad_norm": 1.661698818206787,
+      "learning_rate": 1.7776777677767778e-05,
+      "loss": 0.429,
+      "step": 2890
+    },
+    {
+      "epoch": 1.1186113789778207,
+      "grad_norm": 2.2900257110595703,
+      "learning_rate": 1.7751775177517753e-05,
+      "loss": 0.4651,
+      "step": 2900
+    },
+    {
+      "epoch": 1.1186113789778207,
+      "eval_loss": 0.4993349611759186,
+      "eval_runtime": 94.4361,
+      "eval_samples_per_second": 54.905,
+      "eval_steps_per_second": 6.872,
+      "step": 2900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3606948147288474e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null