Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:764348990305a0c0352faa89e8736769c0d238ad2078665aa29fe01daedcbf47
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a6445366fb72dd64a30a112d0cfda302649ce8c29f7108f12ace64035585c67
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec02be8051eecb7fa903a5be0dd57bd83e957d928502ecb4301d03c3b20fb547
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ebbdc69304c59243d4149daaa710b1485f7a643fa3ccf2294412ebf232abae9
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:823b0b5098205a0b28558e0dded4fca169974b462ac985081136e74ff9997e92
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca2a334725c06878338083a325b1190cf2f41e51415271d4e791a39c574e91d1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bc3df46a8b91726d99d86dcfb610586aab9195760e93dc8011c603031432524
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eedbad439d02a3d9e01c697324385512054df489e38825f0e26bf6d99fe88ac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.20700447261333466,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-2000",
-  "epoch": 1.4049877063575693,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -447,6 +447,116 @@
       "eval_samples_per_second": 66.281,
       "eval_steps_per_second": 2.081,
       "step": 2000
     }
   ],
   "logging_steps": 50,
@@ -466,7 +576,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.94843689058304e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.20481644570827484,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-2500",
+  "epoch": 1.7562346329469616,
   "eval_steps": 100,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.281,
       "eval_steps_per_second": 2.081,
       "step": 2000
+    },
+    {
+      "epoch": 1.4401123990165086,
+      "grad_norm": 25767.197265625,
+      "learning_rate": 1.9195361911454674e-05,
+      "loss": 0.2054,
+      "step": 2050
+    },
+    {
+      "epoch": 1.4752370916754478,
+      "grad_norm": 22215.111328125,
+      "learning_rate": 1.893183415319747e-05,
+      "loss": 0.2082,
+      "step": 2100
+    },
+    {
+      "epoch": 1.4752370916754478,
+      "eval_loss": 0.20631250739097595,
+      "eval_runtime": 67.1038,
+      "eval_samples_per_second": 66.464,
+      "eval_steps_per_second": 2.086,
+      "step": 2100
+    },
+    {
+      "epoch": 1.510361784334387,
+      "grad_norm": 27927.373046875,
+      "learning_rate": 1.8668306394940267e-05,
+      "loss": 0.2128,
+      "step": 2150
+    },
+    {
+      "epoch": 1.5454864769933263,
+      "grad_norm": 25635.267578125,
+      "learning_rate": 1.8404778636683066e-05,
+      "loss": 0.2078,
+      "step": 2200
+    },
+    {
+      "epoch": 1.5454864769933263,
+      "eval_loss": 0.20582793653011322,
+      "eval_runtime": 67.2723,
+      "eval_samples_per_second": 66.298,
+      "eval_steps_per_second": 2.081,
+      "step": 2200
+    },
+    {
+      "epoch": 1.5806111696522656,
+      "grad_norm": 25550.1171875,
+      "learning_rate": 1.814125087842586e-05,
+      "loss": 0.2058,
+      "step": 2250
+    },
+    {
+      "epoch": 1.6157358623112048,
+      "grad_norm": 21671.251953125,
+      "learning_rate": 1.787772312016866e-05,
+      "loss": 0.206,
+      "step": 2300
+    },
+    {
+      "epoch": 1.6157358623112048,
+      "eval_loss": 0.2059122622013092,
+      "eval_runtime": 67.4662,
+      "eval_samples_per_second": 66.107,
+      "eval_steps_per_second": 2.075,
+      "step": 2300
+    },
+    {
+      "epoch": 1.650860554970144,
+      "grad_norm": 21685.947265625,
+      "learning_rate": 1.7614195361911453e-05,
+      "loss": 0.2086,
+      "step": 2350
+    },
+    {
+      "epoch": 1.685985247629083,
+      "grad_norm": 24516.828125,
+      "learning_rate": 1.7350667603654252e-05,
+      "loss": 0.2069,
+      "step": 2400
+    },
+    {
+      "epoch": 1.685985247629083,
+      "eval_loss": 0.20495346188545227,
+      "eval_runtime": 67.1671,
+      "eval_samples_per_second": 66.402,
+      "eval_steps_per_second": 2.084,
+      "step": 2400
+    },
+    {
+      "epoch": 1.7211099402880223,
+      "grad_norm": 22610.7734375,
+      "learning_rate": 1.708713984539705e-05,
+      "loss": 0.2052,
+      "step": 2450
+    },
+    {
+      "epoch": 1.7562346329469616,
+      "grad_norm": 35525.84765625,
+      "learning_rate": 1.6823612087139845e-05,
+      "loss": 0.2051,
+      "step": 2500
+    },
+    {
+      "epoch": 1.7562346329469616,
+      "eval_loss": 0.20481644570827484,
+      "eval_runtime": 67.1059,
+      "eval_samples_per_second": 66.462,
+      "eval_steps_per_second": 2.086,
+      "step": 2500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.43560320303104e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null