Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a27a7c2ec6b774731f6aa003dbe657cf0f987fe25d734da3afab88baa02c39d
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0e8da576de1a533d44f53c0812dae8d5a26fc059f8c242d522e7ff65d9cf742
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:878dd48bd56764e8178656b692092a26f8627ce77d11d5f9b0b03561a5b8d514
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:0793bdd731f1c36630008341e378831fc838bd98c826a69296d2e308eb19cec9
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5535f299045fe8f5c903e1fe89ea07c865852a623fd1578e00cbe2ef4b1aa5e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eed7e63646e60ae2bd56a0754378b43da25eff8bd39e1edda0ec4d07c731eeb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6933cf40adb222251144f8b6059d0312a60442b27edead7b2d2d4edd50c35f13
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e372b046187e477eabb1e557ed274ea206c76e12dfed9a7f7bcfa7ddabfb242a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7167752981185913,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 39.130434782608695,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -877,6 +877,151 @@
       "eval_samples_per_second": 25.341,
       "eval_steps_per_second": 25.341,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -896,7 +1041,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3078822838165504e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7167752981185913,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 45.65217391304348,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.341,
       "eval_steps_per_second": 25.341,
       "step": 900
+    },
+    {
+      "epoch": 39.56521739130435,
+      "grad_norm": 1.403578758239746,
+      "learning_rate": 1.129275730490657e-06,
+      "loss": 0.4353,
+      "step": 910
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.7664737701416016,
+      "learning_rate": 2.258551460981314e-06,
+      "loss": 0.4364,
+      "step": 920
+    },
+    {
+      "epoch": 40.43478260869565,
+      "grad_norm": 1.4606038331985474,
+      "learning_rate": 3.3878271914719706e-06,
+      "loss": 0.5149,
+      "step": 930
+    },
+    {
+      "epoch": 40.869565217391305,
+      "grad_norm": 1.4345122575759888,
+      "learning_rate": 4.517102921962628e-06,
+      "loss": 0.3915,
+      "step": 940
+    },
+    {
+      "epoch": 41.30434782608695,
+      "grad_norm": 1.9893536567687988,
+      "learning_rate": 5.6463786524532845e-06,
+      "loss": 0.4036,
+      "step": 950
+    },
+    {
+      "epoch": 41.73913043478261,
+      "grad_norm": 1.3536087274551392,
+      "learning_rate": 6.775654382943941e-06,
+      "loss": 0.4227,
+      "step": 960
+    },
+    {
+      "epoch": 42.17391304347826,
+      "grad_norm": 1.3940178155899048,
+      "learning_rate": 7.904930113434598e-06,
+      "loss": 0.5038,
+      "step": 970
+    },
+    {
+      "epoch": 42.608695652173914,
+      "grad_norm": 1.3348439931869507,
+      "learning_rate": 9.034205843925256e-06,
+      "loss": 0.4424,
+      "step": 980
+    },
+    {
+      "epoch": 43.04347826086956,
+      "grad_norm": 1.4961334466934204,
+      "learning_rate": 1.0163481574415913e-05,
+      "loss": 0.4336,
+      "step": 990
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 1.2589102983474731,
+      "learning_rate": 1.1292757304906569e-05,
+      "loss": 0.4641,
+      "step": 1000
+    },
+    {
+      "epoch": 43.91304347826087,
+      "grad_norm": 1.1131060123443604,
+      "learning_rate": 1.1292756185884522e-05,
+      "loss": 0.4143,
+      "step": 1010
+    },
+    {
+      "epoch": 44.34782608695652,
+      "grad_norm": 1.8933826684951782,
+      "learning_rate": 1.1292752828818823e-05,
+      "loss": 0.4697,
+      "step": 1020
+    },
+    {
+      "epoch": 44.78260869565217,
+      "grad_norm": 1.4995206594467163,
+      "learning_rate": 1.1292747233710805e-05,
+      "loss": 0.4582,
+      "step": 1030
+    },
+    {
+      "epoch": 45.21739130434783,
+      "grad_norm": 1.1720516681671143,
+      "learning_rate": 1.1292739400562683e-05,
+      "loss": 0.3298,
+      "step": 1040
+    },
+    {
+      "epoch": 45.65217391304348,
+      "grad_norm": 1.5783675909042358,
+      "learning_rate": 1.1292729329377566e-05,
+      "loss": 0.4415,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7320327758789062,
+      "eval_runtime": 0.5007,
+      "eval_samples_per_second": 19.973,
+      "eval_steps_per_second": 19.973,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.8609212040901184,
+      "eval_runtime": 0.425,
+      "eval_samples_per_second": 23.532,
+      "eval_steps_per_second": 23.532,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7320327758789062,
+      "eval_runtime": 0.4019,
+      "eval_samples_per_second": 24.883,
+      "eval_steps_per_second": 24.883,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7223752737045288,
+      "eval_runtime": 0.4083,
+      "eval_samples_per_second": 24.492,
+      "eval_steps_per_second": 24.492,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.8609784245491028,
+      "eval_runtime": 0.4101,
+      "eval_samples_per_second": 24.385,
+      "eval_steps_per_second": 24.385,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.696323352857805e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null