Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44c160d59362d9998e9102b16a7c722555cc9a3b87d2a24bd56cfa2e1406fd59
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca76f47f61e6294ad679314dbfbcce80d0fe37e1c0461e75d714ddb535f5da79
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5b27372b9255f1e87b65fe832eb4ea027e48ccbfe3973c3339a67d4e77ed6bb
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa76e92f4b693debfd6dc410477c70a9606cc7c9bbe0490fcd9f2d6361e7ead5
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5535f299045fe8f5c903e1fe89ea07c865852a623fd1578e00cbe2ef4b1aa5e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eed7e63646e60ae2bd56a0754378b43da25eff8bd39e1edda0ec4d07c731eeb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15e38fc7cb67eb5df095ca277e8495019522abe02c611f770970f2de2af01dea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6548eb58d62e7512c294251f1e8c024e396ed51c9a6b80ba70928a1cdaee6c7f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 39.130434782608695,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -877,6 +877,151 @@
       "eval_samples_per_second": 22.563,
       "eval_steps_per_second": 22.563,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -896,7 +1041,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3078822838165504e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7168284058570862,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 45.65217391304348,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.563,
       "eval_steps_per_second": 22.563,
       "step": 900
+    },
+    {
+      "epoch": 39.56521739130435,
+      "grad_norm": 1.4088988304138184,
+      "learning_rate": 1.1307389750804807e-06,
+      "loss": 0.4355,
+      "step": 910
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 2.766087532043457,
+      "learning_rate": 2.2614779501609614e-06,
+      "loss": 0.436,
+      "step": 920
+    },
+    {
+      "epoch": 40.43478260869565,
+      "grad_norm": 1.4608732461929321,
+      "learning_rate": 3.392216925241442e-06,
+      "loss": 0.5145,
+      "step": 930
+    },
+    {
+      "epoch": 40.869565217391305,
+      "grad_norm": 1.435799241065979,
+      "learning_rate": 4.522955900321923e-06,
+      "loss": 0.3916,
+      "step": 940
+    },
+    {
+      "epoch": 41.30434782608695,
+      "grad_norm": 1.9943156242370605,
+      "learning_rate": 5.653694875402403e-06,
+      "loss": 0.4035,
+      "step": 950
+    },
+    {
+      "epoch": 41.73913043478261,
+      "grad_norm": 1.3566862344741821,
+      "learning_rate": 6.784433850482884e-06,
+      "loss": 0.4228,
+      "step": 960
+    },
+    {
+      "epoch": 42.17391304347826,
+      "grad_norm": 1.3916350603103638,
+      "learning_rate": 7.915172825563364e-06,
+      "loss": 0.5037,
+      "step": 970
+    },
+    {
+      "epoch": 42.608695652173914,
+      "grad_norm": 1.3377119302749634,
+      "learning_rate": 9.045911800643846e-06,
+      "loss": 0.4422,
+      "step": 980
+    },
+    {
+      "epoch": 43.04347826086956,
+      "grad_norm": 1.5022424459457397,
+      "learning_rate": 1.0176650775724327e-05,
+      "loss": 0.4335,
+      "step": 990
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 1.2574431896209717,
+      "learning_rate": 1.1307389750804806e-05,
+      "loss": 0.4644,
+      "step": 1000
+    },
+    {
+      "epoch": 43.91304347826087,
+      "grad_norm": 1.1123943328857422,
+      "learning_rate": 1.1307388630332802e-05,
+      "loss": 0.414,
+      "step": 1010
+    },
+    {
+      "epoch": 44.34782608695652,
+      "grad_norm": 1.9059613943099976,
+      "learning_rate": 1.1307385268917228e-05,
+      "loss": 0.4696,
+      "step": 1020
+    },
+    {
+      "epoch": 44.78260869565217,
+      "grad_norm": 1.5019381046295166,
+      "learning_rate": 1.1307379666559419e-05,
+      "loss": 0.4581,
+      "step": 1030
+    },
+    {
+      "epoch": 45.21739130434783,
+      "grad_norm": 1.169459342956543,
+      "learning_rate": 1.1307371823261596e-05,
+      "loss": 0.33,
+      "step": 1040
+    },
+    {
+      "epoch": 45.65217391304348,
+      "grad_norm": 1.5735044479370117,
+      "learning_rate": 1.130736173902687e-05,
+      "loss": 0.4415,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7305982708930969,
+      "eval_runtime": 0.4644,
+      "eval_samples_per_second": 21.532,
+      "eval_steps_per_second": 21.532,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.8616224527359009,
+      "eval_runtime": 0.4337,
+      "eval_samples_per_second": 23.059,
+      "eval_steps_per_second": 23.059,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7305982708930969,
+      "eval_runtime": 0.4105,
+      "eval_samples_per_second": 24.359,
+      "eval_steps_per_second": 24.359,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.723252534866333,
+      "eval_runtime": 0.3944,
+      "eval_samples_per_second": 25.352,
+      "eval_steps_per_second": 25.352,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.8612099885940552,
+      "eval_runtime": 0.3961,
+      "eval_samples_per_second": 25.244,
+      "eval_steps_per_second": 25.244,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.696323352857805e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null