Training in progress, epoch 6, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aa70a72406dc314a7a6607fa65812257c8bbb207a37efc9a6e94d5f334bd124
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5c3b0654a55323c3fcee30e714ee2d676246a3bfc98cc5f49a21c0197bf7658
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32017c7cd933df8911a1ed535f5c24cba349c05ff6dc9a24103d3b36c925e465
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebc195ac9c4196031197946a0392714b3efeebd00756085187f31f1fca6860db
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d33f3dbdb9b3f7dde1b012b4c45dfa6f4e834ae52f1442515a3bb9195da78f3
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d98d2e99b55542cf6b1c45f3a424a53b2fc65122f42198a9dbcf07ba8693c50
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7442667663c027a23a41cfa011998a53a2269770ba7bdaf3adc5d3d98600b2d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:13dc37c47f5922c1d1c30342794206ae261a0947af887e4fc89421ae169d8074
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.999310740953475,
   "eval_steps": 50,
-  "global_step": 1632,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -487,6 +487,96 @@
       "eval_samples_per_second": 41.606,
       "eval_steps_per_second": 20.803,
       "step": 1600
     }
   ],
   "logging_steps": 50,
@@ -506,7 +596,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.210910899071877e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.999195864445721,
   "eval_steps": 50,
+  "global_step": 1904,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.606,
       "eval_steps_per_second": 20.803,
       "step": 1600
+    },
+    {
+      "epoch": 6.0654796094198735,
+      "grad_norm": 47.59389877319336,
+      "learning_rate": 3.933823529411765e-05,
+      "loss": 0.8925,
+      "step": 1650
+    },
+    {
+      "epoch": 6.0654796094198735,
+      "eval_loss": 1.2326780557632446,
+      "eval_runtime": 116.7248,
+      "eval_samples_per_second": 41.345,
+      "eval_steps_per_second": 20.673,
+      "step": 1650
+    },
+    {
+      "epoch": 6.249282021826536,
+      "grad_norm": 45.18083190917969,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.8771,
+      "step": 1700
+    },
+    {
+      "epoch": 6.249282021826536,
+      "eval_loss": 1.2302526235580444,
+      "eval_runtime": 115.8769,
+      "eval_samples_per_second": 41.648,
+      "eval_steps_per_second": 20.824,
+      "step": 1700
+    },
+    {
+      "epoch": 6.4330844342332,
+      "grad_norm": 40.455318450927734,
+      "learning_rate": 3.566176470588235e-05,
+      "loss": 0.8743,
+      "step": 1750
+    },
+    {
+      "epoch": 6.4330844342332,
+      "eval_loss": 1.2299398183822632,
+      "eval_runtime": 115.9106,
+      "eval_samples_per_second": 41.636,
+      "eval_steps_per_second": 20.818,
+      "step": 1750
+    },
+    {
+      "epoch": 6.616886846639862,
+      "grad_norm": 61.713111877441406,
+      "learning_rate": 3.382352941176471e-05,
+      "loss": 0.8735,
+      "step": 1800
+    },
+    {
+      "epoch": 6.616886846639862,
+      "eval_loss": 1.2240906953811646,
+      "eval_runtime": 116.0411,
+      "eval_samples_per_second": 41.589,
+      "eval_steps_per_second": 20.794,
+      "step": 1800
+    },
+    {
+      "epoch": 6.800689259046525,
+      "grad_norm": 69.22649383544922,
+      "learning_rate": 3.198529411764706e-05,
+      "loss": 0.8648,
+      "step": 1850
+    },
+    {
+      "epoch": 6.800689259046525,
+      "eval_loss": 1.2253305912017822,
+      "eval_runtime": 115.8996,
+      "eval_samples_per_second": 41.639,
+      "eval_steps_per_second": 20.82,
+      "step": 1850
+    },
+    {
+      "epoch": 6.9844916714531875,
+      "grad_norm": 65.4384994506836,
+      "learning_rate": 3.0147058823529413e-05,
+      "loss": 0.8649,
+      "step": 1900
+    },
+    {
+      "epoch": 6.9844916714531875,
+      "eval_loss": 1.2292358875274658,
+      "eval_runtime": 116.0285,
+      "eval_samples_per_second": 41.593,
+      "eval_steps_per_second": 20.797,
+      "step": 1900
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.912264077125878e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null