Training in progress, epoch 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43bc4ea709fdacfcad21a864c7ef0120d87fb2ee3ef66e8da659ffa444583421
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b0578188a7562ebb3f653a9c172c7aab35806f8a64c735c6b610d5e2438e16f
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e223992d46bbe9bb512da1c3a6b7b0881dd041a1208b6f386d718e1eec40e519
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bd28c218e06e0ddb714109b224f0d2d6ff0943a81c87b19c895d46869fe043e
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e454a17a07c6bd0c2c4504c81830e5f67d059b3b8b8072bf0bd70406421b40e4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e31bad291fd392e01d851c04b44cf7cac0f5f8b28830534382ca16e10c847e7a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8666902435ebb9a3dd0fa595302755da0514dc6e613fbd4ffe9dc07747cb90f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac3125827e91c83a2b02ffbd5e22748b751677850854e358e914d72d2a70c5e5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 34.75983428955078,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-11745",
-  "epoch": 9.0,
   "eval_steps": 500,
-  "global_step": 11745,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -898,6 +898,105 @@
       "eval_samples_per_second": 26.446,
       "eval_steps_per_second": 3.323,
       "step": 11745
     }
   ],
   "logging_steps": 100,
@@ -926,7 +1025,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2665798127424512e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 34.700294494628906,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-13050",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 13050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.446,
       "eval_steps_per_second": 3.323,
       "step": 11745
+    },
+    {
+      "epoch": 9.042145593869732,
+      "grad_norm": 6.431031703948975,
+      "learning_rate": 4.4351053639846745e-05,
+      "loss": 33.6431,
+      "step": 11800
+    },
+    {
+      "epoch": 9.118773946360154,
+      "grad_norm": 3.262486457824707,
+      "learning_rate": 4.430316091954023e-05,
+      "loss": 32.9398,
+      "step": 11900
+    },
+    {
+      "epoch": 9.195402298850574,
+      "grad_norm": 1.945741057395935,
+      "learning_rate": 4.425526819923372e-05,
+      "loss": 32.7256,
+      "step": 12000
+    },
+    {
+      "epoch": 9.272030651340996,
+      "grad_norm": 5.09276008605957,
+      "learning_rate": 4.4207375478927205e-05,
+      "loss": 33.9015,
+      "step": 12100
+    },
+    {
+      "epoch": 9.348659003831418,
+      "grad_norm": 3.785059928894043,
+      "learning_rate": 4.415948275862069e-05,
+      "loss": 33.6765,
+      "step": 12200
+    },
+    {
+      "epoch": 9.425287356321839,
+      "grad_norm": 2.4255340099334717,
+      "learning_rate": 4.411159003831418e-05,
+      "loss": 33.1262,
+      "step": 12300
+    },
+    {
+      "epoch": 9.50191570881226,
+      "grad_norm": 5.869349479675293,
+      "learning_rate": 4.4063697318007666e-05,
+      "loss": 33.2205,
+      "step": 12400
+    },
+    {
+      "epoch": 9.578544061302683,
+      "grad_norm": 2.361865997314453,
+      "learning_rate": 4.4015804597701146e-05,
+      "loss": 34.0441,
+      "step": 12500
+    },
+    {
+      "epoch": 9.655172413793103,
+      "grad_norm": 2.6989896297454834,
+      "learning_rate": 4.396791187739464e-05,
+      "loss": 33.6812,
+      "step": 12600
+    },
+    {
+      "epoch": 9.731800766283525,
+      "grad_norm": 2.6094741821289062,
+      "learning_rate": 4.3920019157088127e-05,
+      "loss": 33.9178,
+      "step": 12700
+    },
+    {
+      "epoch": 9.808429118773946,
+      "grad_norm": 2.4616310596466064,
+      "learning_rate": 4.3872126436781613e-05,
+      "loss": 34.5233,
+      "step": 12800
+    },
+    {
+      "epoch": 9.885057471264368,
+      "grad_norm": 2.7729408740997314,
+      "learning_rate": 4.38242337164751e-05,
+      "loss": 33.378,
+      "step": 12900
+    },
+    {
+      "epoch": 9.96168582375479,
+      "grad_norm": 2.5230519771575928,
+      "learning_rate": 4.377634099616859e-05,
+      "loss": 33.442,
+      "step": 13000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 34.700294494628906,
+      "eval_runtime": 49.2926,
+      "eval_samples_per_second": 26.475,
+      "eval_steps_per_second": 3.327,
+      "step": 13050
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.407310903047168e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null