Training in progress, epoch 25, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:042139fdd65771f5b0b7308a2f417f55545abb2e4526ac63abae75562bc1ba38
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebf6b113805e8d5c18f20cc3a7f743cea1ac029ed8f4448a7b46de82a6c516e9
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfff17389b523f38117b38d88e821ea6445c02dd357105f6f1ae677afbba8082
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:7534969a274bb3fa8023a906c28ee9fb96fa28e85e22f56fbd7e7b549d41dd80
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:757d904eb6af9ff171fa4920de86211e4579188ed035d00ce1124e203a605855
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f7a8d60a2f79f9fed2cea73d23dd3dfda5f5e479acfb4213a6f2e863cb76904
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8963a103756502091940dcb6256fb47e583c349918f9cb8e5f151486ec5304af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cbd4af8c4ab3cb75893cf7c4c12466d6c795077167416da697449ce4a12b474
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 34.53865432739258,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-28710",
-  "epoch": 23.0,
   "eval_steps": 500,
-  "global_step": 30015,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2291,6 +2291,204 @@
       "eval_samples_per_second": 26.45,
       "eval_steps_per_second": 3.324,
       "step": 30015
     }
   ],
   "logging_steps": 100,
@@ -2305,7 +2503,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -2319,7 +2517,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2368150770084864e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 34.53865432739258,
   "best_model_checkpoint": "/kaggle/working/output/checkpoint-28710",
+  "epoch": 25.0,
   "eval_steps": 500,
+  "global_step": 32625,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.45,
       "eval_steps_per_second": 3.324,
       "step": 30015
+    },
+    {
+      "epoch": 23.06513409961686,
+      "grad_norm": 1.9898459911346436,
+      "learning_rate": 3.559099616858237e-05,
+      "loss": 33.2659,
+      "step": 30100
+    },
+    {
+      "epoch": 23.14176245210728,
+      "grad_norm": 3.3541698455810547,
+      "learning_rate": 3.554310344827587e-05,
+      "loss": 33.4747,
+      "step": 30200
+    },
+    {
+      "epoch": 23.2183908045977,
+      "grad_norm": 2.298229694366455,
+      "learning_rate": 3.5495210727969354e-05,
+      "loss": 33.8791,
+      "step": 30300
+    },
+    {
+      "epoch": 23.295019157088124,
+      "grad_norm": 3.9336183071136475,
+      "learning_rate": 3.544731800766284e-05,
+      "loss": 33.8427,
+      "step": 30400
+    },
+    {
+      "epoch": 23.371647509578544,
+      "grad_norm": 2.9286720752716064,
+      "learning_rate": 3.539942528735633e-05,
+      "loss": 33.9572,
+      "step": 30500
+    },
+    {
+      "epoch": 23.448275862068964,
+      "grad_norm": 2.9716665744781494,
+      "learning_rate": 3.5351532567049814e-05,
+      "loss": 32.5295,
+      "step": 30600
+    },
+    {
+      "epoch": 23.52490421455939,
+      "grad_norm": 3.5073654651641846,
+      "learning_rate": 3.5303639846743294e-05,
+      "loss": 33.3511,
+      "step": 30700
+    },
+    {
+      "epoch": 23.60153256704981,
+      "grad_norm": 4.5670084953308105,
+      "learning_rate": 3.525574712643678e-05,
+      "loss": 33.4249,
+      "step": 30800
+    },
+    {
+      "epoch": 23.67816091954023,
+      "grad_norm": 2.563405990600586,
+      "learning_rate": 3.520785440613027e-05,
+      "loss": 33.821,
+      "step": 30900
+    },
+    {
+      "epoch": 23.754789272030653,
+      "grad_norm": 3.5928332805633545,
+      "learning_rate": 3.5159961685823755e-05,
+      "loss": 32.9252,
+      "step": 31000
+    },
+    {
+      "epoch": 23.831417624521073,
+      "grad_norm": 3.2677550315856934,
+      "learning_rate": 3.511206896551724e-05,
+      "loss": 33.4694,
+      "step": 31100
+    },
+    {
+      "epoch": 23.908045977011493,
+      "grad_norm": 3.8751015663146973,
+      "learning_rate": 3.506417624521073e-05,
+      "loss": 32.7835,
+      "step": 31200
+    },
+    {
+      "epoch": 23.984674329501917,
+      "grad_norm": 3.955101490020752,
+      "learning_rate": 3.5016283524904216e-05,
+      "loss": 32.6658,
+      "step": 31300
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 34.550262451171875,
+      "eval_runtime": 49.3313,
+      "eval_samples_per_second": 26.454,
+      "eval_steps_per_second": 3.324,
+      "step": 31320
+    },
+    {
+      "epoch": 24.061302681992338,
+      "grad_norm": 3.885087013244629,
+      "learning_rate": 3.49683908045977e-05,
+      "loss": 33.5285,
+      "step": 31400
+    },
+    {
+      "epoch": 24.137931034482758,
+      "grad_norm": 8.908398628234863,
+      "learning_rate": 3.4920977011494254e-05,
+      "loss": 33.1673,
+      "step": 31500
+    },
+    {
+      "epoch": 24.21455938697318,
+      "grad_norm": 4.042150974273682,
+      "learning_rate": 3.487308429118774e-05,
+      "loss": 33.0384,
+      "step": 31600
+    },
+    {
+      "epoch": 24.291187739463602,
+      "grad_norm": 4.992551803588867,
+      "learning_rate": 3.482519157088123e-05,
+      "loss": 33.7439,
+      "step": 31700
+    },
+    {
+      "epoch": 24.367816091954023,
+      "grad_norm": 5.118918418884277,
+      "learning_rate": 3.4777298850574715e-05,
+      "loss": 33.5604,
+      "step": 31800
+    },
+    {
+      "epoch": 24.444444444444443,
+      "grad_norm": 3.2756083011627197,
+      "learning_rate": 3.47294061302682e-05,
+      "loss": 33.6225,
+      "step": 31900
+    },
+    {
+      "epoch": 24.521072796934867,
+      "grad_norm": 2.9864351749420166,
+      "learning_rate": 3.468151340996169e-05,
+      "loss": 34.0539,
+      "step": 32000
+    },
+    {
+      "epoch": 24.597701149425287,
+      "grad_norm": 2.945171356201172,
+      "learning_rate": 3.463362068965517e-05,
+      "loss": 33.2655,
+      "step": 32100
+    },
+    {
+      "epoch": 24.674329501915707,
+      "grad_norm": 4.09877347946167,
+      "learning_rate": 3.4585727969348656e-05,
+      "loss": 33.239,
+      "step": 32200
+    },
+    {
+      "epoch": 24.75095785440613,
+      "grad_norm": 3.7949306964874268,
+      "learning_rate": 3.453783524904215e-05,
+      "loss": 32.7246,
+      "step": 32300
+    },
+    {
+      "epoch": 24.82758620689655,
+      "grad_norm": 3.8750340938568115,
+      "learning_rate": 3.4489942528735636e-05,
+      "loss": 32.5477,
+      "step": 32400
+    },
+    {
+      "epoch": 24.904214559386972,
+      "grad_norm": 3.84676456451416,
+      "learning_rate": 3.444204980842912e-05,
+      "loss": 33.5781,
+      "step": 32500
+    },
+    {
+      "epoch": 24.980842911877396,
+      "grad_norm": 2.3316519260406494,
+      "learning_rate": 3.439415708812261e-05,
+      "loss": 33.0241,
+      "step": 32600
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 34.565101623535156,
+      "eval_runtime": 49.343,
+      "eval_samples_per_second": 26.448,
+      "eval_steps_per_second": 3.324,
+      "step": 32625
     }
   ],
   "logging_steps": 100,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.51827725761792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null