Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +157 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d1255ff8c545d0503c785ed0bd8afaa3475e02ed8adcdbc4ee9b7871c98b31
 size 1198571496

 version https://git-lfs.github.com/spec/v1
+oid sha256:793c130765263750f8f1f131993dc0caa98d39fcab0fc5f563a6523434e118be
 size 1198571496

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0b1780b52a4759f9c8c1eb2328b24981e178f57ad506840f3549feba0a15d96
 size 2397248267

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab3d91af6e674c2b614e85979666a82648a13e9b2459e79faab3976a19519901
 size 2397248267

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:234808e50c5f4f432be493ad718dde9abe206806428ff8453fd78d8f3ea033b9
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c599e781f4e6d1c940117dd009813b60937567b00a20a61337d3fa439b5161a5
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43636f6dccd3c315049e886e6f6481f85291e0d56fde0d6ecff9ae33f4f2662d
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa3a82c280f8eac3ce59fa1481cc6b1d67cb6d85a23dbf36d46bc2e65a799ba4
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 4000,
-  "best_metric": 0.17358896639123886,
-  "best_model_checkpoint": "./byt5-dhivehi-correction/checkpoint-4000",
-  "epoch": 0.3839877123932034,
   "eval_steps": 2000,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -310,6 +310,157 @@
       "eval_samples_per_second": 4.417,
       "eval_steps_per_second": 0.092,
       "step": 4000
     }
   ],
   "logging_steps": 100,
@@ -329,7 +480,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5275117263427584e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 6000,
+  "best_metric": 0.1751142329795809,
+  "best_model_checkpoint": "./byt5-dhivehi-correction/checkpoint-6000",
+  "epoch": 0.5759815685898051,
   "eval_steps": 2000,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.417,
       "eval_steps_per_second": 0.092,
       "step": 4000
+    },
+    {
+      "epoch": 0.3935874052030335,
+      "grad_norm": 0.08163648098707199,
+      "learning_rate": 4.1150290154421164e-05,
+      "loss": 0.0711,
+      "step": 4100
+    },
+    {
+      "epoch": 0.40318709801286357,
+      "grad_norm": 0.1291944980621338,
+      "learning_rate": 4.090439657716141e-05,
+      "loss": 0.0741,
+      "step": 4200
+    },
+    {
+      "epoch": 0.41278679082269365,
+      "grad_norm": 0.1216018944978714,
+      "learning_rate": 4.065850299990164e-05,
+      "loss": 0.0711,
+      "step": 4300
+    },
+    {
+      "epoch": 0.42238648363252373,
+      "grad_norm": 0.07729393988847733,
+      "learning_rate": 4.0412609422641886e-05,
+      "loss": 0.0711,
+      "step": 4400
+    },
+    {
+      "epoch": 0.4319861764423538,
+      "grad_norm": 0.06937304139137268,
+      "learning_rate": 4.016671584538212e-05,
+      "loss": 0.069,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4415858692521839,
+      "grad_norm": 0.0750502273440361,
+      "learning_rate": 3.992082226812236e-05,
+      "loss": 0.0686,
+      "step": 4600
+    },
+    {
+      "epoch": 0.451185562062014,
+      "grad_norm": 0.06546641141176224,
+      "learning_rate": 3.9674928690862595e-05,
+      "loss": 0.0692,
+      "step": 4700
+    },
+    {
+      "epoch": 0.4607852548718441,
+      "grad_norm": 0.08090441673994064,
+      "learning_rate": 3.942903511360283e-05,
+      "loss": 0.0663,
+      "step": 4800
+    },
+    {
+      "epoch": 0.47038494768167416,
+      "grad_norm": 0.06444734334945679,
+      "learning_rate": 3.918314153634307e-05,
+      "loss": 0.0674,
+      "step": 4900
+    },
+    {
+      "epoch": 0.47998464049150424,
+      "grad_norm": 0.07890176773071289,
+      "learning_rate": 3.893724795908331e-05,
+      "loss": 0.0688,
+      "step": 5000
+    },
+    {
+      "epoch": 0.4895843333013344,
+      "grad_norm": 0.07319965213537216,
+      "learning_rate": 3.869135438182355e-05,
+      "loss": 0.0672,
+      "step": 5100
+    },
+    {
+      "epoch": 0.49918402611116447,
+      "grad_norm": 0.06573938578367233,
+      "learning_rate": 3.8445460804563786e-05,
+      "loss": 0.067,
+      "step": 5200
+    },
+    {
+      "epoch": 0.5087837189209945,
+      "grad_norm": 0.0633859932422638,
+      "learning_rate": 3.8199567227304025e-05,
+      "loss": 0.0652,
+      "step": 5300
+    },
+    {
+      "epoch": 0.5183834117308246,
+      "grad_norm": 0.07647623121738434,
+      "learning_rate": 3.795367365004426e-05,
+      "loss": 0.0644,
+      "step": 5400
+    },
+    {
+      "epoch": 0.5279831045406547,
+      "grad_norm": 0.052805762737989426,
+      "learning_rate": 3.77077800727845e-05,
+      "loss": 0.0649,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5375827973504848,
+      "grad_norm": 0.061066884547472,
+      "learning_rate": 3.746188649552474e-05,
+      "loss": 0.0654,
+      "step": 5600
+    },
+    {
+      "epoch": 0.5471824901603148,
+      "grad_norm": 0.06936004012823105,
+      "learning_rate": 3.721599291826498e-05,
+      "loss": 0.0641,
+      "step": 5700
+    },
+    {
+      "epoch": 0.5567821829701449,
+      "grad_norm": 0.05201058089733124,
+      "learning_rate": 3.6970099341005216e-05,
+      "loss": 0.0633,
+      "step": 5800
+    },
+    {
+      "epoch": 0.566381875779975,
+      "grad_norm": 0.0771355852484703,
+      "learning_rate": 3.672420576374545e-05,
+      "loss": 0.0644,
+      "step": 5900
+    },
+    {
+      "epoch": 0.5759815685898051,
+      "grad_norm": 0.0716933161020279,
+      "learning_rate": 3.647831218648569e-05,
+      "loss": 0.062,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5759815685898051,
+      "eval_loss": 0.05111023411154747,
+      "eval_rouge1": 0.17564387777922563,
+      "eval_rouge2": 0.07400287019608529,
+      "eval_rougeL": 0.1751142329795809,
+      "eval_runtime": 2273.0348,
+      "eval_samples_per_second": 4.399,
+      "eval_steps_per_second": 0.092,
+      "step": 6000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5.291200836615168e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null