Latest checkpoint (step 13000)

Browse files

Files changed (6) hide show

checkpoint-latest/adapter_model.safetensors +1 -1
checkpoint-latest/optimizer.pt +1 -1
checkpoint-latest/rng_state.pth +1 -1
checkpoint-latest/scheduler.pt +1 -1
checkpoint-latest/trainer_state.json +131 -3
checkpoint-latest/training_metrics.json +50 -50

checkpoint-latest/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c75a7b6500f668420328e5064892a57588ede668a752b8e65610afad5d2a844
 size 7098016

 version https://git-lfs.github.com/spec/v1
+oid sha256:d11ec0a17acf750db437799bc80d1a2b9d6c8e4c600859e3c5ed67537cb503e7
 size 7098016

checkpoint-latest/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:297257d1b5066c7efe02366005386e610020a8122a08f3cb7c43bb60e6037e07
 size 14277259

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9e4992c32ab2fe8569b7714e9dc6297aa9204b9453065fabb7cc100bb1a6af3
 size 14277259

checkpoint-latest/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7f41050d1acaa3ed4a9e37bedc427799f650ec5640cc96982536cba4dbcd081
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:afb5dee99676843adef33a180fbff383b90ecfe64b37d99b77a2c819b85ba663
 size 14645

checkpoint-latest/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2316a7428e94930457fe075f6934df08a523a4ed19225b8d13b30505b5beee7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:241a1effee64c67d4a8f871310906ab4404335a122c053b27e3a2c4c5480249a
 size 1465

checkpoint-latest/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.5003042221069336,
   "best_model_checkpoint": "./t5_checkpoints_full/checkpoint-1000",
-  "epoch": 1.8819101387908728,
   "eval_steps": 1000,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1543,6 +1543,134 @@
       "eval_samples_per_second": 119.615,
       "eval_steps_per_second": 7.484,
       "step": 12000
     }
   ],
   "logging_steps": 50,
@@ -1550,7 +1678,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
-  "total_flos": 2.3592534089977037e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.5003042221069336,
   "best_model_checkpoint": "./t5_checkpoints_full/checkpoint-1000",
+  "epoch": 2.038735983690112,
   "eval_steps": 1000,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 119.615,
       "eval_steps_per_second": 7.484,
       "step": 12000
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011627657290100923,
+      "loss": 1.3686,
+      "step": 12050
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011547133347648699,
+      "loss": 1.3721,
+      "step": 12100
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00011466609405196477,
+      "loss": 1.3638,
+      "step": 12150
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00011386085462744256,
+      "loss": 1.375,
+      "step": 12200
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00011305561520292033,
+      "loss": 1.3774,
+      "step": 12250
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00011226648056688854,
+      "loss": 1.3897,
+      "step": 12300
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00011146124114236632,
+      "loss": 1.369,
+      "step": 12350
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 1.8621,
+      "step": 12400
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12450
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12500
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12550
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12600
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12650
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12700
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12750
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12800
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12850
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12900
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 12950
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00011089757354520076,
+      "loss": 0.0,
+      "step": 13000
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": NaN,
+      "eval_runtime": 93.4731,
+      "eval_samples_per_second": 121.233,
+      "eval_steps_per_second": 7.585,
+      "step": 13000
     }
   ],
   "logging_steps": 50,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 1000,
+  "total_flos": 2.5558409639205274e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

checkpoint-latest/training_metrics.json CHANGED Viewed

@@ -1,90 +1,90 @@
 {
-  "step": 12000,
-  "epoch": 1.8819101387908728,
   "best_eval_loss": 0.5003042221069336,
-  "checkpoint_number": 12,
   "recent_metrics": [
     {
-      "step": 11600,
-      "epoch": 1.82,
-      "loss": 1.3655,
-      "learning_rate": 0.00012344320377925702,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
-      "step": 11650,
-      "epoch": 1.83,
-      "loss": 1.3702,
-      "learning_rate": 0.0001226379643547348,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
-      "step": 11700,
-      "epoch": 1.83,
-      "loss": 1.3929,
-      "learning_rate": 0.00012184882971870302,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
-      "step": 11750,
-      "epoch": 1.84,
-      "loss": 1.3611,
-      "learning_rate": 0.00012104359029418079,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
-      "step": 11800,
-      "epoch": 1.85,
-      "loss": 1.37,
-      "learning_rate": 0.00012023835086965857,
       "gpu_memory_gb": 0.8661794662475586,
-      "system_memory_percent": 6.9
     },
     {
-      "step": 11850,
-      "epoch": 1.86,
-      "loss": 1.4018,
-      "learning_rate": 0.00011946532102211722,
       "gpu_memory_gb": 0.8661794662475586,
-      "system_memory_percent": 6.9
     },
     {
-      "step": 11900,
-      "epoch": 1.87,
-      "loss": 1.3757,
-      "learning_rate": 0.000118660081597595,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
-      "step": 11950,
-      "epoch": 1.87,
-      "loss": 1.3949,
-      "learning_rate": 0.00011788705175005367,
       "gpu_memory_gb": 0.8661794662475586,
-      "system_memory_percent": 6.9
     },
     {
-      "step": 12000,
-      "epoch": 1.88,
-      "loss": 1.3671,
-      "learning_rate": 0.00011708181232553145,
       "gpu_memory_gb": 0.8661794662475586,
-      "system_memory_percent": 6.9
     },
     {
-      "step": 12000,
-      "epoch": 1.88,
-      "eval_loss": 1.1848528385162354,
-      "eval_runtime": 94.7376,
-      "eval_samples_per_second": 119.615,
-      "eval_steps_per_second": 7.484,
       "gpu_memory_gb": 0.8661794662475586,
-      "system_memory_percent": 6.9
     }
   ]
 }

 {
+  "step": 13000,
+  "epoch": 2.038735983690112,
   "best_eval_loss": 0.5003042221069336,
+  "checkpoint_number": 13,
   "recent_metrics": [
     {
+      "step": 12600,
+      "epoch": 1.98,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
+      "step": 12650,
+      "epoch": 1.98,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
+      "step": 12700,
+      "epoch": 1.99,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
+      "step": 12750,
+      "epoch": 2.0,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
+      "step": 12800,
+      "epoch": 2.01,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
+      "system_memory_percent": 7.1
     },
     {
+      "step": 12850,
+      "epoch": 2.02,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
+      "system_memory_percent": 7.0
     },
     {
+      "step": 12900,
+      "epoch": 2.02,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
       "system_memory_percent": 6.9
     },
     {
+      "step": 12950,
+      "epoch": 2.03,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
+      "system_memory_percent": 7.0
     },
     {
+      "step": 13000,
+      "epoch": 2.04,
+      "loss": 0.0,
+      "learning_rate": 0.00011089757354520076,
       "gpu_memory_gb": 0.8661794662475586,
+      "system_memory_percent": 7.0
     },
     {
+      "step": 13000,
+      "epoch": 2.04,
+      "eval_loss": NaN,
+      "eval_runtime": 93.4731,
+      "eval_samples_per_second": 121.233,
+      "eval_steps_per_second": 7.585,
       "gpu_memory_gb": 0.8661794662475586,
+      "system_memory_percent": 7.0
     }
   ]
 }