Training in progress, epoch 7, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +104 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20c40f891a6ad2cd6bdb721e2f111292589ff390313316ee8f0d082edb0b9b03
 size 1227009528

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed8ae4ab42781745b2126513149381b5b6ff7214663e4449b01b2359d8311e3a
 size 1227009528

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97e7d057f22cb8197d547d1ed0d192390fd1e34fb36aa35aa6b76f03d0e2f9d9
 size 2454133690

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac9434c970128034aa8822b8a0401c794db85187656338f45cc845953009b5b3
 size 2454133690

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe7c95ba6d299e128ae454cc0731e509722836b2913c0cc0546da0aa648a6383
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7565598da56842799ee28845bb7d5540de84da2eb38da30890faa373e17c3ad
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a099afb4d9a9c6bf9e5e93d59bc1aa866f860cc49e0492bfafa53bc834b220ce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c0cd9d4d4eb26e88d5f90eed6823e5f94040581f03708c992959bc0b84c560f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 34.841033935546875,
-  "best_model_checkpoint": "/kaggle/working/output/checkpoint-7830",
-  "epoch": 6.0,
   "eval_steps": 500,
-  "global_step": 7830,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -601,6 +601,105 @@
       "eval_samples_per_second": 26.467,
       "eval_steps_per_second": 3.326,
       "step": 7830
     }
   ],
   "logging_steps": 100,
@@ -629,7 +728,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8443865418283008.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 34.818748474121094,
+  "best_model_checkpoint": "/kaggle/working/output/checkpoint-9135",
+  "epoch": 7.0,
   "eval_steps": 500,
+  "global_step": 9135,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 26.467,
       "eval_steps_per_second": 3.326,
       "step": 7830
+    },
+    {
+      "epoch": 6.053639846743295,
+      "grad_norm": 2.996056079864502,
+      "learning_rate": 4.6218390804597705e-05,
+      "loss": 33.631,
+      "step": 7900
+    },
+    {
+      "epoch": 6.130268199233717,
+      "grad_norm": 3.3260300159454346,
+      "learning_rate": 4.617049808429119e-05,
+      "loss": 33.9222,
+      "step": 8000
+    },
+    {
+      "epoch": 6.206896551724138,
+      "grad_norm": 2.214486598968506,
+      "learning_rate": 4.612260536398468e-05,
+      "loss": 32.9576,
+      "step": 8100
+    },
+    {
+      "epoch": 6.283524904214559,
+      "grad_norm": 3.6611664295196533,
+      "learning_rate": 4.6074712643678166e-05,
+      "loss": 33.5231,
+      "step": 8200
+    },
+    {
+      "epoch": 6.360153256704981,
+      "grad_norm": 2.582730770111084,
+      "learning_rate": 4.602681992337165e-05,
+      "loss": 33.6936,
+      "step": 8300
+    },
+    {
+      "epoch": 6.436781609195402,
+      "grad_norm": 2.739861488342285,
+      "learning_rate": 4.597892720306514e-05,
+      "loss": 33.3997,
+      "step": 8400
+    },
+    {
+      "epoch": 6.513409961685824,
+      "grad_norm": 2.2102463245391846,
+      "learning_rate": 4.593103448275862e-05,
+      "loss": 33.9374,
+      "step": 8500
+    },
+    {
+      "epoch": 6.590038314176245,
+      "grad_norm": 3.83150577545166,
+      "learning_rate": 4.5883141762452106e-05,
+      "loss": 33.9961,
+      "step": 8600
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 3.981616735458374,
+      "learning_rate": 4.583524904214559e-05,
+      "loss": 33.5413,
+      "step": 8700
+    },
+    {
+      "epoch": 6.743295019157088,
+      "grad_norm": 2.3303332328796387,
+      "learning_rate": 4.578735632183908e-05,
+      "loss": 34.0529,
+      "step": 8800
+    },
+    {
+      "epoch": 6.819923371647509,
+      "grad_norm": 3.9573702812194824,
+      "learning_rate": 4.573946360153257e-05,
+      "loss": 33.2897,
+      "step": 8900
+    },
+    {
+      "epoch": 6.896551724137931,
+      "grad_norm": 2.6185879707336426,
+      "learning_rate": 4.5691570881226054e-05,
+      "loss": 34.0662,
+      "step": 9000
+    },
+    {
+      "epoch": 6.973180076628353,
+      "grad_norm": 3.1155271530151367,
+      "learning_rate": 4.564367816091955e-05,
+      "loss": 33.517,
+      "step": 9100
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 34.818748474121094,
+      "eval_runtime": 49.3029,
+      "eval_samples_per_second": 26.469,
+      "eval_steps_per_second": 3.326,
+      "step": 9135
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 9851176321330176.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null