Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8050d0ba4cc80419a583c93968e6bf55216baf5e1371c2c9e7133fa0b1464ed
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9397f132a6123749318f2cec2de3795c2cecb21b04af496e60060bdf559d882
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b05d6d3a797d87d258d9bcbc672b81e5538c72ed7f79e2144c48b29830d47b1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c4d354f40628a2bf76efa3fc41baf5125cffd8c92ac7a1e648705f2d017dfe1
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee21e9bc6023190a0db96d08050b5e5b20632d2971675b4236e71d6b2aa60903
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c628fd47930868a3626bfd463d6fa585c5249cd4b2ad88dfb998ebdaeffc2454
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4a50e6bc9278ed49513d0c8109e953279561a58261b90ebf3bd479594596325
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b542bbc256ffe03bc3de81e397affacfdab8368eb5fbeffaeab7a4d3289a6f9f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.2037852257490158,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-3000",
-  "epoch": 2.107481559536354,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -667,6 +667,116 @@
       "eval_samples_per_second": 66.328,
       "eval_steps_per_second": 2.082,
       "step": 3000
     }
   ],
   "logging_steps": 50,
@@ -686,7 +796,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.92254115627008e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2032385915517807,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-3500",
+  "epoch": 2.4587284861257466,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.328,
       "eval_steps_per_second": 2.082,
       "step": 3000
+    },
+    {
+      "epoch": 2.1426062521952933,
+      "grad_norm": 26514.828125,
+      "learning_rate": 1.3924806746310612e-05,
+      "loss": 0.2032,
+      "step": 3050
+    },
+    {
+      "epoch": 2.1777309448542326,
+      "grad_norm": 22808.0234375,
+      "learning_rate": 1.3661278988053408e-05,
+      "loss": 0.1944,
+      "step": 3100
+    },
+    {
+      "epoch": 2.1777309448542326,
+      "eval_loss": 0.20371171832084656,
+      "eval_runtime": 67.0231,
+      "eval_samples_per_second": 66.544,
+      "eval_steps_per_second": 2.089,
+      "step": 3100
+    },
+    {
+      "epoch": 2.212855637513172,
+      "grad_norm": 24228.18359375,
+      "learning_rate": 1.3397751229796205e-05,
+      "loss": 0.2056,
+      "step": 3150
+    },
+    {
+      "epoch": 2.247980330172111,
+      "grad_norm": 20969.25390625,
+      "learning_rate": 1.3134223471539003e-05,
+      "loss": 0.1948,
+      "step": 3200
+    },
+    {
+      "epoch": 2.247980330172111,
+      "eval_loss": 0.20387396216392517,
+      "eval_runtime": 66.9567,
+      "eval_samples_per_second": 66.61,
+      "eval_steps_per_second": 2.091,
+      "step": 3200
+    },
+    {
+      "epoch": 2.2831050228310503,
+      "grad_norm": 42587.73046875,
+      "learning_rate": 1.28706957132818e-05,
+      "loss": 0.2072,
+      "step": 3250
+    },
+    {
+      "epoch": 2.3182297154899896,
+      "grad_norm": 22174.130859375,
+      "learning_rate": 1.2607167955024596e-05,
+      "loss": 0.2023,
+      "step": 3300
+    },
+    {
+      "epoch": 2.3182297154899896,
+      "eval_loss": 0.20358328521251678,
+      "eval_runtime": 67.1207,
+      "eval_samples_per_second": 66.447,
+      "eval_steps_per_second": 2.086,
+      "step": 3300
+    },
+    {
+      "epoch": 2.353354408148929,
+      "grad_norm": 28607.568359375,
+      "learning_rate": 1.2343640196767393e-05,
+      "loss": 0.1964,
+      "step": 3350
+    },
+    {
+      "epoch": 2.388479100807868,
+      "grad_norm": 27227.3203125,
+      "learning_rate": 1.208011243851019e-05,
+      "loss": 0.2075,
+      "step": 3400
+    },
+    {
+      "epoch": 2.388479100807868,
+      "eval_loss": 0.20336925983428955,
+      "eval_runtime": 67.2613,
+      "eval_samples_per_second": 66.309,
+      "eval_steps_per_second": 2.081,
+      "step": 3400
+    },
+    {
+      "epoch": 2.4236037934668073,
+      "grad_norm": 24440.291015625,
+      "learning_rate": 1.1816584680252988e-05,
+      "loss": 0.1999,
+      "step": 3450
+    },
+    {
+      "epoch": 2.4587284861257466,
+      "grad_norm": 23327.6328125,
+      "learning_rate": 1.1553056921995784e-05,
+      "loss": 0.2041,
+      "step": 3500
+    },
+    {
+      "epoch": 2.4587284861257466,
+      "eval_loss": 0.2032385915517807,
+      "eval_runtime": 67.0192,
+      "eval_samples_per_second": 66.548,
+      "eval_steps_per_second": 2.089,
+      "step": 3500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.40970746871808e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null