Upload 8 files

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +5 -158

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c28dcaa2d2be8d4704cab165c677f25b4270b624587e7633ac36c7a5f8e892a8
 size 343679232

 version https://git-lfs.github.com/spec/v1
+oid sha256:de097412cad8746b6eb19ea1dc0e2199ef3d2a9a8accae460a9a51bf4e2f8331
 size 343679232

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc1d73444a304e94e5a3a83c6813d1158e4e90f52fc0bf7358b8a2e88e8b8664
 size 687473786

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f862b26aa8c421663d1c84cd6f1f01648f91e1bd1fbe4fca01c7179e3e57342
 size 687473786

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:871a2b0b3d0be54fee74343292af9b7281a3f77417a97c8b9e2b20f80e215aa5
 size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec859b2ce68dc22239ae89fc89ca51be37f1eb1e4eec3225a7e5f38fec447b57
 size 13990

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c855437d80306b6e4683c73fbc3bbe2978ddcaaa00039979af9c1a9e50f7f25
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:56247b3349547ea82644afccfe004506052b457e363254cda8547006aa0a9fb8
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9240393208221627,
-  "best_model_checkpoint": "pokemon_models\\checkpoint-1750",
-  "epoch": 28.0,
   "eval_steps": 500,
-  "global_step": 1960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -694,159 +694,6 @@
       "eval_samples_per_second": 10.376,
       "eval_steps_per_second": 0.649,
       "step": 1610
-    },
-    {
-      "epoch": 23.14,
-      "learning_rate": 1.0555555555555555e-05,
-      "loss": 0.5869,
-      "step": 1620
-    },
-    {
-      "epoch": 23.43,
-      "learning_rate": 1e-05,
-      "loss": 0.5809,
-      "step": 1640
-    },
-    {
-      "epoch": 23.71,
-      "learning_rate": 9.444444444444445e-06,
-      "loss": 0.5972,
-      "step": 1660
-    },
-    {
-      "epoch": 24.0,
-      "learning_rate": 8.88888888888889e-06,
-      "loss": 0.5726,
-      "step": 1680
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.9186773905272565,
-      "eval_loss": 0.8351905345916748,
-      "eval_runtime": 109.1081,
-      "eval_samples_per_second": 10.256,
-      "eval_steps_per_second": 0.642,
-      "step": 1680
-    },
-    {
-      "epoch": 24.29,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.5562,
-      "step": 1700
-    },
-    {
-      "epoch": 24.57,
-      "learning_rate": 7.777777777777777e-06,
-      "loss": 0.5687,
-      "step": 1720
-    },
-    {
-      "epoch": 24.86,
-      "learning_rate": 7.222222222222222e-06,
-      "loss": 0.5418,
-      "step": 1740
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.9240393208221627,
-      "eval_loss": 0.8053392767906189,
-      "eval_runtime": 111.5634,
-      "eval_samples_per_second": 10.03,
-      "eval_steps_per_second": 0.627,
-      "step": 1750
-    },
-    {
-      "epoch": 25.14,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.5496,
-      "step": 1760
-    },
-    {
-      "epoch": 25.43,
-      "learning_rate": 6.111111111111111e-06,
-      "loss": 0.5354,
-      "step": 1780
-    },
-    {
-      "epoch": 25.71,
-      "learning_rate": 5.555555555555556e-06,
-      "loss": 0.5564,
-      "step": 1800
-    },
-    {
-      "epoch": 26.0,
-      "learning_rate": 5e-06,
-      "loss": 0.579,
-      "step": 1820
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.9151027703306523,
-      "eval_loss": 0.8136078119277954,
-      "eval_runtime": 105.9237,
-      "eval_samples_per_second": 10.564,
-      "eval_steps_per_second": 0.661,
-      "step": 1820
-    },
-    {
-      "epoch": 26.29,
-      "learning_rate": 4.444444444444445e-06,
-      "loss": 0.5322,
-      "step": 1840
-    },
-    {
-      "epoch": 26.57,
-      "learning_rate": 3.888888888888889e-06,
-      "loss": 0.5529,
-      "step": 1860
-    },
-    {
-      "epoch": 26.86,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.5077,
-      "step": 1880
-    },
-    {
-      "epoch": 27.0,
-      "eval_accuracy": 0.9168900804289544,
-      "eval_loss": 0.7921976447105408,
-      "eval_runtime": 105.3647,
-      "eval_samples_per_second": 10.62,
-      "eval_steps_per_second": 0.664,
-      "step": 1890
-    },
-    {
-      "epoch": 27.14,
-      "learning_rate": 2.777777777777778e-06,
-      "loss": 0.5443,
-      "step": 1900
-    },
-    {
-      "epoch": 27.43,
-      "learning_rate": 2.2222222222222225e-06,
-      "loss": 0.5181,
-      "step": 1920
-    },
-    {
-      "epoch": 27.71,
-      "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.5318,
-      "step": 1940
-    },
-    {
-      "epoch": 28.0,
-      "learning_rate": 1.1111111111111112e-06,
-      "loss": 0.5138,
-      "step": 1960
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.9133154602323503,
-      "eval_loss": 0.7894989252090454,
-      "eval_runtime": 107.1689,
-      "eval_samples_per_second": 10.441,
-      "eval_steps_per_second": 0.653,
-      "step": 1960
     }
   ],
   "logging_steps": 20,
@@ -854,7 +701,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 29,
   "save_steps": 500,
-  "total_flos": 9.718280747932926e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9142091152815014,
+  "best_model_checkpoint": "pokemon_models\\checkpoint-1610",
+  "epoch": 23.0,
   "eval_steps": 500,
+  "global_step": 1610,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.376,
       "eval_steps_per_second": 0.649,
       "step": 1610
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 29,
   "save_steps": 500,
+  "total_flos": 7.982873471516332e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null