Training in progress, epoch 99, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +295 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55bb7ce979a3c70eea06a8b02d97643a593536ca44884e478658dbdfc31aa83f
 size 56862772

 version https://git-lfs.github.com/spec/v1
+oid sha256:594ed2c8f0bb4f3ff612a4d6690cd0ea9d181c24a0784d1d908297ba826b6170
 size 56862772

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0748caf064c33cc214b86dfcfd3c0d78a1351a34a8190c72757b0b532fefab3
 size 113744007

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd80a819cfcb97bd05ace5efd7019407db4c099d4f769f4ba75c086a7ef96d8c
 size 113744007

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8182b53f98dd7a88836b2ed9f6b04ffa9c680b2470d39112000a2e88ba6e5f4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9688ecbaaabe6dd2631b971e0ac049ec8c0a81e254a5a8c4146f3739c589121a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea873c34a006167303e12093796bad868549cde58efe9398d5c9c742cde1ed48
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:08ca5b03dc7d99ca80c2974df07874d742f8195d77d13c5aa897314a6ac0e7cf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 19,
   "best_metric": 0.07475842535495758,
   "best_model_checkpoint": "./results/checkpoint-19",
-  "epoch": 65.0,
   "eval_steps": 500,
-  "global_step": 65,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -570,6 +570,299 @@
       "eval_samples_per_second": 617.163,
       "eval_steps_per_second": 123.433,
       "step": 65
     }
   ],
   "logging_steps": 10,

   "best_global_step": 19,
   "best_metric": 0.07475842535495758,
   "best_model_checkpoint": "./results/checkpoint-19",
+  "epoch": 99.0,
   "eval_steps": 500,
+  "global_step": 99,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 617.163,
       "eval_steps_per_second": 123.433,
       "step": 65
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 0.1179947480559349,
+      "eval_runtime": 0.0163,
+      "eval_samples_per_second": 614.946,
+      "eval_steps_per_second": 122.989,
+      "step": 66
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 0.07585181295871735,
+      "eval_runtime": 0.0255,
+      "eval_samples_per_second": 391.574,
+      "eval_steps_per_second": 78.315,
+      "step": 67
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 0.09531017392873764,
+      "eval_runtime": 0.0206,
+      "eval_samples_per_second": 486.415,
+      "eval_steps_per_second": 97.283,
+      "step": 68
+    },
+    {
+      "epoch": 69.0,
+      "eval_loss": 0.14820639789104462,
+      "eval_runtime": 0.0208,
+      "eval_samples_per_second": 480.227,
+      "eval_steps_per_second": 96.045,
+      "step": 69
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 5.213359355926514,
+      "learning_rate": 0.0031,
+      "loss": 0.1041,
+      "step": 70
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 0.09258551150560379,
+      "eval_runtime": 0.0168,
+      "eval_samples_per_second": 596.044,
+      "eval_steps_per_second": 119.209,
+      "step": 70
+    },
+    {
+      "epoch": 71.0,
+      "eval_loss": 0.12545828521251678,
+      "eval_runtime": 0.029,
+      "eval_samples_per_second": 344.343,
+      "eval_steps_per_second": 68.869,
+      "step": 71
+    },
+    {
+      "epoch": 72.0,
+      "eval_loss": 0.07994948327541351,
+      "eval_runtime": 0.0264,
+      "eval_samples_per_second": 378.342,
+      "eval_steps_per_second": 75.668,
+      "step": 72
+    },
+    {
+      "epoch": 73.0,
+      "eval_loss": 0.10161998122930527,
+      "eval_runtime": 0.0164,
+      "eval_samples_per_second": 611.317,
+      "eval_steps_per_second": 122.263,
+      "step": 73
+    },
+    {
+      "epoch": 74.0,
+      "eval_loss": 0.08442724496126175,
+      "eval_runtime": 0.0172,
+      "eval_samples_per_second": 579.764,
+      "eval_steps_per_second": 115.953,
+      "step": 74
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 0.13757655024528503,
+      "eval_runtime": 0.0159,
+      "eval_samples_per_second": 628.097,
+      "eval_steps_per_second": 125.619,
+      "step": 75
+    },
+    {
+      "epoch": 76.0,
+      "eval_loss": 0.10746718943119049,
+      "eval_runtime": 0.016,
+      "eval_samples_per_second": 623.336,
+      "eval_steps_per_second": 124.667,
+      "step": 76
+    },
+    {
+      "epoch": 77.0,
+      "eval_loss": 0.07997341454029083,
+      "eval_runtime": 0.0163,
+      "eval_samples_per_second": 613.337,
+      "eval_steps_per_second": 122.667,
+      "step": 77
+    },
+    {
+      "epoch": 78.0,
+      "eval_loss": 0.08581076562404633,
+      "eval_runtime": 0.0225,
+      "eval_samples_per_second": 444.59,
+      "eval_steps_per_second": 88.918,
+      "step": 78
+    },
+    {
+      "epoch": 79.0,
+      "eval_loss": 0.07667073607444763,
+      "eval_runtime": 0.0173,
+      "eval_samples_per_second": 578.748,
+      "eval_steps_per_second": 115.75,
+      "step": 79
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 4.289701461791992,
+      "learning_rate": 0.0021,
+      "loss": 0.0468,
+      "step": 80
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 0.1910361349582672,
+      "eval_runtime": 0.0156,
+      "eval_samples_per_second": 639.015,
+      "eval_steps_per_second": 127.803,
+      "step": 80
+    },
+    {
+      "epoch": 81.0,
+      "eval_loss": 0.2634718120098114,
+      "eval_runtime": 0.0162,
+      "eval_samples_per_second": 617.854,
+      "eval_steps_per_second": 123.571,
+      "step": 81
+    },
+    {
+      "epoch": 82.0,
+      "eval_loss": 0.20500917732715607,
+      "eval_runtime": 0.0159,
+      "eval_samples_per_second": 627.542,
+      "eval_steps_per_second": 125.508,
+      "step": 82
+    },
+    {
+      "epoch": 83.0,
+      "eval_loss": 0.09815473854541779,
+      "eval_runtime": 0.0159,
+      "eval_samples_per_second": 627.871,
+      "eval_steps_per_second": 125.574,
+      "step": 83
+    },
+    {
+      "epoch": 84.0,
+      "eval_loss": 0.08160002529621124,
+      "eval_runtime": 0.0256,
+      "eval_samples_per_second": 390.746,
+      "eval_steps_per_second": 78.149,
+      "step": 84
+    },
+    {
+      "epoch": 85.0,
+      "eval_loss": 0.0980997309088707,
+      "eval_runtime": 0.0163,
+      "eval_samples_per_second": 613.005,
+      "eval_steps_per_second": 122.601,
+      "step": 85
+    },
+    {
+      "epoch": 86.0,
+      "eval_loss": 0.08293064683675766,
+      "eval_runtime": 0.016,
+      "eval_samples_per_second": 625.409,
+      "eval_steps_per_second": 125.082,
+      "step": 86
+    },
+    {
+      "epoch": 87.0,
+      "eval_loss": 0.08042607456445694,
+      "eval_runtime": 0.0166,
+      "eval_samples_per_second": 602.82,
+      "eval_steps_per_second": 120.564,
+      "step": 87
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 0.17653095722198486,
+      "eval_runtime": 0.0166,
+      "eval_samples_per_second": 600.671,
+      "eval_steps_per_second": 120.134,
+      "step": 88
+    },
+    {
+      "epoch": 89.0,
+      "eval_loss": 0.2547139525413513,
+      "eval_runtime": 0.016,
+      "eval_samples_per_second": 624.729,
+      "eval_steps_per_second": 124.946,
+      "step": 89
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 12.196877479553223,
+      "learning_rate": 0.0011,
+      "loss": 0.0779,
+      "step": 90
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 0.2526191473007202,
+      "eval_runtime": 0.0164,
+      "eval_samples_per_second": 609.602,
+      "eval_steps_per_second": 121.92,
+      "step": 90
+    },
+    {
+      "epoch": 91.0,
+      "eval_loss": 0.1893763244152069,
+      "eval_runtime": 0.0275,
+      "eval_samples_per_second": 363.89,
+      "eval_steps_per_second": 72.778,
+      "step": 91
+    },
+    {
+      "epoch": 92.0,
+      "eval_loss": 0.11402726173400879,
+      "eval_runtime": 0.0165,
+      "eval_samples_per_second": 604.506,
+      "eval_steps_per_second": 120.901,
+      "step": 92
+    },
+    {
+      "epoch": 93.0,
+      "eval_loss": 0.0751984640955925,
+      "eval_runtime": 0.0174,
+      "eval_samples_per_second": 575.516,
+      "eval_steps_per_second": 115.103,
+      "step": 93
+    },
+    {
+      "epoch": 94.0,
+      "eval_loss": 0.0785483792424202,
+      "eval_runtime": 0.0162,
+      "eval_samples_per_second": 618.592,
+      "eval_steps_per_second": 123.718,
+      "step": 94
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 0.08064951747655869,
+      "eval_runtime": 0.0174,
+      "eval_samples_per_second": 575.698,
+      "eval_steps_per_second": 115.14,
+      "step": 95
+    },
+    {
+      "epoch": 96.0,
+      "eval_loss": 0.07702342420816422,
+      "eval_runtime": 0.0179,
+      "eval_samples_per_second": 559.129,
+      "eval_steps_per_second": 111.826,
+      "step": 96
+    },
+    {
+      "epoch": 97.0,
+      "eval_loss": 0.07478635758161545,
+      "eval_runtime": 0.0293,
+      "eval_samples_per_second": 341.431,
+      "eval_steps_per_second": 68.286,
+      "step": 97
+    },
+    {
+      "epoch": 98.0,
+      "eval_loss": 0.07912726700305939,
+      "eval_runtime": 0.0202,
+      "eval_samples_per_second": 495.289,
+      "eval_steps_per_second": 99.058,
+      "step": 98
+    },
+    {
+      "epoch": 99.0,
+      "eval_loss": 0.0888177827000618,
+      "eval_runtime": 0.0291,
+      "eval_samples_per_second": 343.866,
+      "eval_steps_per_second": 68.773,
+      "step": 99
     }
   ],
   "logging_steps": 10,