Training in progress, step 7000, checkpoint

Browse files

Files changed (5) hide show

checkpoint-7000/model.safetensors +1 -1
checkpoint-7000/optimizer.pt +1 -1
checkpoint-7000/rng_state.pth +1 -1
checkpoint-7000/trainer_state.json +104 -104
checkpoint-7000/training_args.bin +1 -1

checkpoint-7000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8318d81b29406272df8591a462a12ff8bd429c29ee9721dfbff5bd97d329e813
 size 435544704

 version https://git-lfs.github.com/spec/v1
+oid sha256:39784e53ed9fc74e2b8c86f37759cfb2748b97688e617b200da8cbbe2dbdfa41
 size 435544704

checkpoint-7000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73710d374605028178bfdbc2565b0d02a65b11b1efdbb47f85a3557c8ce08f45
 size 871183627

 version https://git-lfs.github.com/spec/v1
+oid sha256:19d8e7d518ec9d8f3edc9b557cb3e852a7209a763364df53c9e9b6242246ddf5
 size 871183627

checkpoint-7000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b0df006b0da5a4fb0b806e4c82282a21de3ac44998e706c3e14855373887b1e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f0b13bd4d3240af64cec60ce95d82b7b39162526a526bbf0213d8285363b444
 size 14645

checkpoint-7000/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 6783,
-  "best_metric": 4.365528583526611,
   "best_model_checkpoint": null,
   "epoch": 17.54385964912281,
   "eval_steps": 500,
@@ -11,264 +11,264 @@
   "log_history": [
     {
       "epoch": 0.002506265664160401,
-      "grad_norm": 15.276525497436523,
       "learning_rate": 0.0,
-      "loss": 10.3822,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1.2039393186569214,
       "learning_rate": 7.960000000000001e-05,
-      "loss": 6.9837,
       "step": 399
     },
     {
       "epoch": 1.0,
-      "eval_loss": 5.983016014099121,
-      "eval_runtime": 15.8842,
-      "eval_samples_per_second": 1611.54,
-      "eval_steps_per_second": 6.296,
       "step": 399
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.1639982461929321,
       "learning_rate": 9.601876675603218e-05,
-      "loss": 5.6173,
       "step": 798
     },
     {
       "epoch": 2.0,
-      "eval_loss": 5.357014179229736,
-      "eval_runtime": 20.233,
-      "eval_samples_per_second": 1265.164,
-      "eval_steps_per_second": 4.942,
       "step": 798
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.0922253131866455,
       "learning_rate": 9.067024128686328e-05,
-      "loss": 5.1654,
       "step": 1197
     },
     {
       "epoch": 3.0,
-      "eval_loss": 5.061666488647461,
-      "eval_runtime": 21.5628,
-      "eval_samples_per_second": 1187.138,
-      "eval_steps_per_second": 4.638,
       "step": 1197
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.1415351629257202,
       "learning_rate": 8.532171581769438e-05,
-      "loss": 4.9033,
       "step": 1596
     },
     {
       "epoch": 4.0,
-      "eval_loss": 4.871504306793213,
-      "eval_runtime": 21.5888,
-      "eval_samples_per_second": 1185.71,
-      "eval_steps_per_second": 4.632,
       "step": 1596
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.2201212644577026,
       "learning_rate": 7.997319034852548e-05,
-      "loss": 4.7113,
       "step": 1995
     },
     {
       "epoch": 5.0,
-      "eval_loss": 4.739400386810303,
-      "eval_runtime": 21.6571,
-      "eval_samples_per_second": 1181.971,
-      "eval_steps_per_second": 4.617,
       "step": 1995
     },
     {
       "epoch": 6.0,
-      "grad_norm": 1.3053981065750122,
       "learning_rate": 7.462466487935658e-05,
-      "loss": 4.5573,
       "step": 2394
     },
     {
       "epoch": 6.0,
-      "eval_loss": 4.6380228996276855,
-      "eval_runtime": 20.1975,
-      "eval_samples_per_second": 1267.387,
-      "eval_steps_per_second": 4.951,
       "step": 2394
     },
     {
       "epoch": 7.0,
-      "grad_norm": 1.306992769241333,
       "learning_rate": 6.927613941018766e-05,
-      "loss": 4.4278,
       "step": 2793
     },
     {
       "epoch": 7.0,
-      "eval_loss": 4.5619025230407715,
-      "eval_runtime": 20.2525,
-      "eval_samples_per_second": 1263.94,
-      "eval_steps_per_second": 4.938,
       "step": 2793
     },
     {
       "epoch": 8.0,
-      "grad_norm": 1.4036524295806885,
       "learning_rate": 6.392761394101878e-05,
-      "loss": 4.3164,
       "step": 3192
     },
     {
       "epoch": 8.0,
-      "eval_loss": 4.505926132202148,
-      "eval_runtime": 20.1856,
-      "eval_samples_per_second": 1268.13,
-      "eval_steps_per_second": 4.954,
       "step": 3192
     },
     {
       "epoch": 9.0,
-      "grad_norm": 1.4330567121505737,
       "learning_rate": 5.8579088471849864e-05,
       "loss": 4.2176,
       "step": 3591
     },
     {
       "epoch": 9.0,
-      "eval_loss": 4.462268352508545,
-      "eval_runtime": 20.1962,
-      "eval_samples_per_second": 1267.466,
-      "eval_steps_per_second": 4.951,
       "step": 3591
     },
     {
       "epoch": 10.0,
-      "grad_norm": 1.5486063957214355,
       "learning_rate": 5.3230563002680965e-05,
-      "loss": 4.1304,
       "step": 3990
     },
     {
       "epoch": 10.0,
-      "eval_loss": 4.426018238067627,
-      "eval_runtime": 20.2771,
-      "eval_samples_per_second": 1262.41,
-      "eval_steps_per_second": 4.932,
       "step": 3990
     },
     {
       "epoch": 11.0,
-      "grad_norm": 1.620924472808838,
       "learning_rate": 4.7882037533512065e-05,
-      "loss": 4.0533,
       "step": 4389
     },
     {
       "epoch": 11.0,
-      "eval_loss": 4.405181884765625,
-      "eval_runtime": 20.264,
-      "eval_samples_per_second": 1263.225,
-      "eval_steps_per_second": 4.935,
       "step": 4389
     },
     {
       "epoch": 12.0,
-      "grad_norm": 1.7080353498458862,
       "learning_rate": 4.2533512064343165e-05,
-      "loss": 3.9848,
       "step": 4788
     },
     {
       "epoch": 12.0,
-      "eval_loss": 4.389559268951416,
-      "eval_runtime": 20.213,
-      "eval_samples_per_second": 1266.415,
-      "eval_steps_per_second": 4.947,
       "step": 4788
     },
     {
       "epoch": 13.0,
-      "grad_norm": 1.7893489599227905,
       "learning_rate": 3.7184986595174266e-05,
-      "loss": 3.9231,
       "step": 5187
     },
     {
       "epoch": 13.0,
-      "eval_loss": 4.378305435180664,
-      "eval_runtime": 20.1971,
-      "eval_samples_per_second": 1267.41,
-      "eval_steps_per_second": 4.951,
       "step": 5187
     },
     {
       "epoch": 14.0,
-      "grad_norm": 1.8335821628570557,
       "learning_rate": 3.1836461126005366e-05,
-      "loss": 3.868,
       "step": 5586
     },
     {
       "epoch": 14.0,
-      "eval_loss": 4.37127685546875,
-      "eval_runtime": 20.2062,
-      "eval_samples_per_second": 1266.84,
-      "eval_steps_per_second": 4.949,
       "step": 5586
     },
     {
       "epoch": 15.0,
-      "grad_norm": 1.9156359434127808,
       "learning_rate": 2.648793565683646e-05,
-      "loss": 3.8185,
       "step": 5985
     },
     {
       "epoch": 15.0,
-      "eval_loss": 4.366693019866943,
-      "eval_runtime": 20.2391,
-      "eval_samples_per_second": 1264.777,
-      "eval_steps_per_second": 4.941,
       "step": 5985
     },
     {
       "epoch": 16.0,
-      "grad_norm": 2.0061216354370117,
       "learning_rate": 2.113941018766756e-05,
-      "loss": 3.7746,
       "step": 6384
     },
     {
       "epoch": 16.0,
-      "eval_loss": 4.36619234085083,
-      "eval_runtime": 20.2719,
-      "eval_samples_per_second": 1262.734,
-      "eval_steps_per_second": 4.933,
       "step": 6384
     },
     {
       "epoch": 17.0,
-      "grad_norm": 2.049583911895752,
       "learning_rate": 1.579088471849866e-05,
-      "loss": 3.7362,
       "step": 6783
     },
     {
       "epoch": 17.0,
-      "eval_loss": 4.365528583526611,
-      "eval_runtime": 20.2515,
-      "eval_samples_per_second": 1264.006,
-      "eval_steps_per_second": 4.938,
       "step": 6783
     }
   ],

 {
   "best_global_step": 6783,
+  "best_metric": 4.363214015960693,
   "best_model_checkpoint": null,
   "epoch": 17.54385964912281,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.002506265664160401,
+      "grad_norm": 15.287896156311035,
       "learning_rate": 0.0,
+      "loss": 10.3873,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.349755048751831,
       "learning_rate": 7.960000000000001e-05,
+      "loss": 6.9819,
       "step": 399
     },
     {
       "epoch": 1.0,
+      "eval_loss": 5.9839253425598145,
+      "eval_runtime": 40.2685,
+      "eval_samples_per_second": 635.682,
+      "eval_steps_per_second": 2.483,
       "step": 399
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.2756340503692627,
       "learning_rate": 9.601876675603218e-05,
+      "loss": 5.6158,
       "step": 798
     },
     {
       "epoch": 2.0,
+      "eval_loss": 5.355185031890869,
+      "eval_runtime": 40.338,
+      "eval_samples_per_second": 634.588,
+      "eval_steps_per_second": 2.479,
       "step": 798
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.1477612257003784,
       "learning_rate": 9.067024128686328e-05,
+      "loss": 5.164,
       "step": 1197
     },
     {
       "epoch": 3.0,
+      "eval_loss": 5.061825275421143,
+      "eval_runtime": 40.9407,
+      "eval_samples_per_second": 625.245,
+      "eval_steps_per_second": 2.443,
       "step": 1197
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.1439207792282104,
       "learning_rate": 8.532171581769438e-05,
+      "loss": 4.902,
       "step": 1596
     },
     {
       "epoch": 4.0,
+      "eval_loss": 4.870055675506592,
+      "eval_runtime": 40.5657,
+      "eval_samples_per_second": 631.026,
+      "eval_steps_per_second": 2.465,
       "step": 1596
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.2400050163269043,
       "learning_rate": 7.997319034852548e-05,
+      "loss": 4.7103,
       "step": 1995
     },
     {
       "epoch": 5.0,
+      "eval_loss": 4.737980842590332,
+      "eval_runtime": 40.84,
+      "eval_samples_per_second": 626.787,
+      "eval_steps_per_second": 2.449,
       "step": 1995
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.3254481554031372,
       "learning_rate": 7.462466487935658e-05,
+      "loss": 4.5566,
       "step": 2394
     },
     {
       "epoch": 6.0,
+      "eval_loss": 4.6372785568237305,
+      "eval_runtime": 40.6525,
+      "eval_samples_per_second": 629.678,
+      "eval_steps_per_second": 2.46,
       "step": 2394
     },
     {
       "epoch": 7.0,
+      "grad_norm": 1.3006181716918945,
       "learning_rate": 6.927613941018766e-05,
+      "loss": 4.4277,
       "step": 2793
     },
     {
       "epoch": 7.0,
+      "eval_loss": 4.560876846313477,
+      "eval_runtime": 40.4604,
+      "eval_samples_per_second": 632.667,
+      "eval_steps_per_second": 2.472,
       "step": 2793
     },
     {
       "epoch": 8.0,
+      "grad_norm": 1.420179009437561,
       "learning_rate": 6.392761394101878e-05,
+      "loss": 4.3162,
       "step": 3192
     },
     {
       "epoch": 8.0,
+      "eval_loss": 4.503915786743164,
+      "eval_runtime": 39.8308,
+      "eval_samples_per_second": 642.669,
+      "eval_steps_per_second": 2.511,
       "step": 3192
     },
     {
       "epoch": 9.0,
+      "grad_norm": 1.4465044736862183,
       "learning_rate": 5.8579088471849864e-05,
       "loss": 4.2176,
       "step": 3591
     },
     {
       "epoch": 9.0,
+      "eval_loss": 4.462299346923828,
+      "eval_runtime": 41.0625,
+      "eval_samples_per_second": 623.391,
+      "eval_steps_per_second": 2.435,
       "step": 3591
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.5573575496673584,
       "learning_rate": 5.3230563002680965e-05,
+      "loss": 4.1306,
       "step": 3990
     },
     {
       "epoch": 10.0,
+      "eval_loss": 4.426837921142578,
+      "eval_runtime": 39.558,
+      "eval_samples_per_second": 647.1,
+      "eval_steps_per_second": 2.528,
       "step": 3990
     },
     {
       "epoch": 11.0,
+      "grad_norm": 1.59477961063385,
       "learning_rate": 4.7882037533512065e-05,
+      "loss": 4.0536,
       "step": 4389
     },
     {
       "epoch": 11.0,
+      "eval_loss": 4.405690670013428,
+      "eval_runtime": 41.0885,
+      "eval_samples_per_second": 622.996,
+      "eval_steps_per_second": 2.434,
       "step": 4389
     },
     {
       "epoch": 12.0,
+      "grad_norm": 1.7376188039779663,
       "learning_rate": 4.2533512064343165e-05,
+      "loss": 3.9853,
       "step": 4788
     },
     {
       "epoch": 12.0,
+      "eval_loss": 4.387991428375244,
+      "eval_runtime": 40.4482,
+      "eval_samples_per_second": 632.858,
+      "eval_steps_per_second": 2.472,
       "step": 4788
     },
     {
       "epoch": 13.0,
+      "grad_norm": 1.7787601947784424,
       "learning_rate": 3.7184986595174266e-05,
+      "loss": 3.9239,
       "step": 5187
     },
     {
       "epoch": 13.0,
+      "eval_loss": 4.378556251525879,
+      "eval_runtime": 40.4484,
+      "eval_samples_per_second": 632.856,
+      "eval_steps_per_second": 2.472,
       "step": 5187
     },
     {
       "epoch": 14.0,
+      "grad_norm": 1.8353626728057861,
       "learning_rate": 3.1836461126005366e-05,
+      "loss": 3.8689,
       "step": 5586
     },
     {
       "epoch": 14.0,
+      "eval_loss": 4.370186805725098,
+      "eval_runtime": 40.9985,
+      "eval_samples_per_second": 624.364,
+      "eval_steps_per_second": 2.439,
       "step": 5586
     },
     {
       "epoch": 15.0,
+      "grad_norm": 1.9268814325332642,
       "learning_rate": 2.648793565683646e-05,
+      "loss": 3.8194,
       "step": 5985
     },
     {
       "epoch": 15.0,
+      "eval_loss": 4.3662943840026855,
+      "eval_runtime": 40.4988,
+      "eval_samples_per_second": 632.068,
+      "eval_steps_per_second": 2.469,
       "step": 5985
     },
     {
       "epoch": 16.0,
+      "grad_norm": 2.0129663944244385,
       "learning_rate": 2.113941018766756e-05,
+      "loss": 3.7756,
       "step": 6384
     },
     {
       "epoch": 16.0,
+      "eval_loss": 4.36508846282959,
+      "eval_runtime": 40.6411,
+      "eval_samples_per_second": 629.855,
+      "eval_steps_per_second": 2.461,
       "step": 6384
     },
     {
       "epoch": 17.0,
+      "grad_norm": 2.0358240604400635,
       "learning_rate": 1.579088471849866e-05,
+      "loss": 3.7371,
       "step": 6783
     },
     {
       "epoch": 17.0,
+      "eval_loss": 4.363214015960693,
+      "eval_runtime": 40.9391,
+      "eval_samples_per_second": 625.27,
+      "eval_steps_per_second": 2.443,
       "step": 6783
     }
   ],

checkpoint-7000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3d99a586d2a38e89becddbee0adce6692398fb4ff8b6a71d5f8e545b03eeef6
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4d8e95126c79934c43d708d7208a8515199b20fd582881a681e358089ed0c56
 size 5905