(17) Classification on crawler 66 epochs

Browse files

Files changed (7) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +657 -651
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "distilbert-base-uncased",
   "activation": "gelu",
   "architectures": [
     "DistilBertForSequenceClassification"

 {
+  "_name_or_path": "factored/distilbert-fr-explorer-mlm",
   "activation": "gelu",
   "architectures": [
     "DistilBertForSequenceClassification"

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6fa49861293b096f4ec4a7287f7759ac99a2062f0f275e63f7280fc15e0f9f6
 size 535750213

 version https://git-lfs.github.com/spec/v1
+oid sha256:d83561355ea40d67ab9012c3166f657e1ff760da6c50027af4e43144c0fff262
 size 535750213

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:491feb260883d9c03042e7f92de7b291e3680759cf403faee560c936244e4b35
 size 267880109

 version https://git-lfs.github.com/spec/v1
+oid sha256:32ab236035ae34ead55dc6eb93fab584687f0abd2c6e5fef0d08152a262edbf3
 size 267880109

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3899805085e9d2ac6cbf41d1e231c8019961099f94de919796ff76ec1a2a6d27
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:5da77d5d668ca0e0c026e5aaa5f6d78e9342d0a43738836703db1ca4b7946b7d
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:772dd81534f16ccad499eda8bef2dc60508234c8daa4ecae9a5aa2c25f5ac971
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf87c4d674820bdb7f033d4d03e7ab7226e2b1c16d339409520876b41a77b97d
 size 627

trainer_state.json CHANGED Viewed

@@ -2,988 +2,994 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 65.0,
-  "global_step": 6760,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.99,
-      "learning_rate": 4.9238165680473374e-05,
-      "loss": 1.4565,
-      "step": 103
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.5061315988298739,
-      "eval_loss": 1.226438045501709,
-      "eval_runtime": 2.9031,
-      "eval_samples_per_second": 190.487,
-      "eval_steps_per_second": 12.056,
-      "step": 104
     },
     {
-      "epoch": 1.98,
-      "learning_rate": 4.8483727810650895e-05,
-      "loss": 1.08,
-      "step": 206
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.5585235698125446,
-      "eval_loss": 1.1974396705627441,
-      "eval_runtime": 2.9416,
-      "eval_samples_per_second": 187.991,
-      "eval_steps_per_second": 11.898,
-      "step": 208
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 4.772189349112427e-05,
-      "loss": 0.8073,
-      "step": 309
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.5539323613883379,
-      "eval_loss": 1.276489496231079,
-      "eval_runtime": 2.969,
-      "eval_samples_per_second": 186.259,
-      "eval_steps_per_second": 11.789,
-      "step": 312
     },
     {
-      "epoch": 3.96,
-      "learning_rate": 4.696005917159764e-05,
-      "loss": 0.5577,
-      "step": 412
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.5553847052045314,
-      "eval_loss": 1.427822232246399,
-      "eval_runtime": 2.9361,
-      "eval_samples_per_second": 188.346,
-      "eval_steps_per_second": 11.921,
-      "step": 416
     },
     {
-      "epoch": 4.95,
-      "learning_rate": 4.619822485207101e-05,
-      "loss": 0.3941,
-      "step": 515
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.5570342860609194,
-      "eval_loss": 1.6517128944396973,
-      "eval_runtime": 2.9022,
-      "eval_samples_per_second": 190.542,
-      "eval_steps_per_second": 12.06,
-      "step": 520
     },
     {
-      "epoch": 5.94,
-      "learning_rate": 4.543639053254438e-05,
-      "loss": 0.2878,
-      "step": 618
     },
     {
       "epoch": 6.0,
-      "eval_f1": 0.5619826716090497,
-      "eval_loss": 1.8180437088012695,
-      "eval_runtime": 2.855,
-      "eval_samples_per_second": 193.697,
-      "eval_steps_per_second": 12.259,
-      "step": 624
     },
     {
-      "epoch": 6.93,
-      "learning_rate": 4.468195266272189e-05,
-      "loss": 0.2337,
-      "step": 721
     },
     {
       "epoch": 7.0,
-      "eval_f1": 0.5674708526030706,
-      "eval_loss": 1.9061989784240723,
-      "eval_runtime": 2.8641,
-      "eval_samples_per_second": 193.077,
-      "eval_steps_per_second": 12.22,
-      "step": 728
     },
     {
-      "epoch": 7.92,
-      "learning_rate": 4.392011834319526e-05,
-      "loss": 0.1743,
-      "step": 824
     },
     {
       "epoch": 8.0,
-      "eval_f1": 0.5571774381839604,
-      "eval_loss": 2.166078805923462,
-      "eval_runtime": 2.8885,
-      "eval_samples_per_second": 191.449,
-      "eval_steps_per_second": 12.117,
-      "step": 832
     },
     {
-      "epoch": 8.91,
-      "learning_rate": 4.315828402366864e-05,
-      "loss": 0.1324,
-      "step": 927
     },
     {
       "epoch": 9.0,
-      "eval_f1": 0.5586999359656486,
-      "eval_loss": 2.1434192657470703,
-      "eval_runtime": 2.8793,
-      "eval_samples_per_second": 192.062,
-      "eval_steps_per_second": 12.156,
-      "step": 936
     },
     {
-      "epoch": 9.9,
-      "learning_rate": 4.239644970414201e-05,
-      "loss": 0.1051,
-      "step": 1030
     },
     {
       "epoch": 10.0,
-      "eval_f1": 0.571861247626083,
-      "eval_loss": 2.2514231204986572,
-      "eval_runtime": 2.8876,
-      "eval_samples_per_second": 191.511,
-      "eval_steps_per_second": 12.121,
-      "step": 1040
     },
     {
-      "epoch": 10.89,
-      "learning_rate": 4.163461538461539e-05,
-      "loss": 0.1016,
-      "step": 1133
     },
     {
       "epoch": 11.0,
-      "eval_f1": 0.5608736700927537,
-      "eval_loss": 2.452277898788452,
-      "eval_runtime": 2.9662,
-      "eval_samples_per_second": 186.434,
-      "eval_steps_per_second": 11.8,
-      "step": 1144
     },
     {
-      "epoch": 11.88,
-      "learning_rate": 4.0872781065088764e-05,
-      "loss": 0.0814,
-      "step": 1236
     },
     {
       "epoch": 12.0,
-      "eval_f1": 0.5643677851728315,
-      "eval_loss": 2.5340888500213623,
-      "eval_runtime": 2.8457,
-      "eval_samples_per_second": 194.329,
-      "eval_steps_per_second": 12.299,
-      "step": 1248
     },
     {
-      "epoch": 12.88,
-      "learning_rate": 4.0110946745562136e-05,
-      "loss": 0.0673,
-      "step": 1339
     },
     {
       "epoch": 13.0,
-      "eval_f1": 0.5738915229311208,
-      "eval_loss": 2.6217703819274902,
-      "eval_runtime": 2.9035,
-      "eval_samples_per_second": 190.46,
-      "eval_steps_per_second": 12.054,
-      "step": 1352
     },
     {
-      "epoch": 13.87,
-      "learning_rate": 3.934911242603551e-05,
-      "loss": 0.0684,
-      "step": 1442
     },
     {
       "epoch": 14.0,
-      "eval_f1": 0.5366433281464598,
-      "eval_loss": 2.9552414417266846,
-      "eval_runtime": 2.9063,
-      "eval_samples_per_second": 190.277,
-      "eval_steps_per_second": 12.043,
-      "step": 1456
     },
     {
-      "epoch": 14.86,
-      "learning_rate": 3.858727810650888e-05,
-      "loss": 0.0466,
-      "step": 1545
     },
     {
       "epoch": 15.0,
-      "eval_f1": 0.5787084254032917,
-      "eval_loss": 2.7240512371063232,
-      "eval_runtime": 2.8887,
-      "eval_samples_per_second": 191.438,
-      "eval_steps_per_second": 12.116,
-      "step": 1560
     },
     {
-      "epoch": 15.85,
-      "learning_rate": 3.782544378698225e-05,
-      "loss": 0.0577,
-      "step": 1648
     },
     {
       "epoch": 16.0,
-      "eval_f1": 0.5666557248979172,
-      "eval_loss": 2.821897506713867,
-      "eval_runtime": 2.8994,
-      "eval_samples_per_second": 190.727,
-      "eval_steps_per_second": 12.071,
-      "step": 1664
     },
     {
-      "epoch": 16.84,
-      "learning_rate": 3.706360946745562e-05,
-      "loss": 0.042,
-      "step": 1751
     },
     {
       "epoch": 17.0,
-      "eval_f1": 0.56033452806457,
-      "eval_loss": 2.9155900478363037,
-      "eval_runtime": 2.9258,
-      "eval_samples_per_second": 189.01,
-      "eval_steps_per_second": 11.963,
-      "step": 1768
     },
     {
-      "epoch": 17.83,
-      "learning_rate": 3.6301775147928995e-05,
-      "loss": 0.0404,
-      "step": 1854
     },
     {
       "epoch": 18.0,
-      "eval_f1": 0.5621979513908701,
-      "eval_loss": 2.893630266189575,
-      "eval_runtime": 2.9319,
-      "eval_samples_per_second": 188.613,
-      "eval_steps_per_second": 11.938,
-      "step": 1872
     },
     {
-      "epoch": 18.82,
-      "learning_rate": 3.553994082840237e-05,
-      "loss": 0.0426,
-      "step": 1957
     },
     {
       "epoch": 19.0,
-      "eval_f1": 0.5766503161850353,
-      "eval_loss": 3.00762939453125,
-      "eval_runtime": 2.9064,
-      "eval_samples_per_second": 190.271,
-      "eval_steps_per_second": 12.042,
-      "step": 1976
     },
     {
-      "epoch": 19.81,
-      "learning_rate": 3.477810650887574e-05,
-      "loss": 0.0361,
-      "step": 2060
     },
     {
       "epoch": 20.0,
-      "eval_f1": 0.5565194377868121,
-      "eval_loss": 3.043562173843384,
-      "eval_runtime": 2.9099,
-      "eval_samples_per_second": 190.043,
-      "eval_steps_per_second": 12.028,
-      "step": 2080
     },
     {
-      "epoch": 20.8,
-      "learning_rate": 3.401627218934911e-05,
-      "loss": 0.039,
-      "step": 2163
     },
     {
       "epoch": 21.0,
-      "eval_f1": 0.5661283975776907,
-      "eval_loss": 3.034050226211548,
-      "eval_runtime": 2.8472,
-      "eval_samples_per_second": 194.228,
-      "eval_steps_per_second": 12.293,
-      "step": 2184
     },
     {
-      "epoch": 21.79,
-      "learning_rate": 3.325443786982248e-05,
-      "loss": 0.0311,
-      "step": 2266
     },
     {
       "epoch": 22.0,
-      "eval_f1": 0.5698598461896062,
-      "eval_loss": 3.1546428203582764,
-      "eval_runtime": 2.8965,
-      "eval_samples_per_second": 190.921,
-      "eval_steps_per_second": 12.084,
-      "step": 2288
     },
     {
-      "epoch": 22.78,
-      "learning_rate": 3.2492603550295855e-05,
-      "loss": 0.0296,
-      "step": 2369
     },
     {
       "epoch": 23.0,
-      "eval_f1": 0.5584145320343268,
-      "eval_loss": 3.3160221576690674,
-      "eval_runtime": 2.9004,
-      "eval_samples_per_second": 190.664,
-      "eval_steps_per_second": 12.067,
-      "step": 2392
     },
     {
-      "epoch": 23.77,
-      "learning_rate": 3.1730769230769234e-05,
-      "loss": 0.03,
-      "step": 2472
     },
     {
       "epoch": 24.0,
-      "eval_f1": 0.5765799312977243,
-      "eval_loss": 3.2025678157806396,
-      "eval_runtime": 2.837,
-      "eval_samples_per_second": 194.921,
-      "eval_steps_per_second": 12.337,
-      "step": 2496
     },
     {
-      "epoch": 24.76,
-      "learning_rate": 3.0968934911242606e-05,
-      "loss": 0.0333,
-      "step": 2575
     },
     {
       "epoch": 25.0,
-      "eval_f1": 0.5689553713820321,
-      "eval_loss": 3.211634397506714,
-      "eval_runtime": 2.9044,
-      "eval_samples_per_second": 190.402,
-      "eval_steps_per_second": 12.051,
-      "step": 2600
     },
     {
-      "epoch": 25.75,
-      "learning_rate": 3.0207100591715974e-05,
-      "loss": 0.0321,
-      "step": 2678
     },
     {
       "epoch": 26.0,
-      "eval_f1": 0.5756108062994573,
-      "eval_loss": 3.2678425312042236,
-      "eval_runtime": 2.8888,
-      "eval_samples_per_second": 191.428,
-      "eval_steps_per_second": 12.116,
-      "step": 2704
     },
     {
-      "epoch": 26.74,
-      "learning_rate": 2.944526627218935e-05,
-      "loss": 0.0263,
-      "step": 2781
     },
     {
       "epoch": 27.0,
-      "eval_f1": 0.5758065273285641,
-      "eval_loss": 3.2969822883605957,
-      "eval_runtime": 2.9527,
-      "eval_samples_per_second": 187.286,
-      "eval_steps_per_second": 11.854,
-      "step": 2808
     },
     {
-      "epoch": 27.73,
-      "learning_rate": 2.8683431952662725e-05,
-      "loss": 0.0281,
-      "step": 2884
     },
     {
       "epoch": 28.0,
-      "eval_f1": 0.5781354966097151,
-      "eval_loss": 3.3730037212371826,
-      "eval_runtime": 2.8614,
-      "eval_samples_per_second": 193.264,
-      "eval_steps_per_second": 12.232,
-      "step": 2912
     },
     {
-      "epoch": 28.72,
-      "learning_rate": 2.7921597633136097e-05,
-      "loss": 0.0282,
-      "step": 2987
     },
     {
       "epoch": 29.0,
-      "eval_f1": 0.5741866124789994,
-      "eval_loss": 3.364117383956909,
-      "eval_runtime": 2.8696,
-      "eval_samples_per_second": 192.707,
-      "eval_steps_per_second": 12.197,
-      "step": 3016
     },
     {
-      "epoch": 29.71,
-      "learning_rate": 2.7159763313609472e-05,
       "loss": 0.0296,
-      "step": 3090
     },
     {
       "epoch": 30.0,
-      "eval_f1": 0.5771762774162508,
-      "eval_loss": 3.3623032569885254,
-      "eval_runtime": 2.9567,
-      "eval_samples_per_second": 187.031,
-      "eval_steps_per_second": 11.837,
-      "step": 3120
     },
     {
-      "epoch": 30.7,
-      "learning_rate": 2.6397928994082844e-05,
-      "loss": 0.0308,
-      "step": 3193
     },
     {
       "epoch": 31.0,
-      "eval_f1": 0.578537002980747,
-      "eval_loss": 3.4039528369903564,
-      "eval_runtime": 2.8263,
-      "eval_samples_per_second": 195.66,
-      "eval_steps_per_second": 12.384,
-      "step": 3224
     },
     {
-      "epoch": 31.69,
-      "learning_rate": 2.5636094674556216e-05,
-      "loss": 0.0308,
-      "step": 3296
     },
     {
       "epoch": 32.0,
-      "eval_f1": 0.575919412837488,
-      "eval_loss": 3.392319679260254,
-      "eval_runtime": 2.9375,
-      "eval_samples_per_second": 188.254,
-      "eval_steps_per_second": 11.915,
-      "step": 3328
     },
     {
-      "epoch": 32.68,
-      "learning_rate": 2.4874260355029588e-05,
-      "loss": 0.0262,
-      "step": 3399
     },
     {
       "epoch": 33.0,
-      "eval_f1": 0.5563772891428104,
-      "eval_loss": 3.4757542610168457,
-      "eval_runtime": 2.865,
-      "eval_samples_per_second": 193.019,
-      "eval_steps_per_second": 12.216,
-      "step": 3432
     },
     {
-      "epoch": 33.67,
-      "learning_rate": 2.411242603550296e-05,
-      "loss": 0.0319,
-      "step": 3502
     },
     {
       "epoch": 34.0,
-      "eval_f1": 0.5738865992034025,
-      "eval_loss": 3.425334930419922,
-      "eval_runtime": 2.9109,
-      "eval_samples_per_second": 189.974,
-      "eval_steps_per_second": 12.024,
-      "step": 3536
     },
     {
-      "epoch": 34.66,
-      "learning_rate": 2.3350591715976332e-05,
-      "loss": 0.0277,
-      "step": 3605
     },
     {
       "epoch": 35.0,
-      "eval_f1": 0.5785980513801816,
-      "eval_loss": 3.4686436653137207,
-      "eval_runtime": 2.93,
-      "eval_samples_per_second": 188.738,
-      "eval_steps_per_second": 11.945,
-      "step": 3640
     },
     {
-      "epoch": 35.65,
-      "learning_rate": 2.2588757396449707e-05,
-      "loss": 0.0289,
-      "step": 3708
     },
     {
       "epoch": 36.0,
-      "eval_f1": 0.5836924697871717,
-      "eval_loss": 3.462078094482422,
-      "eval_runtime": 2.8428,
-      "eval_samples_per_second": 194.527,
-      "eval_steps_per_second": 12.312,
-      "step": 3744
     },
     {
-      "epoch": 36.64,
-      "learning_rate": 2.182692307692308e-05,
-      "loss": 0.0247,
-      "step": 3811
     },
     {
       "epoch": 37.0,
-      "eval_f1": 0.5734707197245945,
-      "eval_loss": 3.481998920440674,
-      "eval_runtime": 3.0017,
-      "eval_samples_per_second": 184.228,
-      "eval_steps_per_second": 11.66,
-      "step": 3848
     },
     {
-      "epoch": 37.63,
-      "learning_rate": 2.106508875739645e-05,
-      "loss": 0.0303,
-      "step": 3914
     },
     {
       "epoch": 38.0,
-      "eval_f1": 0.5770262969511715,
-      "eval_loss": 3.466510772705078,
-      "eval_runtime": 2.8587,
-      "eval_samples_per_second": 193.442,
-      "eval_steps_per_second": 12.243,
-      "step": 3952
     },
     {
-      "epoch": 38.62,
-      "learning_rate": 2.0303254437869823e-05,
-      "loss": 0.0239,
-      "step": 4017
     },
     {
       "epoch": 39.0,
-      "eval_f1": 0.5666519467364683,
-      "eval_loss": 3.5593807697296143,
-      "eval_runtime": 2.8222,
-      "eval_samples_per_second": 195.946,
-      "eval_steps_per_second": 12.402,
-      "step": 4056
     },
     {
-      "epoch": 39.62,
-      "learning_rate": 1.9541420118343195e-05,
-      "loss": 0.0262,
-      "step": 4120
     },
     {
       "epoch": 40.0,
-      "eval_f1": 0.5808476343157906,
-      "eval_loss": 3.5302422046661377,
-      "eval_runtime": 2.8598,
-      "eval_samples_per_second": 193.368,
-      "eval_steps_per_second": 12.238,
-      "step": 4160
     },
     {
-      "epoch": 40.61,
-      "learning_rate": 1.8779585798816567e-05,
-      "loss": 0.0282,
-      "step": 4223
     },
     {
       "epoch": 41.0,
-      "eval_f1": 0.5835890408164021,
-      "eval_loss": 3.4572339057922363,
-      "eval_runtime": 2.8566,
-      "eval_samples_per_second": 193.584,
-      "eval_steps_per_second": 12.252,
-      "step": 4264
     },
     {
-      "epoch": 41.6,
-      "learning_rate": 1.8025147928994084e-05,
-      "loss": 0.0469,
-      "step": 4326
     },
     {
       "epoch": 42.0,
-      "eval_f1": 0.5685331156394952,
-      "eval_loss": 3.609334707260132,
-      "eval_runtime": 2.8251,
-      "eval_samples_per_second": 195.747,
-      "eval_steps_per_second": 12.389,
-      "step": 4368
     },
     {
-      "epoch": 42.59,
-      "learning_rate": 1.7263313609467456e-05,
-      "loss": 0.0302,
-      "step": 4429
     },
     {
       "epoch": 43.0,
-      "eval_f1": 0.5684067370608473,
-      "eval_loss": 3.6115400791168213,
-      "eval_runtime": 2.9194,
-      "eval_samples_per_second": 189.42,
-      "eval_steps_per_second": 11.989,
-      "step": 4472
     },
     {
-      "epoch": 43.58,
-      "learning_rate": 1.650147928994083e-05,
-      "loss": 0.0289,
-      "step": 4532
     },
     {
       "epoch": 44.0,
-      "eval_f1": 0.5757900647671246,
-      "eval_loss": 3.629568099975586,
-      "eval_runtime": 2.9036,
-      "eval_samples_per_second": 190.453,
-      "eval_steps_per_second": 12.054,
-      "step": 4576
     },
     {
-      "epoch": 44.57,
-      "learning_rate": 1.5739644970414204e-05,
-      "loss": 0.0254,
-      "step": 4635
     },
     {
       "epoch": 45.0,
-      "eval_f1": 0.5689505752768721,
-      "eval_loss": 3.7250843048095703,
-      "eval_runtime": 2.9726,
-      "eval_samples_per_second": 186.035,
-      "eval_steps_per_second": 11.774,
-      "step": 4680
     },
     {
-      "epoch": 45.56,
-      "learning_rate": 1.4977810650887576e-05,
-      "loss": 0.0283,
-      "step": 4738
     },
     {
       "epoch": 46.0,
-      "eval_f1": 0.5592198654774546,
-      "eval_loss": 3.726353645324707,
-      "eval_runtime": 2.9328,
-      "eval_samples_per_second": 188.559,
-      "eval_steps_per_second": 11.934,
-      "step": 4784
     },
     {
-      "epoch": 46.55,
-      "learning_rate": 1.4215976331360948e-05,
-      "loss": 0.0246,
-      "step": 4841
     },
     {
       "epoch": 47.0,
-      "eval_f1": 0.5650157110711802,
-      "eval_loss": 3.7832093238830566,
-      "eval_runtime": 2.9067,
-      "eval_samples_per_second": 190.249,
-      "eval_steps_per_second": 12.041,
-      "step": 4888
     },
     {
-      "epoch": 47.54,
-      "learning_rate": 1.345414201183432e-05,
-      "loss": 0.0311,
-      "step": 4944
     },
     {
       "epoch": 48.0,
-      "eval_f1": 0.5681512072556809,
-      "eval_loss": 3.6964025497436523,
-      "eval_runtime": 2.9008,
-      "eval_samples_per_second": 190.634,
-      "eval_steps_per_second": 12.065,
-      "step": 4992
     },
     {
-      "epoch": 48.53,
-      "learning_rate": 1.2692307692307691e-05,
-      "loss": 0.0268,
-      "step": 5047
     },
     {
       "epoch": 49.0,
-      "eval_f1": 0.5674808111122996,
-      "eval_loss": 3.7195167541503906,
-      "eval_runtime": 2.8604,
-      "eval_samples_per_second": 193.33,
-      "eval_steps_per_second": 12.236,
-      "step": 5096
     },
     {
-      "epoch": 49.52,
-      "learning_rate": 1.1930473372781067e-05,
-      "loss": 0.0293,
-      "step": 5150
     },
     {
       "epoch": 50.0,
-      "eval_f1": 0.5614419693521525,
-      "eval_loss": 3.752530097961426,
-      "eval_runtime": 2.8761,
-      "eval_samples_per_second": 192.275,
-      "eval_steps_per_second": 12.169,
-      "step": 5200
     },
     {
-      "epoch": 50.51,
-      "learning_rate": 1.1168639053254439e-05,
-      "loss": 0.0282,
-      "step": 5253
     },
     {
       "epoch": 51.0,
-      "eval_f1": 0.5655838635083059,
-      "eval_loss": 3.7514984607696533,
-      "eval_runtime": 2.8609,
-      "eval_samples_per_second": 193.296,
-      "eval_steps_per_second": 12.234,
-      "step": 5304
     },
     {
-      "epoch": 51.5,
-      "learning_rate": 1.040680473372781e-05,
-      "loss": 0.0248,
-      "step": 5356
     },
     {
       "epoch": 52.0,
-      "eval_f1": 0.5590951084274065,
-      "eval_loss": 3.7639315128326416,
-      "eval_runtime": 2.8211,
-      "eval_samples_per_second": 196.025,
-      "eval_steps_per_second": 12.407,
-      "step": 5408
     },
     {
-      "epoch": 52.49,
-      "learning_rate": 9.644970414201183e-06,
-      "loss": 0.0257,
-      "step": 5459
     },
     {
       "epoch": 53.0,
-      "eval_f1": 0.5480134247467852,
-      "eval_loss": 3.824922800064087,
-      "eval_runtime": 2.8475,
-      "eval_samples_per_second": 194.205,
-      "eval_steps_per_second": 12.291,
-      "step": 5512
     },
     {
-      "epoch": 53.48,
-      "learning_rate": 8.883136094674558e-06,
-      "loss": 0.0235,
-      "step": 5562
     },
     {
       "epoch": 54.0,
-      "eval_f1": 0.5565796472147394,
-      "eval_loss": 3.7871253490448,
-      "eval_runtime": 2.9817,
-      "eval_samples_per_second": 185.462,
-      "eval_steps_per_second": 11.738,
-      "step": 5616
     },
     {
-      "epoch": 54.47,
-      "learning_rate": 8.12130177514793e-06,
-      "loss": 0.0299,
-      "step": 5665
     },
     {
       "epoch": 55.0,
-      "eval_f1": 0.5574154263000176,
-      "eval_loss": 3.788760185241699,
-      "eval_runtime": 2.8852,
-      "eval_samples_per_second": 191.665,
-      "eval_steps_per_second": 12.131,
-      "step": 5720
     },
     {
-      "epoch": 55.46,
-      "learning_rate": 7.359467455621302e-06,
-      "loss": 0.0277,
-      "step": 5768
     },
     {
       "epoch": 56.0,
-      "eval_f1": 0.563024311843682,
-      "eval_loss": 3.7907044887542725,
-      "eval_runtime": 2.8658,
-      "eval_samples_per_second": 192.962,
-      "eval_steps_per_second": 12.213,
-      "step": 5824
     },
     {
-      "epoch": 56.45,
-      "learning_rate": 6.597633136094675e-06,
-      "loss": 0.0256,
-      "step": 5871
     },
     {
       "epoch": 57.0,
-      "eval_f1": 0.56153234588093,
-      "eval_loss": 3.799422264099121,
-      "eval_runtime": 2.8666,
-      "eval_samples_per_second": 192.912,
-      "eval_steps_per_second": 12.21,
-      "step": 5928
     },
     {
-      "epoch": 57.44,
-      "learning_rate": 5.8357988165680474e-06,
-      "loss": 0.0226,
-      "step": 5974
     },
     {
       "epoch": 58.0,
-      "eval_f1": 0.5555061070073688,
-      "eval_loss": 3.811858892440796,
-      "eval_runtime": 2.8683,
-      "eval_samples_per_second": 192.797,
-      "eval_steps_per_second": 12.202,
-      "step": 6032
     },
     {
-      "epoch": 58.43,
-      "learning_rate": 5.07396449704142e-06,
-      "loss": 0.0284,
-      "step": 6077
     },
     {
       "epoch": 59.0,
-      "eval_f1": 0.5597671150511061,
-      "eval_loss": 3.8192451000213623,
-      "eval_runtime": 2.8512,
-      "eval_samples_per_second": 193.951,
-      "eval_steps_per_second": 12.275,
-      "step": 6136
     },
     {
-      "epoch": 59.42,
-      "learning_rate": 4.312130177514793e-06,
-      "loss": 0.0233,
-      "step": 6180
     },
     {
       "epoch": 60.0,
-      "eval_f1": 0.5584681716027172,
-      "eval_loss": 3.823091983795166,
-      "eval_runtime": 2.9385,
-      "eval_samples_per_second": 188.191,
-      "eval_steps_per_second": 11.911,
-      "step": 6240
     },
     {
-      "epoch": 60.41,
-      "learning_rate": 3.550295857988166e-06,
-      "loss": 0.0266,
-      "step": 6283
     },
     {
       "epoch": 61.0,
-      "eval_f1": 0.5625000576804086,
-      "eval_loss": 3.8085415363311768,
-      "eval_runtime": 2.9015,
-      "eval_samples_per_second": 190.588,
-      "eval_steps_per_second": 12.063,
-      "step": 6344
     },
     {
-      "epoch": 61.4,
-      "learning_rate": 2.7958579881656803e-06,
-      "loss": 0.0267,
-      "step": 6386
     },
     {
       "epoch": 62.0,
-      "eval_f1": 0.5622167257088028,
-      "eval_loss": 3.80642032623291,
-      "eval_runtime": 2.8514,
-      "eval_samples_per_second": 193.94,
-      "eval_steps_per_second": 12.275,
-      "step": 6448
     },
     {
-      "epoch": 62.39,
-      "learning_rate": 2.034023668639053e-06,
-      "loss": 0.0281,
-      "step": 6489
     },
     {
       "epoch": 63.0,
-      "eval_f1": 0.564106811375439,
-      "eval_loss": 3.8057875633239746,
-      "eval_runtime": 2.8945,
-      "eval_samples_per_second": 191.055,
-      "eval_steps_per_second": 12.092,
-      "step": 6552
     },
     {
-      "epoch": 63.38,
-      "learning_rate": 1.2721893491124261e-06,
-      "loss": 0.025,
-      "step": 6592
     },
     {
       "epoch": 64.0,
-      "eval_f1": 0.5644375312998279,
-      "eval_loss": 3.807055950164795,
-      "eval_runtime": 2.8941,
-      "eval_samples_per_second": 191.08,
-      "eval_steps_per_second": 12.094,
-      "step": 6656
     },
     {
-      "epoch": 64.38,
-      "learning_rate": 5.103550295857988e-07,
-      "loss": 0.0226,
-      "step": 6695
     },
     {
       "epoch": 65.0,
-      "eval_f1": 0.5644375312998279,
-      "eval_loss": 3.807528018951416,
-      "eval_runtime": 2.8626,
-      "eval_samples_per_second": 193.181,
-      "eval_steps_per_second": 12.227,
-      "step": 6760
     }
   ],
-  "max_steps": 6760,
   "num_train_epochs": 65,
   "total_flos": 1.4286659901696e+16,
   "trial_name": null,

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 65.0,
+  "global_step": 3380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.98,
+      "learning_rate": 4.9245562130177516e-05,
+      "loss": 1.4852,
+      "step": 51
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.4707671304103,
+      "eval_loss": 1.2319071292877197,
+      "eval_runtime": 3.2712,
+      "eval_samples_per_second": 169.049,
+      "eval_steps_per_second": 5.502,
+      "step": 52
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 4.849112426035503e-05,
+      "loss": 1.09,
+      "step": 102
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.5451014378336685,
+      "eval_loss": 1.1638911962509155,
+      "eval_runtime": 3.1885,
+      "eval_samples_per_second": 173.438,
+      "eval_steps_per_second": 5.645,
+      "step": 104
     },
     {
+      "epoch": 2.94,
+      "learning_rate": 4.7736686390532545e-05,
+      "loss": 0.8292,
+      "step": 153
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.5496218087071496,
+      "eval_loss": 1.2528048753738403,
+      "eval_runtime": 3.3002,
+      "eval_samples_per_second": 167.566,
+      "eval_steps_per_second": 5.454,
+      "step": 156
     },
     {
+      "epoch": 3.92,
+      "learning_rate": 4.698224852071006e-05,
+      "loss": 0.584,
+      "step": 204
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.5422764616085469,
+      "eval_loss": 1.3278894424438477,
+      "eval_runtime": 3.234,
+      "eval_samples_per_second": 170.997,
+      "eval_steps_per_second": 5.566,
+      "step": 208
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 4.622781065088758e-05,
+      "loss": 0.4007,
+      "step": 255
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.5518226359533898,
+      "eval_loss": 1.4516562223434448,
+      "eval_runtime": 3.204,
+      "eval_samples_per_second": 172.595,
+      "eval_steps_per_second": 5.618,
+      "step": 260
     },
     {
+      "epoch": 5.88,
+      "learning_rate": 4.5473372781065094e-05,
+      "loss": 0.2696,
+      "step": 306
     },
     {
       "epoch": 6.0,
+      "eval_f1": 0.5608323328724897,
+      "eval_loss": 1.6225392818450928,
+      "eval_runtime": 3.2139,
+      "eval_samples_per_second": 172.066,
+      "eval_steps_per_second": 5.601,
+      "step": 312
     },
     {
+      "epoch": 6.87,
+      "learning_rate": 4.471893491124261e-05,
+      "loss": 0.2147,
+      "step": 357
     },
     {
       "epoch": 7.0,
+      "eval_f1": 0.5520909376322324,
+      "eval_loss": 1.8203964233398438,
+      "eval_runtime": 3.1995,
+      "eval_samples_per_second": 172.841,
+      "eval_steps_per_second": 5.626,
+      "step": 364
     },
     {
+      "epoch": 7.85,
+      "learning_rate": 4.396449704142012e-05,
+      "loss": 0.1709,
+      "step": 408
     },
     {
       "epoch": 8.0,
+      "eval_f1": 0.5821755753782172,
+      "eval_loss": 1.8175333738327026,
+      "eval_runtime": 3.1993,
+      "eval_samples_per_second": 172.851,
+      "eval_steps_per_second": 5.626,
+      "step": 416
     },
     {
+      "epoch": 8.83,
+      "learning_rate": 4.3210059171597636e-05,
+      "loss": 0.1287,
+      "step": 459
     },
     {
       "epoch": 9.0,
+      "eval_f1": 0.5518326258604016,
+      "eval_loss": 1.9974777698516846,
+      "eval_runtime": 3.189,
+      "eval_samples_per_second": 173.41,
+      "eval_steps_per_second": 5.644,
+      "step": 468
     },
     {
+      "epoch": 9.81,
+      "learning_rate": 4.245562130177515e-05,
+      "loss": 0.1204,
+      "step": 510
     },
     {
       "epoch": 10.0,
+      "eval_f1": 0.5406559029286824,
+      "eval_loss": 2.1665594577789307,
+      "eval_runtime": 3.3389,
+      "eval_samples_per_second": 165.625,
+      "eval_steps_per_second": 5.391,
+      "step": 520
     },
     {
+      "epoch": 10.79,
+      "learning_rate": 4.1701183431952664e-05,
+      "loss": 0.1055,
+      "step": 561
     },
     {
       "epoch": 11.0,
+      "eval_f1": 0.554377033229914,
+      "eval_loss": 2.281852960586548,
+      "eval_runtime": 3.2286,
+      "eval_samples_per_second": 171.281,
+      "eval_steps_per_second": 5.575,
+      "step": 572
     },
     {
+      "epoch": 11.77,
+      "learning_rate": 4.094674556213018e-05,
+      "loss": 0.0847,
+      "step": 612
     },
     {
       "epoch": 12.0,
+      "eval_f1": 0.5624060360392482,
+      "eval_loss": 2.189591646194458,
+      "eval_runtime": 3.193,
+      "eval_samples_per_second": 173.191,
+      "eval_steps_per_second": 5.637,
+      "step": 624
     },
     {
+      "epoch": 12.75,
+      "learning_rate": 4.019230769230769e-05,
+      "loss": 0.0628,
+      "step": 663
     },
     {
       "epoch": 13.0,
+      "eval_f1": 0.5701909735422656,
+      "eval_loss": 2.138963222503662,
+      "eval_runtime": 3.1991,
+      "eval_samples_per_second": 172.862,
+      "eval_steps_per_second": 5.627,
+      "step": 676
     },
     {
+      "epoch": 13.73,
+      "learning_rate": 3.9437869822485207e-05,
+      "loss": 0.0709,
+      "step": 714
     },
     {
       "epoch": 14.0,
+      "eval_f1": 0.5813682933762342,
+      "eval_loss": 2.342538356781006,
+      "eval_runtime": 3.1993,
+      "eval_samples_per_second": 172.851,
+      "eval_steps_per_second": 5.626,
+      "step": 728
     },
     {
+      "epoch": 14.71,
+      "learning_rate": 3.868343195266273e-05,
+      "loss": 0.0558,
+      "step": 765
     },
     {
       "epoch": 15.0,
+      "eval_f1": 0.549666763295021,
+      "eval_loss": 2.5715904235839844,
+      "eval_runtime": 3.2358,
+      "eval_samples_per_second": 170.901,
+      "eval_steps_per_second": 5.563,
+      "step": 780
     },
     {
+      "epoch": 15.69,
+      "learning_rate": 3.792899408284024e-05,
+      "loss": 0.0547,
+      "step": 816
     },
     {
       "epoch": 16.0,
+      "eval_f1": 0.5734318107728033,
+      "eval_loss": 2.3701794147491455,
+      "eval_runtime": 3.1669,
+      "eval_samples_per_second": 174.62,
+      "eval_steps_per_second": 5.684,
+      "step": 832
     },
     {
+      "epoch": 16.67,
+      "learning_rate": 3.7174556213017756e-05,
+      "loss": 0.0364,
+      "step": 867
     },
     {
       "epoch": 17.0,
+      "eval_f1": 0.5778801114194217,
+      "eval_loss": 2.543994665145874,
+      "eval_runtime": 3.2632,
+      "eval_samples_per_second": 169.464,
+      "eval_steps_per_second": 5.516,
+      "step": 884
     },
     {
+      "epoch": 17.65,
+      "learning_rate": 3.642011834319527e-05,
+      "loss": 0.0461,
+      "step": 918
     },
     {
       "epoch": 18.0,
+      "eval_f1": 0.5500625539858052,
+      "eval_loss": 2.6528751850128174,
+      "eval_runtime": 3.1926,
+      "eval_samples_per_second": 173.215,
+      "eval_steps_per_second": 5.638,
+      "step": 936
     },
     {
+      "epoch": 18.63,
+      "learning_rate": 3.5665680473372784e-05,
+      "loss": 0.0427,
+      "step": 969
     },
     {
       "epoch": 19.0,
+      "eval_f1": 0.5774206875551234,
+      "eval_loss": 2.50394606590271,
+      "eval_runtime": 3.1994,
+      "eval_samples_per_second": 172.847,
+      "eval_steps_per_second": 5.626,
+      "step": 988
     },
     {
+      "epoch": 19.62,
+      "learning_rate": 3.49112426035503e-05,
+      "loss": 0.0341,
+      "step": 1020
     },
     {
       "epoch": 20.0,
+      "eval_f1": 0.5610511407715569,
+      "eval_loss": 2.6159815788269043,
+      "eval_runtime": 3.1937,
+      "eval_samples_per_second": 173.156,
+      "eval_steps_per_second": 5.636,
+      "step": 1040
     },
     {
+      "epoch": 20.6,
+      "learning_rate": 3.415680473372781e-05,
+      "loss": 0.043,
+      "step": 1071
     },
     {
       "epoch": 21.0,
+      "eval_f1": 0.5664231277655097,
+      "eval_loss": 2.642545223236084,
+      "eval_runtime": 3.2172,
+      "eval_samples_per_second": 171.891,
+      "eval_steps_per_second": 5.595,
+      "step": 1092
     },
     {
+      "epoch": 21.58,
+      "learning_rate": 3.3402366863905326e-05,
+      "loss": 0.0299,
+      "step": 1122
     },
     {
       "epoch": 22.0,
+      "eval_f1": 0.5879893270089217,
+      "eval_loss": 2.617424488067627,
+      "eval_runtime": 3.199,
+      "eval_samples_per_second": 172.868,
+      "eval_steps_per_second": 5.627,
+      "step": 1144
     },
     {
+      "epoch": 22.56,
+      "learning_rate": 3.264792899408285e-05,
+      "loss": 0.032,
+      "step": 1173
     },
     {
       "epoch": 23.0,
+      "eval_f1": 0.5728848934589272,
+      "eval_loss": 2.663990020751953,
+      "eval_runtime": 3.2443,
+      "eval_samples_per_second": 170.455,
+      "eval_steps_per_second": 5.548,
+      "step": 1196
     },
     {
+      "epoch": 23.54,
+      "learning_rate": 3.1893491124260354e-05,
+      "loss": 0.0303,
+      "step": 1224
     },
     {
       "epoch": 24.0,
+      "eval_f1": 0.5830104673892542,
+      "eval_loss": 2.712137222290039,
+      "eval_runtime": 3.2419,
+      "eval_samples_per_second": 170.577,
+      "eval_steps_per_second": 5.552,
+      "step": 1248
     },
     {
+      "epoch": 24.52,
+      "learning_rate": 3.1139053254437875e-05,
+      "loss": 0.0367,
+      "step": 1275
     },
     {
       "epoch": 25.0,
+      "eval_f1": 0.5769164843276932,
+      "eval_loss": 2.775130033493042,
+      "eval_runtime": 3.1631,
+      "eval_samples_per_second": 174.826,
+      "eval_steps_per_second": 5.691,
+      "step": 1300
     },
     {
+      "epoch": 25.5,
+      "learning_rate": 3.0384615384615382e-05,
+      "loss": 0.0307,
+      "step": 1326
     },
     {
       "epoch": 26.0,
+      "eval_f1": 0.5821869589539869,
+      "eval_loss": 2.7242813110351562,
+      "eval_runtime": 3.2145,
+      "eval_samples_per_second": 172.034,
+      "eval_steps_per_second": 5.6,
+      "step": 1352
     },
     {
+      "epoch": 26.48,
+      "learning_rate": 2.96301775147929e-05,
+      "loss": 0.0316,
+      "step": 1377
     },
     {
       "epoch": 27.0,
+      "eval_f1": 0.5969806619714588,
+      "eval_loss": 2.7311301231384277,
+      "eval_runtime": 3.2074,
+      "eval_samples_per_second": 172.413,
+      "eval_steps_per_second": 5.612,
+      "step": 1404
     },
     {
+      "epoch": 27.46,
+      "learning_rate": 2.8875739644970417e-05,
+      "loss": 0.0259,
+      "step": 1428
     },
     {
       "epoch": 28.0,
+      "eval_f1": 0.5851034622344854,
+      "eval_loss": 2.7522106170654297,
+      "eval_runtime": 3.2604,
+      "eval_samples_per_second": 169.609,
+      "eval_steps_per_second": 5.521,
+      "step": 1456
     },
     {
+      "epoch": 28.44,
+      "learning_rate": 2.8121301775147928e-05,
+      "loss": 0.0312,
+      "step": 1479
     },
     {
       "epoch": 29.0,
+      "eval_f1": 0.5701248207833717,
+      "eval_loss": 2.759821653366089,
+      "eval_runtime": 3.1781,
+      "eval_samples_per_second": 174.003,
+      "eval_steps_per_second": 5.664,
+      "step": 1508
     },
     {
+      "epoch": 29.42,
+      "learning_rate": 2.7366863905325446e-05,
       "loss": 0.0296,
+      "step": 1530
     },
     {
       "epoch": 30.0,
+      "eval_f1": 0.5647225459731341,
+      "eval_loss": 2.9071295261383057,
+      "eval_runtime": 3.2316,
+      "eval_samples_per_second": 171.124,
+      "eval_steps_per_second": 5.57,
+      "step": 1560
     },
     {
+      "epoch": 30.4,
+      "learning_rate": 2.6612426035502956e-05,
+      "loss": 0.0301,
+      "step": 1581
     },
     {
       "epoch": 31.0,
+      "eval_f1": 0.5812217101167925,
+      "eval_loss": 2.818995952606201,
+      "eval_runtime": 3.1912,
+      "eval_samples_per_second": 173.291,
+      "eval_steps_per_second": 5.641,
+      "step": 1612
     },
     {
+      "epoch": 31.38,
+      "learning_rate": 2.5857988165680474e-05,
+      "loss": 0.0283,
+      "step": 1632
     },
     {
       "epoch": 32.0,
+      "eval_f1": 0.5715581356858528,
+      "eval_loss": 2.8269426822662354,
+      "eval_runtime": 3.1794,
+      "eval_samples_per_second": 173.931,
+      "eval_steps_per_second": 5.661,
+      "step": 1664
     },
     {
+      "epoch": 32.37,
+      "learning_rate": 2.510355029585799e-05,
+      "loss": 0.0274,
+      "step": 1683
     },
     {
       "epoch": 33.0,
+      "eval_f1": 0.5793102191468632,
+      "eval_loss": 2.8590047359466553,
+      "eval_runtime": 3.236,
+      "eval_samples_per_second": 170.888,
+      "eval_steps_per_second": 5.562,
+      "step": 1716
     },
     {
+      "epoch": 33.35,
+      "learning_rate": 2.4349112426035502e-05,
+      "loss": 0.0282,
+      "step": 1734
     },
     {
       "epoch": 34.0,
+      "eval_f1": 0.5745047948377129,
+      "eval_loss": 2.861100435256958,
+      "eval_runtime": 3.3158,
+      "eval_samples_per_second": 166.779,
+      "eval_steps_per_second": 5.429,
+      "step": 1768
     },
     {
+      "epoch": 34.33,
+      "learning_rate": 2.359467455621302e-05,
+      "loss": 0.0283,
+      "step": 1785
     },
     {
       "epoch": 35.0,
+      "eval_f1": 0.5817013281834372,
+      "eval_loss": 2.895744562149048,
+      "eval_runtime": 3.1931,
+      "eval_samples_per_second": 173.188,
+      "eval_steps_per_second": 5.637,
+      "step": 1820
     },
     {
+      "epoch": 35.31,
+      "learning_rate": 2.2840236686390534e-05,
+      "loss": 0.0279,
+      "step": 1836
     },
     {
       "epoch": 36.0,
+      "eval_f1": 0.5775728570319975,
+      "eval_loss": 2.9081838130950928,
+      "eval_runtime": 3.1654,
+      "eval_samples_per_second": 174.702,
+      "eval_steps_per_second": 5.686,
+      "step": 1872
     },
     {
+      "epoch": 36.29,
+      "learning_rate": 2.2085798816568048e-05,
+      "loss": 0.0233,
+      "step": 1887
     },
     {
       "epoch": 37.0,
+      "eval_f1": 0.5849617909408964,
+      "eval_loss": 2.89267635345459,
+      "eval_runtime": 3.2172,
+      "eval_samples_per_second": 171.889,
+      "eval_steps_per_second": 5.595,
+      "step": 1924
     },
     {
+      "epoch": 37.27,
+      "learning_rate": 2.1331360946745562e-05,
+      "loss": 0.0254,
+      "step": 1938
     },
     {
       "epoch": 38.0,
+      "eval_f1": 0.5836059453944484,
+      "eval_loss": 2.904184341430664,
+      "eval_runtime": 3.1651,
+      "eval_samples_per_second": 174.716,
+      "eval_steps_per_second": 5.687,
+      "step": 1976
     },
     {
+      "epoch": 38.25,
+      "learning_rate": 2.0576923076923076e-05,
+      "loss": 0.0283,
+      "step": 1989
     },
     {
       "epoch": 39.0,
+      "eval_f1": 0.5889740350751246,
+      "eval_loss": 2.901627779006958,
+      "eval_runtime": 3.2172,
+      "eval_samples_per_second": 171.888,
+      "eval_steps_per_second": 5.595,
+      "step": 2028
     },
     {
+      "epoch": 39.23,
+      "learning_rate": 1.9822485207100593e-05,
+      "loss": 0.0276,
+      "step": 2040
     },
     {
       "epoch": 40.0,
+      "eval_f1": 0.592031757725387,
+      "eval_loss": 2.916260242462158,
+      "eval_runtime": 3.1892,
+      "eval_samples_per_second": 173.397,
+      "eval_steps_per_second": 5.644,
+      "step": 2080
     },
     {
+      "epoch": 40.21,
+      "learning_rate": 1.9068047337278107e-05,
+      "loss": 0.0273,
+      "step": 2091
     },
     {
       "epoch": 41.0,
+      "eval_f1": 0.5849688005890464,
+      "eval_loss": 2.934328317642212,
+      "eval_runtime": 3.161,
+      "eval_samples_per_second": 174.947,
+      "eval_steps_per_second": 5.694,
+      "step": 2132
     },
     {
+      "epoch": 41.19,
+      "learning_rate": 1.831360946745562e-05,
+      "loss": 0.0263,
+      "step": 2142
     },
     {
       "epoch": 42.0,
+      "eval_f1": 0.5811250364444013,
+      "eval_loss": 2.9349024295806885,
+      "eval_runtime": 3.1625,
+      "eval_samples_per_second": 174.86,
+      "eval_steps_per_second": 5.692,
+      "step": 2184
     },
     {
+      "epoch": 42.17,
+      "learning_rate": 1.7559171597633136e-05,
+      "loss": 0.0277,
+      "step": 2193
     },
     {
       "epoch": 43.0,
+      "eval_f1": 0.573433909955672,
+      "eval_loss": 2.940727710723877,
+      "eval_runtime": 3.1528,
+      "eval_samples_per_second": 175.4,
+      "eval_steps_per_second": 5.709,
+      "step": 2236
     },
     {
+      "epoch": 43.15,
+      "learning_rate": 1.680473372781065e-05,
+      "loss": 0.0254,
+      "step": 2244
     },
     {
       "epoch": 44.0,
+      "eval_f1": 0.5729801056423723,
+      "eval_loss": 2.9454445838928223,
+      "eval_runtime": 3.2178,
+      "eval_samples_per_second": 171.857,
+      "eval_steps_per_second": 5.594,
+      "step": 2288
     },
     {
+      "epoch": 44.13,
+      "learning_rate": 1.6050295857988164e-05,
+      "loss": 0.0292,
+      "step": 2295
     },
     {
       "epoch": 45.0,
+      "eval_f1": 0.5757088867272762,
+      "eval_loss": 2.9577114582061768,
+      "eval_runtime": 3.2403,
+      "eval_samples_per_second": 170.665,
+      "eval_steps_per_second": 5.555,
+      "step": 2340
     },
     {
+      "epoch": 45.12,
+      "learning_rate": 1.529585798816568e-05,
+      "loss": 0.0254,
+      "step": 2346
     },
     {
       "epoch": 46.0,
+      "eval_f1": 0.5725735614892553,
+      "eval_loss": 2.972485065460205,
+      "eval_runtime": 3.2679,
+      "eval_samples_per_second": 169.22,
+      "eval_steps_per_second": 5.508,
+      "step": 2392
     },
     {
+      "epoch": 46.1,
+      "learning_rate": 1.4541420118343197e-05,
+      "loss": 0.0276,
+      "step": 2397
     },
     {
       "epoch": 47.0,
+      "eval_f1": 0.583757236585762,
+      "eval_loss": 2.956446886062622,
+      "eval_runtime": 3.2021,
+      "eval_samples_per_second": 172.699,
+      "eval_steps_per_second": 5.621,
+      "step": 2444
     },
     {
+      "epoch": 47.08,
+      "learning_rate": 1.3786982248520711e-05,
+      "loss": 0.0253,
+      "step": 2448
     },
     {
       "epoch": 48.0,
+      "eval_f1": 0.5853028564259082,
+      "eval_loss": 2.9614322185516357,
+      "eval_runtime": 3.2052,
+      "eval_samples_per_second": 172.533,
+      "eval_steps_per_second": 5.616,
+      "step": 2496
     },
     {
+      "epoch": 48.06,
+      "learning_rate": 1.3032544378698225e-05,
+      "loss": 0.028,
+      "step": 2499
     },
     {
       "epoch": 49.0,
+      "eval_f1": 0.5795749762231537,
+      "eval_loss": 2.9922454357147217,
+      "eval_runtime": 3.1853,
+      "eval_samples_per_second": 173.608,
+      "eval_steps_per_second": 5.651,
+      "step": 2548
     },
     {
+      "epoch": 49.04,
+      "learning_rate": 1.2278106508875741e-05,
+      "loss": 0.0256,
+      "step": 2550
     },
     {
       "epoch": 50.0,
+      "eval_f1": 0.583866618944334,
+      "eval_loss": 2.9824576377868652,
+      "eval_runtime": 3.193,
+      "eval_samples_per_second": 173.194,
+      "eval_steps_per_second": 5.637,
+      "step": 2600
     },
     {
+      "epoch": 50.02,
+      "learning_rate": 1.1523668639053255e-05,
+      "loss": 0.0269,
+      "step": 2601
     },
     {
       "epoch": 51.0,
+      "learning_rate": 1.0769230769230771e-05,
+      "loss": 0.0263,
+      "step": 2652
     },
     {
+      "epoch": 51.0,
+      "eval_f1": 0.5850045217224726,
+      "eval_loss": 2.9774513244628906,
+      "eval_runtime": 3.1985,
+      "eval_samples_per_second": 172.892,
+      "eval_steps_per_second": 5.628,
+      "step": 2652
+    },
+    {
+      "epoch": 51.98,
+      "learning_rate": 1.0014792899408285e-05,
+      "loss": 0.0262,
+      "step": 2703
     },
     {
       "epoch": 52.0,
+      "eval_f1": 0.5828168242240888,
+      "eval_loss": 2.986954927444458,
+      "eval_runtime": 3.2441,
+      "eval_samples_per_second": 170.463,
+      "eval_steps_per_second": 5.549,
+      "step": 2704
     },
     {
+      "epoch": 52.96,
+      "learning_rate": 9.2603550295858e-06,
+      "loss": 0.0263,
+      "step": 2754
     },
     {
       "epoch": 53.0,
+      "eval_f1": 0.5813629807328557,
+      "eval_loss": 3.000241756439209,
+      "eval_runtime": 3.2231,
+      "eval_samples_per_second": 171.574,
+      "eval_steps_per_second": 5.585,
+      "step": 2756
     },
     {
+      "epoch": 53.94,
+      "learning_rate": 8.505917159763315e-06,
+      "loss": 0.0269,
+      "step": 2805
     },
     {
       "epoch": 54.0,
+      "eval_f1": 0.5806797641919809,
+      "eval_loss": 3.013312339782715,
+      "eval_runtime": 3.1848,
+      "eval_samples_per_second": 173.638,
+      "eval_steps_per_second": 5.652,
+      "step": 2808
     },
     {
+      "epoch": 54.92,
+      "learning_rate": 7.751479289940829e-06,
+      "loss": 0.0263,
+      "step": 2856
     },
     {
       "epoch": 55.0,
+      "eval_f1": 0.5781702729189796,
+      "eval_loss": 3.0137646198272705,
+      "eval_runtime": 3.2153,
+      "eval_samples_per_second": 171.991,
+      "eval_steps_per_second": 5.598,
+      "step": 2860
     },
     {
+      "epoch": 55.9,
+      "learning_rate": 6.997041420118343e-06,
+      "loss": 0.025,
+      "step": 2907
     },
     {
       "epoch": 56.0,
+      "eval_f1": 0.5787181162619701,
+      "eval_loss": 3.0211129188537598,
+      "eval_runtime": 3.2002,
+      "eval_samples_per_second": 172.8,
+      "eval_steps_per_second": 5.625,
+      "step": 2912
     },
     {
+      "epoch": 56.88,
+      "learning_rate": 6.242603550295858e-06,
+      "loss": 0.0266,
+      "step": 2958
     },
     {
       "epoch": 57.0,
+      "eval_f1": 0.5789670702676735,
+      "eval_loss": 3.0238091945648193,
+      "eval_runtime": 3.16,
+      "eval_samples_per_second": 175.001,
+      "eval_steps_per_second": 5.696,
+      "step": 2964
     },
     {
+      "epoch": 57.87,
+      "learning_rate": 5.488165680473373e-06,
+      "loss": 0.0245,
+      "step": 3009
     },
     {
       "epoch": 58.0,
+      "eval_f1": 0.5818538088014551,
+      "eval_loss": 3.0299057960510254,
+      "eval_runtime": 3.2046,
+      "eval_samples_per_second": 172.563,
+      "eval_steps_per_second": 5.617,
+      "step": 3016
     },
     {
+      "epoch": 58.85,
+      "learning_rate": 4.733727810650888e-06,
+      "loss": 0.0246,
+      "step": 3060
     },
     {
       "epoch": 59.0,
+      "eval_f1": 0.5789670702676735,
+      "eval_loss": 3.030819892883301,
+      "eval_runtime": 3.2069,
+      "eval_samples_per_second": 172.439,
+      "eval_steps_per_second": 5.613,
+      "step": 3068
     },
     {
+      "epoch": 59.83,
+      "learning_rate": 3.979289940828403e-06,
+      "loss": 0.0255,
+      "step": 3111
     },
     {
       "epoch": 60.0,
+      "eval_f1": 0.5789041950659493,
+      "eval_loss": 3.034423828125,
+      "eval_runtime": 3.2026,
+      "eval_samples_per_second": 172.67,
+      "eval_steps_per_second": 5.62,
+      "step": 3120
     },
     {
+      "epoch": 60.81,
+      "learning_rate": 3.2248520710059175e-06,
+      "loss": 0.0263,
+      "step": 3162
     },
     {
       "epoch": 61.0,
+      "eval_f1": 0.5789041950659493,
+      "eval_loss": 3.0331101417541504,
+      "eval_runtime": 3.2106,
+      "eval_samples_per_second": 172.241,
+      "eval_steps_per_second": 5.606,
+      "step": 3172
     },
     {
+      "epoch": 61.79,
+      "learning_rate": 2.470414201183432e-06,
+      "loss": 0.0239,
+      "step": 3213
     },
     {
       "epoch": 62.0,
+      "eval_f1": 0.5771494365349826,
+      "eval_loss": 3.0290367603302,
+      "eval_runtime": 3.1976,
+      "eval_samples_per_second": 172.941,
+      "eval_steps_per_second": 5.629,
+      "step": 3224
     },
     {
+      "epoch": 62.77,
+      "learning_rate": 1.7159763313609468e-06,
+      "loss": 0.0296,
+      "step": 3264
     },
     {
       "epoch": 63.0,
+      "eval_f1": 0.5807646048923409,
+      "eval_loss": 3.03131103515625,
+      "eval_runtime": 3.1937,
+      "eval_samples_per_second": 173.155,
+      "eval_steps_per_second": 5.636,
+      "step": 3276
     },
     {
+      "epoch": 63.75,
+      "learning_rate": 9.615384615384617e-07,
+      "loss": 0.0224,
+      "step": 3315
     },
     {
       "epoch": 64.0,
+      "eval_f1": 0.5772710868092534,
+      "eval_loss": 3.0326967239379883,
+      "eval_runtime": 3.2373,
+      "eval_samples_per_second": 170.823,
+      "eval_steps_per_second": 5.56,
+      "step": 3328
     },
     {
+      "epoch": 64.73,
+      "learning_rate": 2.0710059171597635e-07,
+      "loss": 0.0271,
+      "step": 3366
     },
     {
       "epoch": 65.0,
+      "eval_f1": 0.5772710868092534,
+      "eval_loss": 3.033085346221924,
+      "eval_runtime": 3.1894,
+      "eval_samples_per_second": 173.385,
+      "eval_steps_per_second": 5.644,
+      "step": 3380
     }
   ],
+  "max_steps": 3380,
   "num_train_epochs": 65,
   "total_flos": 1.4286659901696e+16,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69dba15562adc963c0e958faa40949482ed3f4a4e7db086eedc1130e4eecc7b6
-size 3707

 version https://git-lfs.github.com/spec/v1
+oid sha256:d587ee297d25c8e66693d6fc322dd9143b16b65714461c36ef30f3be59b6fd24
+size 3643