Training in progress, step 1000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +29 -1277
last-checkpoint/training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:029e9c8894a0c96fd6ca8ba665ad5db158d348035368b515dc3449fb070a1938
 size 995654149

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfc0123cbba4f38d5cdfff68f2a0e41ff0ec9e6991bb31ff96c249568367da7b
 size 995654149

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24f36f4b3e1bdd52cefc9ab7244f3b0b3e4f8b337303c7710a78bb1832f67065
 size 497813341

 version https://git-lfs.github.com/spec/v1
+oid sha256:0dacf0a88a737dae9876a70e69ef790c67063ab7f11fc9897f2c2b60fd4134c6
 size 497813341

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f36ca5cda8e8172589bec87116d5ef3a453d4e3cf3bb38ad7f51df24bf09b612
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a207e92cacead3ab8860e639b0b71073ac9b7006ea3c6bb5a174842a663984e
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:382a13ddd5c3186fd4cdb4e299711ecb1645e8173bbba27863f35186c104aed9
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:889074ce496d0433f5d3aaa744ef53c746b1953cf83f080c44d924a85d012261
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1319 +1,71 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
   "eval_steps": 200,
-  "global_step": 25195,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "eval_loss": 0.2690996825695038,
-      "eval_runtime": 151.5792,
-      "eval_samples_per_second": 945.618,
-      "eval_steps_per_second": 3.694,
       "step": 200
     },
     {
       "epoch": 0.08,
-      "eval_loss": 1.5648741722106934,
-      "eval_runtime": 151.1541,
-      "eval_samples_per_second": 948.277,
-      "eval_steps_per_second": 3.705,
       "step": 400
     },
     {
       "epoch": 0.1,
-      "learning_rate": 4.9007739630879147e-05,
-      "loss": 0.7894,
       "step": 500
     },
     {
       "epoch": 0.12,
-      "eval_loss": 0.40906086564064026,
-      "eval_runtime": 151.1687,
-      "eval_samples_per_second": 948.185,
-      "eval_steps_per_second": 3.704,
       "step": 600
     },
     {
       "epoch": 0.16,
-      "eval_loss": 0.4954818785190582,
-      "eval_runtime": 151.1164,
-      "eval_samples_per_second": 948.514,
-      "eval_steps_per_second": 3.706,
       "step": 800
     },
     {
       "epoch": 0.2,
-      "learning_rate": 4.801547926175829e-05,
-      "loss": 0.7504,
       "step": 1000
     },
     {
       "epoch": 0.2,
-      "eval_loss": 0.5256636738777161,
-      "eval_runtime": 151.0868,
-      "eval_samples_per_second": 948.7,
-      "eval_steps_per_second": 3.706,
-      "step": 1000
-    },
-    {
-      "epoch": 0.24,
-      "eval_loss": 0.6123775243759155,
-      "eval_runtime": 151.1133,
-      "eval_samples_per_second": 948.533,
-      "eval_steps_per_second": 3.706,
-      "step": 1200
-    },
-    {
-      "epoch": 0.28,
-      "eval_loss": 0.6223951578140259,
-      "eval_runtime": 151.141,
-      "eval_samples_per_second": 948.36,
-      "eval_steps_per_second": 3.705,
-      "step": 1400
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 4.7023218892637435e-05,
-      "loss": 0.7901,
-      "step": 1500
-    },
-    {
-      "epoch": 0.32,
-      "eval_loss": 0.5156298279762268,
-      "eval_runtime": 151.1176,
-      "eval_samples_per_second": 948.506,
-      "eval_steps_per_second": 3.706,
-      "step": 1600
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 0.7702064514160156,
-      "eval_runtime": 151.1572,
-      "eval_samples_per_second": 948.258,
-      "eval_steps_per_second": 3.705,
-      "step": 1800
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 4.603095852351657e-05,
-      "loss": 0.7633,
-      "step": 2000
-    },
-    {
-      "epoch": 0.4,
-      "eval_loss": 0.8383969664573669,
-      "eval_runtime": 151.2044,
-      "eval_samples_per_second": 947.962,
-      "eval_steps_per_second": 3.704,
-      "step": 2000
-    },
-    {
-      "epoch": 0.44,
-      "eval_loss": 0.7715063691139221,
-      "eval_runtime": 151.1515,
-      "eval_samples_per_second": 948.294,
-      "eval_steps_per_second": 3.705,
-      "step": 2200
-    },
-    {
-      "epoch": 0.48,
-      "eval_loss": 0.8304912447929382,
-      "eval_runtime": 151.1644,
-      "eval_samples_per_second": 948.213,
-      "eval_steps_per_second": 3.705,
-      "step": 2400
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 4.5038698154395716e-05,
-      "loss": 0.829,
-      "step": 2500
-    },
-    {
-      "epoch": 0.52,
-      "eval_loss": 0.8085972666740417,
-      "eval_runtime": 151.1877,
-      "eval_samples_per_second": 948.066,
-      "eval_steps_per_second": 3.704,
-      "step": 2600
-    },
-    {
-      "epoch": 0.56,
-      "eval_loss": 0.9329496026039124,
-      "eval_runtime": 151.1826,
-      "eval_samples_per_second": 948.098,
-      "eval_steps_per_second": 3.704,
-      "step": 2800
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 4.404643778527486e-05,
-      "loss": 0.829,
-      "step": 3000
-    },
-    {
-      "epoch": 0.6,
-      "eval_loss": 0.8683816194534302,
-      "eval_runtime": 151.1074,
-      "eval_samples_per_second": 948.571,
-      "eval_steps_per_second": 3.706,
-      "step": 3000
-    },
-    {
-      "epoch": 0.64,
-      "eval_loss": 0.9232978820800781,
-      "eval_runtime": 151.3223,
-      "eval_samples_per_second": 947.223,
-      "eval_steps_per_second": 3.701,
-      "step": 3200
-    },
-    {
-      "epoch": 0.67,
-      "eval_loss": 0.8544695973396301,
-      "eval_runtime": 151.1372,
-      "eval_samples_per_second": 948.383,
-      "eval_steps_per_second": 3.705,
-      "step": 3400
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 4.3054177416154005e-05,
-      "loss": 0.9221,
-      "step": 3500
-    },
-    {
-      "epoch": 0.71,
-      "eval_loss": 0.9146988987922668,
-      "eval_runtime": 151.1788,
-      "eval_samples_per_second": 948.122,
-      "eval_steps_per_second": 3.704,
-      "step": 3600
-    },
-    {
-      "epoch": 0.75,
-      "eval_loss": 0.8903905153274536,
-      "eval_runtime": 151.1333,
-      "eval_samples_per_second": 948.408,
-      "eval_steps_per_second": 3.705,
-      "step": 3800
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 4.206191704703314e-05,
-      "loss": 0.9301,
-      "step": 4000
-    },
-    {
-      "epoch": 0.79,
-      "eval_loss": 0.7672401666641235,
-      "eval_runtime": 151.0676,
-      "eval_samples_per_second": 948.821,
-      "eval_steps_per_second": 3.707,
-      "step": 4000
-    },
-    {
-      "epoch": 0.83,
-      "eval_loss": 0.9532115459442139,
-      "eval_runtime": 151.0924,
-      "eval_samples_per_second": 948.665,
-      "eval_steps_per_second": 3.706,
-      "step": 4200
-    },
-    {
-      "epoch": 0.87,
-      "eval_loss": 0.25937971472740173,
-      "eval_runtime": 151.2151,
-      "eval_samples_per_second": 947.895,
-      "eval_steps_per_second": 3.703,
-      "step": 4400
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 4.1069656677912286e-05,
-      "loss": 1.5584,
-      "step": 4500
-    },
-    {
-      "epoch": 0.91,
-      "eval_loss": 0.13394613564014435,
-      "eval_runtime": 151.3943,
-      "eval_samples_per_second": 946.773,
-      "eval_steps_per_second": 3.699,
-      "step": 4600
-    },
-    {
-      "epoch": 0.95,
-      "eval_loss": 0.1273290514945984,
-      "eval_runtime": 150.9105,
-      "eval_samples_per_second": 949.808,
-      "eval_steps_per_second": 3.711,
-      "step": 4800
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 4.0077396308791423e-05,
-      "loss": 0.135,
-      "step": 5000
-    },
-    {
-      "epoch": 0.99,
-      "eval_loss": 0.11838869005441666,
-      "eval_runtime": 150.9534,
-      "eval_samples_per_second": 949.538,
-      "eval_steps_per_second": 3.71,
-      "step": 5000
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.11631189286708832,
-      "eval_runtime": 150.9499,
-      "eval_samples_per_second": 949.56,
-      "eval_steps_per_second": 3.71,
-      "step": 5200
-    },
-    {
-      "epoch": 1.07,
-      "eval_loss": 0.11566050350666046,
-      "eval_runtime": 151.0546,
-      "eval_samples_per_second": 948.902,
-      "eval_steps_per_second": 3.707,
-      "step": 5400
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 3.908513593967057e-05,
-      "loss": 0.1189,
-      "step": 5500
-    },
-    {
-      "epoch": 1.11,
-      "eval_loss": 0.1144029051065445,
-      "eval_runtime": 151.022,
-      "eval_samples_per_second": 949.107,
-      "eval_steps_per_second": 3.708,
-      "step": 5600
-    },
-    {
-      "epoch": 1.15,
-      "eval_loss": 0.11364156752824783,
-      "eval_runtime": 151.0116,
-      "eval_samples_per_second": 949.172,
-      "eval_steps_per_second": 3.708,
-      "step": 5800
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 3.809287557054971e-05,
-      "loss": 0.1162,
-      "step": 6000
-    },
-    {
-      "epoch": 1.19,
-      "eval_loss": 0.113379567861557,
-      "eval_runtime": 151.0775,
-      "eval_samples_per_second": 948.758,
-      "eval_steps_per_second": 3.707,
-      "step": 6000
-    },
-    {
-      "epoch": 1.23,
-      "eval_loss": 0.11304181814193726,
-      "eval_runtime": 151.1881,
-      "eval_samples_per_second": 948.064,
-      "eval_steps_per_second": 3.704,
-      "step": 6200
-    },
-    {
-      "epoch": 1.27,
-      "eval_loss": 0.11305490881204605,
-      "eval_runtime": 151.0078,
-      "eval_samples_per_second": 949.196,
-      "eval_steps_per_second": 3.708,
-      "step": 6400
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 3.7100615201428856e-05,
-      "loss": 0.1165,
-      "step": 6500
-    },
-    {
-      "epoch": 1.31,
-      "eval_loss": 0.11227019131183624,
-      "eval_runtime": 151.0464,
-      "eval_samples_per_second": 948.953,
-      "eval_steps_per_second": 3.707,
-      "step": 6600
-    },
-    {
-      "epoch": 1.35,
-      "eval_loss": 0.11202485859394073,
-      "eval_runtime": 150.9714,
-      "eval_samples_per_second": 949.425,
       "eval_steps_per_second": 3.709,
-      "step": 6800
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 3.6108354832308e-05,
-      "loss": 0.1136,
-      "step": 7000
-    },
-    {
-      "epoch": 1.39,
-      "eval_loss": 0.11163973808288574,
-      "eval_runtime": 151.0638,
-      "eval_samples_per_second": 948.844,
-      "eval_steps_per_second": 3.707,
-      "step": 7000
-    },
-    {
-      "epoch": 1.43,
-      "eval_loss": 0.11151301115751266,
-      "eval_runtime": 151.052,
-      "eval_samples_per_second": 948.918,
-      "eval_steps_per_second": 3.707,
-      "step": 7200
-    },
-    {
-      "epoch": 1.47,
-      "eval_loss": 0.11108649522066116,
-      "eval_runtime": 151.035,
-      "eval_samples_per_second": 949.025,
-      "eval_steps_per_second": 3.708,
-      "step": 7400
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 3.5116094463187144e-05,
-      "loss": 0.1124,
-      "step": 7500
-    },
-    {
-      "epoch": 1.51,
-      "eval_loss": 0.11082353442907333,
-      "eval_runtime": 150.9886,
-      "eval_samples_per_second": 949.317,
-      "eval_steps_per_second": 3.709,
-      "step": 7600
-    },
-    {
-      "epoch": 1.55,
-      "eval_loss": 0.11104652285575867,
-      "eval_runtime": 150.9566,
-      "eval_samples_per_second": 949.518,
-      "eval_steps_per_second": 3.71,
-      "step": 7800
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 3.412383409406629e-05,
-      "loss": 0.1128,
-      "step": 8000
-    },
-    {
-      "epoch": 1.59,
-      "eval_loss": 0.11066918820142746,
-      "eval_runtime": 150.949,
-      "eval_samples_per_second": 949.566,
-      "eval_steps_per_second": 3.71,
-      "step": 8000
-    },
-    {
-      "epoch": 1.63,
-      "eval_loss": 0.11038321256637573,
-      "eval_runtime": 151.0411,
-      "eval_samples_per_second": 948.987,
-      "eval_steps_per_second": 3.708,
-      "step": 8200
-    },
-    {
-      "epoch": 1.67,
-      "eval_loss": 0.11011925339698792,
-      "eval_runtime": 151.052,
-      "eval_samples_per_second": 948.918,
-      "eval_steps_per_second": 3.707,
-      "step": 8400
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 3.3131573724945426e-05,
-      "loss": 0.1114,
-      "step": 8500
-    },
-    {
-      "epoch": 1.71,
-      "eval_loss": 0.11026579141616821,
-      "eval_runtime": 151.2041,
-      "eval_samples_per_second": 947.963,
-      "eval_steps_per_second": 3.704,
-      "step": 8600
-    },
-    {
-      "epoch": 1.75,
-      "eval_loss": 0.10981647670269012,
-      "eval_runtime": 151.0892,
-      "eval_samples_per_second": 948.685,
-      "eval_steps_per_second": 3.706,
-      "step": 8800
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 3.213931335582457e-05,
-      "loss": 0.1094,
-      "step": 9000
-    },
-    {
-      "epoch": 1.79,
-      "eval_loss": 0.11008855700492859,
-      "eval_runtime": 150.9863,
-      "eval_samples_per_second": 949.331,
-      "eval_steps_per_second": 3.709,
-      "step": 9000
-    },
-    {
-      "epoch": 1.83,
-      "eval_loss": 0.10983282327651978,
-      "eval_runtime": 150.9699,
-      "eval_samples_per_second": 949.434,
-      "eval_steps_per_second": 3.709,
-      "step": 9200
-    },
-    {
-      "epoch": 1.87,
-      "eval_loss": 0.10982002317905426,
-      "eval_runtime": 151.0614,
-      "eval_samples_per_second": 948.859,
-      "eval_steps_per_second": 3.707,
-      "step": 9400
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 3.1147052986703714e-05,
-      "loss": 0.111,
-      "step": 9500
-    },
-    {
-      "epoch": 1.91,
-      "eval_loss": 0.11063655465841293,
-      "eval_runtime": 151.0974,
-      "eval_samples_per_second": 948.633,
-      "eval_steps_per_second": 3.706,
-      "step": 9600
-    },
-    {
-      "epoch": 1.94,
-      "eval_loss": 0.10998239368200302,
-      "eval_runtime": 150.9779,
-      "eval_samples_per_second": 949.384,
-      "eval_steps_per_second": 3.709,
-      "step": 9800
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 3.0154792617582855e-05,
-      "loss": 0.1118,
-      "step": 10000
-    },
-    {
-      "epoch": 1.98,
-      "eval_loss": 0.10957028716802597,
-      "eval_runtime": 151.0796,
-      "eval_samples_per_second": 948.745,
-      "eval_steps_per_second": 3.707,
-      "step": 10000
-    },
-    {
-      "epoch": 2.02,
-      "eval_loss": 0.10959649085998535,
-      "eval_runtime": 150.9465,
-      "eval_samples_per_second": 949.582,
-      "eval_steps_per_second": 3.71,
-      "step": 10200
-    },
-    {
-      "epoch": 2.06,
-      "eval_loss": 0.10964351147413254,
-      "eval_runtime": 151.0871,
-      "eval_samples_per_second": 948.698,
-      "eval_steps_per_second": 3.706,
-      "step": 10400
-    },
-    {
-      "epoch": 2.08,
-      "learning_rate": 2.9162532248462e-05,
-      "loss": 0.1102,
-      "step": 10500
-    },
-    {
-      "epoch": 2.1,
-      "eval_loss": 0.1093754768371582,
-      "eval_runtime": 150.92,
-      "eval_samples_per_second": 949.748,
-      "eval_steps_per_second": 3.711,
-      "step": 10600
-    },
-    {
-      "epoch": 2.14,
-      "eval_loss": 0.10980819910764694,
-      "eval_runtime": 151.0665,
-      "eval_samples_per_second": 948.827,
-      "eval_steps_per_second": 3.707,
-      "step": 10800
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 2.8170271879341143e-05,
-      "loss": 0.1083,
-      "step": 11000
-    },
-    {
-      "epoch": 2.18,
-      "eval_loss": 0.10928498953580856,
-      "eval_runtime": 151.0595,
-      "eval_samples_per_second": 948.871,
-      "eval_steps_per_second": 3.707,
-      "step": 11000
-    },
-    {
-      "epoch": 2.22,
-      "eval_loss": 0.10924935340881348,
-      "eval_runtime": 151.0906,
-      "eval_samples_per_second": 948.676,
-      "eval_steps_per_second": 3.706,
-      "step": 11200
-    },
-    {
-      "epoch": 2.26,
-      "eval_loss": 0.10928213596343994,
-      "eval_runtime": 151.0496,
-      "eval_samples_per_second": 948.933,
-      "eval_steps_per_second": 3.707,
-      "step": 11400
-    },
-    {
-      "epoch": 2.28,
-      "learning_rate": 2.717801151022028e-05,
-      "loss": 0.1113,
-      "step": 11500
-    },
-    {
-      "epoch": 2.3,
-      "eval_loss": 0.10921794176101685,
-      "eval_runtime": 151.0887,
-      "eval_samples_per_second": 948.688,
-      "eval_steps_per_second": 3.706,
-      "step": 11600
-    },
-    {
-      "epoch": 2.34,
-      "eval_loss": 0.1091688945889473,
-      "eval_runtime": 151.1277,
-      "eval_samples_per_second": 948.443,
-      "eval_steps_per_second": 3.705,
-      "step": 11800
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 2.6185751141099424e-05,
-      "loss": 0.1102,
-      "step": 12000
-    },
-    {
-      "epoch": 2.38,
-      "eval_loss": 0.10950697958469391,
-      "eval_runtime": 151.1121,
-      "eval_samples_per_second": 948.541,
-      "eval_steps_per_second": 3.706,
-      "step": 12000
-    },
-    {
-      "epoch": 2.42,
-      "eval_loss": 0.10911945253610611,
-      "eval_runtime": 151.0456,
-      "eval_samples_per_second": 948.958,
-      "eval_steps_per_second": 3.707,
-      "step": 12200
-    },
-    {
-      "epoch": 2.46,
-      "eval_loss": 0.1094910129904747,
-      "eval_runtime": 150.9865,
-      "eval_samples_per_second": 949.33,
-      "eval_steps_per_second": 3.709,
-      "step": 12400
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 2.519349077197857e-05,
-      "loss": 0.1093,
-      "step": 12500
-    },
-    {
-      "epoch": 2.5,
-      "eval_loss": 0.10911854356527328,
-      "eval_runtime": 150.8255,
-      "eval_samples_per_second": 950.343,
-      "eval_steps_per_second": 3.713,
-      "step": 12600
-    },
-    {
-      "epoch": 2.54,
-      "eval_loss": 0.1091616079211235,
-      "eval_runtime": 150.8284,
-      "eval_samples_per_second": 950.325,
-      "eval_steps_per_second": 3.713,
-      "step": 12800
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 2.420123040285771e-05,
-      "loss": 0.1105,
-      "step": 13000
-    },
-    {
-      "epoch": 2.58,
-      "eval_loss": 0.10907712578773499,
-      "eval_runtime": 151.0685,
-      "eval_samples_per_second": 948.815,
-      "eval_steps_per_second": 3.707,
-      "step": 13000
-    },
-    {
-      "epoch": 2.62,
-      "eval_loss": 0.10917963832616806,
-      "eval_runtime": 150.9953,
-      "eval_samples_per_second": 949.274,
-      "eval_steps_per_second": 3.709,
-      "step": 13200
-    },
-    {
-      "epoch": 2.66,
-      "eval_loss": 0.10913284868001938,
-      "eval_runtime": 150.8911,
-      "eval_samples_per_second": 949.93,
-      "eval_steps_per_second": 3.711,
-      "step": 13400
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 2.3208970033736854e-05,
-      "loss": 0.1094,
-      "step": 13500
-    },
-    {
-      "epoch": 2.7,
-      "eval_loss": 0.10903245210647583,
-      "eval_runtime": 150.9858,
-      "eval_samples_per_second": 949.334,
-      "eval_steps_per_second": 3.709,
-      "step": 13600
-    },
-    {
-      "epoch": 2.74,
-      "eval_loss": 0.10889765620231628,
-      "eval_runtime": 150.9473,
-      "eval_samples_per_second": 949.577,
-      "eval_steps_per_second": 3.71,
-      "step": 13800
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 2.2216709664615994e-05,
-      "loss": 0.1104,
-      "step": 14000
-    },
-    {
-      "epoch": 2.78,
-      "eval_loss": 0.1090923622250557,
-      "eval_runtime": 151.128,
-      "eval_samples_per_second": 948.441,
-      "eval_steps_per_second": 3.705,
-      "step": 14000
-    },
-    {
-      "epoch": 2.82,
-      "eval_loss": 0.10899552702903748,
-      "eval_runtime": 151.5342,
-      "eval_samples_per_second": 945.899,
-      "eval_steps_per_second": 3.696,
-      "step": 14200
-    },
-    {
-      "epoch": 2.86,
-      "eval_loss": 0.10895191133022308,
-      "eval_runtime": 150.9811,
-      "eval_samples_per_second": 949.364,
-      "eval_steps_per_second": 3.709,
-      "step": 14400
-    },
-    {
-      "epoch": 2.88,
-      "learning_rate": 2.122444929549514e-05,
-      "loss": 0.1117,
-      "step": 14500
-    },
-    {
-      "epoch": 2.9,
-      "eval_loss": 0.10904989391565323,
-      "eval_runtime": 150.9339,
-      "eval_samples_per_second": 949.661,
-      "eval_steps_per_second": 3.71,
-      "step": 14600
-    },
-    {
-      "epoch": 2.94,
-      "eval_loss": 0.10929518938064575,
-      "eval_runtime": 150.8669,
-      "eval_samples_per_second": 950.082,
-      "eval_steps_per_second": 3.712,
-      "step": 14800
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 2.0232188926374283e-05,
-      "loss": 0.1093,
-      "step": 15000
-    },
-    {
-      "epoch": 2.98,
-      "eval_loss": 0.10902168601751328,
-      "eval_runtime": 151.0426,
-      "eval_samples_per_second": 948.977,
-      "eval_steps_per_second": 3.708,
-      "step": 15000
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 0.10888814926147461,
-      "eval_runtime": 150.8829,
-      "eval_samples_per_second": 949.982,
-      "eval_steps_per_second": 3.711,
-      "step": 15200
-    },
-    {
-      "epoch": 3.06,
-      "eval_loss": 0.1088201105594635,
-      "eval_runtime": 150.8765,
-      "eval_samples_per_second": 950.022,
-      "eval_steps_per_second": 3.712,
-      "step": 15400
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 1.9239928557253427e-05,
-      "loss": 0.1098,
-      "step": 15500
-    },
-    {
-      "epoch": 3.1,
-      "eval_loss": 0.10886531323194504,
-      "eval_runtime": 150.9989,
-      "eval_samples_per_second": 949.252,
-      "eval_steps_per_second": 3.709,
-      "step": 15600
-    },
-    {
-      "epoch": 3.14,
-      "eval_loss": 0.1089038997888565,
-      "eval_runtime": 150.8728,
-      "eval_samples_per_second": 950.045,
-      "eval_steps_per_second": 3.712,
-      "step": 15800
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 1.8247668188132567e-05,
-      "loss": 0.1102,
-      "step": 16000
-    },
-    {
-      "epoch": 3.18,
-      "eval_loss": 0.10882215201854706,
-      "eval_runtime": 151.4626,
-      "eval_samples_per_second": 946.346,
-      "eval_steps_per_second": 3.697,
-      "step": 16000
-    },
-    {
-      "epoch": 3.21,
-      "eval_loss": 0.10881613940000534,
-      "eval_runtime": 151.4856,
-      "eval_samples_per_second": 946.202,
-      "eval_steps_per_second": 3.697,
-      "step": 16200
-    },
-    {
-      "epoch": 3.25,
-      "eval_loss": 0.10882557183504105,
-      "eval_runtime": 150.9956,
-      "eval_samples_per_second": 949.273,
-      "eval_steps_per_second": 3.709,
-      "step": 16400
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 1.7255407819011708e-05,
-      "loss": 0.1087,
-      "step": 16500
-    },
-    {
-      "epoch": 3.29,
-      "eval_loss": 0.10881206393241882,
-      "eval_runtime": 150.911,
-      "eval_samples_per_second": 949.805,
-      "eval_steps_per_second": 3.711,
-      "step": 16600
-    },
-    {
-      "epoch": 3.33,
-      "eval_loss": 0.10894536972045898,
-      "eval_runtime": 150.8614,
-      "eval_samples_per_second": 950.117,
-      "eval_steps_per_second": 3.712,
-      "step": 16800
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 1.6263147449890852e-05,
-      "loss": 0.1082,
-      "step": 17000
-    },
-    {
-      "epoch": 3.37,
-      "eval_loss": 0.10886503010988235,
-      "eval_runtime": 151.0504,
-      "eval_samples_per_second": 948.928,
-      "eval_steps_per_second": 3.707,
-      "step": 17000
-    },
-    {
-      "epoch": 3.41,
-      "eval_loss": 0.10877899825572968,
-      "eval_runtime": 150.8388,
-      "eval_samples_per_second": 950.259,
-      "eval_steps_per_second": 3.713,
-      "step": 17200
-    },
-    {
-      "epoch": 3.45,
-      "eval_loss": 0.10876929759979248,
-      "eval_runtime": 150.9938,
-      "eval_samples_per_second": 949.284,
-      "eval_steps_per_second": 3.709,
-      "step": 17400
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 1.5270887080769993e-05,
-      "loss": 0.1097,
-      "step": 17500
-    },
-    {
-      "epoch": 3.49,
-      "eval_loss": 0.1089547798037529,
-      "eval_runtime": 151.0328,
-      "eval_samples_per_second": 949.039,
-      "eval_steps_per_second": 3.708,
-      "step": 17600
-    },
-    {
-      "epoch": 3.53,
-      "eval_loss": 0.10884077101945877,
-      "eval_runtime": 151.0214,
-      "eval_samples_per_second": 949.111,
-      "eval_steps_per_second": 3.708,
-      "step": 17800
-    },
-    {
-      "epoch": 3.57,
-      "learning_rate": 1.4278626711649137e-05,
-      "loss": 0.1105,
-      "step": 18000
-    },
-    {
-      "epoch": 3.57,
-      "eval_loss": 0.1087304875254631,
-      "eval_runtime": 150.7922,
-      "eval_samples_per_second": 950.553,
-      "eval_steps_per_second": 3.714,
-      "step": 18000
-    },
-    {
-      "epoch": 3.61,
-      "eval_loss": 0.10879357904195786,
-      "eval_runtime": 150.8914,
-      "eval_samples_per_second": 949.929,
-      "eval_steps_per_second": 3.711,
-      "step": 18200
-    },
-    {
-      "epoch": 3.65,
-      "eval_loss": 0.10872866213321686,
-      "eval_runtime": 150.992,
-      "eval_samples_per_second": 949.295,
-      "eval_steps_per_second": 3.709,
-      "step": 18400
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 1.3286366342528281e-05,
-      "loss": 0.1089,
-      "step": 18500
-    },
-    {
-      "epoch": 3.69,
-      "eval_loss": 0.10874517261981964,
-      "eval_runtime": 151.2717,
-      "eval_samples_per_second": 947.54,
-      "eval_steps_per_second": 3.702,
-      "step": 18600
-    },
-    {
-      "epoch": 3.73,
-      "eval_loss": 0.10880085825920105,
-      "eval_runtime": 150.8035,
-      "eval_samples_per_second": 950.482,
-      "eval_steps_per_second": 3.713,
-      "step": 18800
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 1.2294105973407422e-05,
-      "loss": 0.1101,
-      "step": 19000
-    },
-    {
-      "epoch": 3.77,
-      "eval_loss": 0.10869602859020233,
-      "eval_runtime": 150.9258,
-      "eval_samples_per_second": 949.712,
-      "eval_steps_per_second": 3.71,
-      "step": 19000
-    },
-    {
-      "epoch": 3.81,
-      "eval_loss": 0.10874003916978836,
-      "eval_runtime": 150.8809,
-      "eval_samples_per_second": 949.994,
-      "eval_steps_per_second": 3.712,
-      "step": 19200
-    },
-    {
-      "epoch": 3.85,
-      "eval_loss": 0.10871053487062454,
-      "eval_runtime": 151.4705,
-      "eval_samples_per_second": 946.296,
-      "eval_steps_per_second": 3.697,
-      "step": 19400
-    },
-    {
-      "epoch": 3.87,
-      "learning_rate": 1.1301845604286565e-05,
-      "loss": 0.1095,
-      "step": 19500
-    },
-    {
-      "epoch": 3.89,
-      "eval_loss": 0.10870121419429779,
-      "eval_runtime": 151.2796,
-      "eval_samples_per_second": 947.491,
-      "eval_steps_per_second": 3.702,
-      "step": 19600
-    },
-    {
-      "epoch": 3.93,
-      "eval_loss": 0.1087031215429306,
-      "eval_runtime": 151.3836,
-      "eval_samples_per_second": 946.839,
-      "eval_steps_per_second": 3.699,
-      "step": 19800
-    },
-    {
-      "epoch": 3.97,
-      "learning_rate": 1.0309585235165709e-05,
-      "loss": 0.1089,
-      "step": 20000
-    },
-    {
-      "epoch": 3.97,
-      "eval_loss": 0.10877121239900589,
-      "eval_runtime": 150.9637,
-      "eval_samples_per_second": 949.473,
-      "eval_steps_per_second": 3.71,
-      "step": 20000
-    },
-    {
-      "epoch": 4.01,
-      "eval_loss": 0.10867509990930557,
-      "eval_runtime": 151.1135,
-      "eval_samples_per_second": 948.532,
-      "eval_steps_per_second": 3.706,
-      "step": 20200
-    },
-    {
-      "epoch": 4.05,
-      "eval_loss": 0.10896100848913193,
-      "eval_runtime": 151.009,
-      "eval_samples_per_second": 949.189,
-      "eval_steps_per_second": 3.708,
-      "step": 20400
-    },
-    {
-      "epoch": 4.07,
-      "learning_rate": 9.317324866044851e-06,
-      "loss": 0.1093,
-      "step": 20500
-    },
-    {
-      "epoch": 4.09,
-      "eval_loss": 0.10866597294807434,
-      "eval_runtime": 151.1827,
-      "eval_samples_per_second": 948.098,
-      "eval_steps_per_second": 3.704,
-      "step": 20600
-    },
-    {
-      "epoch": 4.13,
-      "eval_loss": 0.1086614802479744,
-      "eval_runtime": 150.9777,
-      "eval_samples_per_second": 949.385,
-      "eval_steps_per_second": 3.709,
-      "step": 20800
-    },
-    {
-      "epoch": 4.17,
-      "learning_rate": 8.325064496923992e-06,
-      "loss": 0.1091,
-      "step": 21000
-    },
-    {
-      "epoch": 4.17,
-      "eval_loss": 0.1086558997631073,
-      "eval_runtime": 150.9361,
-      "eval_samples_per_second": 949.647,
-      "eval_steps_per_second": 3.71,
-      "step": 21000
-    },
-    {
-      "epoch": 4.21,
-      "eval_loss": 0.10874707996845245,
-      "eval_runtime": 150.8938,
-      "eval_samples_per_second": 949.913,
-      "eval_steps_per_second": 3.711,
-      "step": 21200
-    },
-    {
-      "epoch": 4.25,
-      "eval_loss": 0.10870933532714844,
-      "eval_runtime": 150.9348,
-      "eval_samples_per_second": 949.655,
-      "eval_steps_per_second": 3.71,
-      "step": 21400
-    },
-    {
-      "epoch": 4.27,
-      "learning_rate": 7.332804127803136e-06,
-      "loss": 0.11,
-      "step": 21500
-    },
-    {
-      "epoch": 4.29,
-      "eval_loss": 0.10863141715526581,
-      "eval_runtime": 151.0321,
-      "eval_samples_per_second": 949.043,
-      "eval_steps_per_second": 3.708,
-      "step": 21600
-    },
-    {
-      "epoch": 4.33,
-      "eval_loss": 0.1086675301194191,
-      "eval_runtime": 150.8629,
-      "eval_samples_per_second": 950.108,
-      "eval_steps_per_second": 3.712,
-      "step": 21800
-    },
-    {
-      "epoch": 4.37,
-      "learning_rate": 6.3405437586822785e-06,
-      "loss": 0.11,
-      "step": 22000
-    },
-    {
-      "epoch": 4.37,
-      "eval_loss": 0.10875381529331207,
-      "eval_runtime": 150.9082,
-      "eval_samples_per_second": 949.822,
-      "eval_steps_per_second": 3.711,
-      "step": 22000
-    },
-    {
-      "epoch": 4.41,
-      "eval_loss": 0.10868263989686966,
-      "eval_runtime": 150.9029,
-      "eval_samples_per_second": 949.856,
-      "eval_steps_per_second": 3.711,
-      "step": 22200
-    },
-    {
-      "epoch": 4.45,
-      "eval_loss": 0.10862214863300323,
-      "eval_runtime": 150.9465,
-      "eval_samples_per_second": 949.582,
-      "eval_steps_per_second": 3.71,
-      "step": 22400
-    },
-    {
-      "epoch": 4.47,
-      "learning_rate": 5.348283389561421e-06,
-      "loss": 0.1094,
-      "step": 22500
-    },
-    {
-      "epoch": 4.49,
-      "eval_loss": 0.10863359272480011,
-      "eval_runtime": 150.949,
-      "eval_samples_per_second": 949.566,
-      "eval_steps_per_second": 3.71,
-      "step": 22600
-    },
-    {
-      "epoch": 4.52,
-      "eval_loss": 0.10862518846988678,
-      "eval_runtime": 150.9951,
-      "eval_samples_per_second": 949.276,
-      "eval_steps_per_second": 3.709,
-      "step": 22800
-    },
-    {
-      "epoch": 4.56,
-      "learning_rate": 4.356023020440564e-06,
-      "loss": 0.1086,
-      "step": 23000
-    },
-    {
-      "epoch": 4.56,
-      "eval_loss": 0.10860537737607956,
-      "eval_runtime": 150.9863,
-      "eval_samples_per_second": 949.331,
-      "eval_steps_per_second": 3.709,
-      "step": 23000
-    },
-    {
-      "epoch": 4.6,
-      "eval_loss": 0.10861887782812119,
-      "eval_runtime": 150.9451,
-      "eval_samples_per_second": 949.59,
-      "eval_steps_per_second": 3.71,
-      "step": 23200
-    },
-    {
-      "epoch": 4.64,
-      "eval_loss": 0.10863388329744339,
-      "eval_runtime": 150.9571,
-      "eval_samples_per_second": 949.515,
-      "eval_steps_per_second": 3.71,
-      "step": 23400
-    },
-    {
-      "epoch": 4.66,
-      "learning_rate": 3.3637626513197067e-06,
-      "loss": 0.1087,
-      "step": 23500
-    },
-    {
-      "epoch": 4.68,
-      "eval_loss": 0.10861673206090927,
-      "eval_runtime": 150.8,
-      "eval_samples_per_second": 950.504,
-      "eval_steps_per_second": 3.714,
-      "step": 23600
-    },
-    {
-      "epoch": 4.72,
-      "eval_loss": 0.10860313475131989,
-      "eval_runtime": 150.9239,
-      "eval_samples_per_second": 949.724,
-      "eval_steps_per_second": 3.71,
-      "step": 23800
-    },
-    {
-      "epoch": 4.76,
-      "learning_rate": 2.371502282198849e-06,
-      "loss": 0.1105,
-      "step": 24000
-    },
-    {
-      "epoch": 4.76,
-      "eval_loss": 0.10860700160264969,
-      "eval_runtime": 151.02,
-      "eval_samples_per_second": 949.119,
-      "eval_steps_per_second": 3.708,
-      "step": 24000
-    },
-    {
-      "epoch": 4.8,
-      "eval_loss": 0.1085989773273468,
-      "eval_runtime": 151.0214,
-      "eval_samples_per_second": 949.111,
-      "eval_steps_per_second": 3.708,
-      "step": 24200
-    },
-    {
-      "epoch": 4.84,
-      "eval_loss": 0.10860409587621689,
-      "eval_runtime": 151.0306,
-      "eval_samples_per_second": 949.053,
-      "eval_steps_per_second": 3.708,
-      "step": 24400
-    },
-    {
-      "epoch": 4.86,
-      "learning_rate": 1.3792419130779918e-06,
-      "loss": 0.1092,
-      "step": 24500
-    },
-    {
-      "epoch": 4.88,
-      "eval_loss": 0.10858762264251709,
-      "eval_runtime": 150.7929,
-      "eval_samples_per_second": 950.549,
-      "eval_steps_per_second": 3.714,
-      "step": 24600
-    },
-    {
-      "epoch": 4.92,
-      "eval_loss": 0.10861339420080185,
-      "eval_runtime": 150.9395,
-      "eval_samples_per_second": 949.626,
-      "eval_steps_per_second": 3.71,
-      "step": 24800
-    },
-    {
-      "epoch": 4.96,
-      "learning_rate": 3.869815439571344e-07,
-      "loss": 0.108,
-      "step": 25000
-    },
-    {
-      "epoch": 4.96,
-      "eval_loss": 0.10859096795320511,
-      "eval_runtime": 150.9591,
-      "eval_samples_per_second": 949.502,
-      "eval_steps_per_second": 3.71,
-      "step": 25000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 25195,
-  "num_train_epochs": 5,
   "save_steps": 1000,
-  "total_flos": 4.2132817575936e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.19845207382417146,
   "eval_steps": 200,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "eval_loss": 0.24929340183734894,
+      "eval_runtime": 152.0524,
+      "eval_samples_per_second": 942.675,
+      "eval_steps_per_second": 3.683,
       "step": 200
     },
     {
       "epoch": 0.08,
+      "eval_loss": 0.397050142288208,
+      "eval_runtime": 151.7752,
+      "eval_samples_per_second": 944.397,
+      "eval_steps_per_second": 3.69,
       "step": 400
     },
     {
       "epoch": 0.1,
+      "learning_rate": 4.751934907719786e-05,
+      "loss": 0.4919,
       "step": 500
     },
     {
       "epoch": 0.12,
+      "eval_loss": 0.619749903678894,
+      "eval_runtime": 153.0348,
+      "eval_samples_per_second": 936.624,
+      "eval_steps_per_second": 3.659,
       "step": 600
     },
     {
       "epoch": 0.16,
+      "eval_loss": 0.5482326149940491,
+      "eval_runtime": 151.3209,
+      "eval_samples_per_second": 947.232,
+      "eval_steps_per_second": 3.701,
       "step": 800
     },
     {
       "epoch": 0.2,
+      "learning_rate": 4.5038698154395716e-05,
+      "loss": 0.9307,
       "step": 1000
     },
     {
       "epoch": 0.2,
+      "eval_loss": 0.861940324306488,
+      "eval_runtime": 150.9686,
+      "eval_samples_per_second": 949.442,
       "eval_steps_per_second": 3.709,
+      "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 10078,
+  "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.6722690048e+16,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:184ef5bf0b041b29b3a59cd7d7702c8cac57e3d54b18c7d1465b02e76d4d8643
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:12d4324537606b6fc0897b8a9dc3e771514e3581e4386565dc3d3bd2f4e1e518
 size 4027