Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +11 -11
eval_nbest_predictions.json +2 -2
eval_predictions.json +0 -0
eval_results.json +6 -6
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +39 -545
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -42,7 +42,7 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 2.0
 ### Training results

 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 2.0,
-    "eval_exact_match": 87.9783881134624,
-    "eval_f1": 88.03091700435239,
-    "eval_runtime": 19.8311,
     "eval_samples": 4442,
-    "eval_samples_per_second": 223.991,
-    "eval_steps_per_second": 28.037,
-    "total_flos": 4.284348397959168e+16,
-    "train_loss": 0.5882660921596692,
-    "train_runtime": 1480.7732,
     "train_samples": 62865,
-    "train_samples_per_second": 84.908,
-    "train_steps_per_second": 5.308
 }

 {
+    "epoch": 1.0,
+    "eval_exact_match": 86.65015758667268,
+    "eval_f1": 86.8584507193242,
+    "eval_runtime": 19.8335,
     "eval_samples": 4442,
+    "eval_samples_per_second": 223.965,
+    "eval_steps_per_second": 28.033,
+    "total_flos": 2.142174198979584e+16,
+    "train_loss": 0.7834983495658894,
+    "train_runtime": 745.8939,
     "train_samples": 62865,
+    "train_samples_per_second": 84.281,
+    "train_steps_per_second": 5.269
 }

eval_nbest_predictions.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e5ea5570d46ab43aa4b55dbcdef4e5c46cc6b5f03bdebd3ce17da6f63f0f6a0
-size 21926555

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9a9b62efae496dfc71e9c81d39544e29648310ddb58411d39274b07f8cd0c0c
+size 22281954

eval_predictions.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.0,
-    "eval_exact_match": 87.9783881134624,
-    "eval_f1": 88.03091700435239,
-    "eval_runtime": 19.8311,
     "eval_samples": 4442,
-    "eval_samples_per_second": 223.991,
-    "eval_steps_per_second": 28.037
 }

 {
+    "epoch": 1.0,
+    "eval_exact_match": 86.65015758667268,
+    "eval_f1": 86.8584507193242,
+    "eval_runtime": 19.8335,
     "eval_samples": 4442,
+    "eval_samples_per_second": 223.965,
+    "eval_steps_per_second": 28.033
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aee8f70682f9064c2325273a3b27b272b196c9b1a2e217ba2625ec70c6fb65e
 size 749600616

 version https://git-lfs.github.com/spec/v1
+oid sha256:84b97f11383764341096211c16978a52dd2d5bb6ddb509fe7b1b30d4f171357e
 size 749600616

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.0,
-    "total_flos": 4.284348397959168e+16,
-    "train_loss": 0.5882660921596692,
-    "train_runtime": 1480.7732,
     "train_samples": 62865,
-    "train_samples_per_second": 84.908,
-    "train_steps_per_second": 5.308
 }

 {
+    "epoch": 1.0,
+    "total_flos": 2.142174198979584e+16,
+    "train_loss": 0.7834983495658894,
+    "train_runtime": 745.8939,
     "train_samples": 62865,
+    "train_samples_per_second": 84.281,
+    "train_steps_per_second": 5.269
 }

trainer_state.json CHANGED Viewed

@@ -2,591 +2,85 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 7860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.02544529262086514,
-      "grad_norm": 14.018085479736328,
-      "learning_rate": 5.038167938931297e-06,
-      "loss": 5.495,
-      "step": 100
-    },
-    {
-      "epoch": 0.05089058524173028,
-      "grad_norm": 17.718544006347656,
-      "learning_rate": 1.0127226463104327e-05,
-      "loss": 3.2381,
-      "step": 200
-    },
-    {
-      "epoch": 0.07633587786259542,
-      "grad_norm": 34.95506286621094,
-      "learning_rate": 1.5216284987277354e-05,
-      "loss": 2.3499,
-      "step": 300
-    },
-    {
-      "epoch": 0.10178117048346055,
-      "grad_norm": 18.550844192504883,
-      "learning_rate": 2.0305343511450384e-05,
-      "loss": 1.6151,
-      "step": 400
-    },
     {
       "epoch": 0.1272264631043257,
-      "grad_norm": 19.01876449584961,
-      "learning_rate": 2.5394402035623415e-05,
-      "loss": 1.2363,
       "step": 500
     },
-    {
-      "epoch": 0.15267175572519084,
-      "grad_norm": 10.618987083435059,
-      "learning_rate": 3.048346055979644e-05,
-      "loss": 1.1415,
-      "step": 600
-    },
-    {
-      "epoch": 0.178117048346056,
-      "grad_norm": 15.46481990814209,
-      "learning_rate": 3.557251908396947e-05,
-      "loss": 0.9468,
-      "step": 700
-    },
-    {
-      "epoch": 0.2035623409669211,
-      "grad_norm": 11.06924057006836,
-      "learning_rate": 3.9999666684789474e-05,
-      "loss": 0.8361,
-      "step": 800
-    },
-    {
-      "epoch": 0.22900763358778625,
-      "grad_norm": 53.707664489746094,
-      "learning_rate": 3.997482117988182e-05,
-      "loss": 0.7264,
-      "step": 900
-    },
     {
       "epoch": 0.2544529262086514,
-      "grad_norm": 9.740643501281738,
-      "learning_rate": 3.99105861127605e-05,
-      "loss": 0.7597,
       "step": 1000
     },
-    {
-      "epoch": 0.27989821882951654,
-      "grad_norm": 16.776819229125977,
-      "learning_rate": 3.980708815245299e-05,
-      "loss": 0.7007,
-      "step": 1100
-    },
-    {
-      "epoch": 0.3053435114503817,
-      "grad_norm": 8.06242847442627,
-      "learning_rate": 3.9664531392868807e-05,
-      "loss": 0.6887,
-      "step": 1200
-    },
-    {
-      "epoch": 0.33078880407124683,
-      "grad_norm": 12.792263984680176,
-      "learning_rate": 3.9483196950334345e-05,
-      "loss": 0.6555,
-      "step": 1300
-    },
-    {
-      "epoch": 0.356234096692112,
-      "grad_norm": 24.67995834350586,
-      "learning_rate": 3.9263442409242555e-05,
-      "loss": 0.6284,
-      "step": 1400
-    },
     {
       "epoch": 0.3816793893129771,
-      "grad_norm": 10.594704627990723,
-      "learning_rate": 3.9005701116910544e-05,
-      "loss": 0.66,
       "step": 1500
     },
-    {
-      "epoch": 0.4071246819338422,
-      "grad_norm": 16.927017211914062,
-      "learning_rate": 3.871048132903571e-05,
-      "loss": 0.6219,
-      "step": 1600
-    },
-    {
-      "epoch": 0.43256997455470736,
-      "grad_norm": 11.569594383239746,
-      "learning_rate": 3.8378365207435505e-05,
-      "loss": 0.5795,
-      "step": 1700
-    },
-    {
-      "epoch": 0.4580152671755725,
-      "grad_norm": 7.332423210144043,
-      "learning_rate": 3.801000767204719e-05,
-      "loss": 0.602,
-      "step": 1800
-    },
-    {
-      "epoch": 0.48346055979643765,
-      "grad_norm": 15.542613983154297,
-      "learning_rate": 3.7606135109451464e-05,
-      "loss": 0.5607,
-      "step": 1900
-    },
     {
       "epoch": 0.5089058524173028,
-      "grad_norm": 4.43936824798584,
-      "learning_rate": 3.7167543940466696e-05,
-      "loss": 0.6086,
       "step": 2000
     },
-    {
-      "epoch": 0.5343511450381679,
-      "grad_norm": 12.216741561889648,
-      "learning_rate": 3.6695099049638365e-05,
-      "loss": 0.5765,
-      "step": 2100
-    },
-    {
-      "epoch": 0.5597964376590331,
-      "grad_norm": 10.111679077148438,
-      "learning_rate": 3.618973207972071e-05,
-      "loss": 0.5982,
-      "step": 2200
-    },
-    {
-      "epoch": 0.5852417302798982,
-      "grad_norm": 11.400161743164062,
-      "learning_rate": 3.5652439594513904e-05,
-      "loss": 0.5568,
-      "step": 2300
-    },
-    {
-      "epoch": 0.6106870229007634,
-      "grad_norm": 5.88036584854126,
-      "learning_rate": 3.508428111367932e-05,
-      "loss": 0.5134,
-      "step": 2400
-    },
     {
       "epoch": 0.6361323155216285,
-      "grad_norm": 5.014535903930664,
-      "learning_rate": 3.44863770234085e-05,
-      "loss": 0.4753,
       "step": 2500
     },
-    {
-      "epoch": 0.6615776081424937,
-      "grad_norm": 7.856019496917725,
-      "learning_rate": 3.385990636706554e-05,
-      "loss": 0.5562,
-      "step": 2600
-    },
-    {
-      "epoch": 0.6870229007633588,
-      "grad_norm": 2.1098134517669678,
-      "learning_rate": 3.3206104520160004e-05,
-      "loss": 0.5474,
-      "step": 2700
-    },
-    {
-      "epoch": 0.712468193384224,
-      "grad_norm": 6.840382099151611,
-      "learning_rate": 3.252626075423488e-05,
-      "loss": 0.4687,
-      "step": 2800
-    },
-    {
-      "epoch": 0.7379134860050891,
-      "grad_norm": 11.738897323608398,
-      "learning_rate": 3.1821715694473885e-05,
-      "loss": 0.548,
-      "step": 2900
-    },
     {
       "epoch": 0.7633587786259542,
-      "grad_norm": 9.473503112792969,
-      "learning_rate": 3.10938586760412e-05,
-      "loss": 0.4915,
       "step": 3000
     },
-    {
-      "epoch": 0.7888040712468194,
-      "grad_norm": 6.523691177368164,
-      "learning_rate": 3.0344125004367205e-05,
-      "loss": 0.4947,
-      "step": 3100
-    },
-    {
-      "epoch": 0.8142493638676844,
-      "grad_norm": 5.054864883422852,
-      "learning_rate": 2.9573993124782555e-05,
-      "loss": 0.5223,
-      "step": 3200
-    },
-    {
-      "epoch": 0.8396946564885496,
-      "grad_norm": 9.77381420135498,
-      "learning_rate": 2.8784981707082113e-05,
-      "loss": 0.4955,
-      "step": 3300
-    },
-    {
-      "epoch": 0.8651399491094147,
-      "grad_norm": 4.1154584884643555,
-      "learning_rate": 2.7978646650767803e-05,
-      "loss": 0.4927,
-      "step": 3400
-    },
     {
       "epoch": 0.8905852417302799,
-      "grad_norm": 16.85251235961914,
-      "learning_rate": 2.7156578016875935e-05,
-      "loss": 0.5009,
       "step": 3500
     },
-    {
-      "epoch": 0.916030534351145,
-      "grad_norm": 10.117000579833984,
-      "learning_rate": 2.632039689243941e-05,
-      "loss": 0.4807,
-      "step": 3600
-    },
-    {
-      "epoch": 0.9414758269720102,
-      "grad_norm": 6.332391262054443,
-      "learning_rate": 2.5471752193767702e-05,
-      "loss": 0.5069,
-      "step": 3700
-    },
-    {
-      "epoch": 0.9669211195928753,
-      "grad_norm": 10.722579956054688,
-      "learning_rate": 2.4612317414848804e-05,
-      "loss": 0.5103,
-      "step": 3800
-    },
-    {
-      "epoch": 0.9923664122137404,
-      "grad_norm": 3.0242695808410645,
-      "learning_rate": 2.374378732728483e-05,
-      "loss": 0.4559,
-      "step": 3900
-    },
     {
       "epoch": 1.0,
-      "eval_exact_match": 86.28995947771274,
-      "eval_f1": 86.33873630496772,
-      "eval_runtime": 19.9463,
-      "eval_samples_per_second": 222.698,
-      "eval_steps_per_second": 27.875,
       "step": 3930
     },
     {
-      "epoch": 1.0178117048346056,
-      "grad_norm": 9.833579063415527,
-      "learning_rate": 2.2867874638269023e-05,
-      "loss": 0.3774,
-      "step": 4000
-    },
-    {
-      "epoch": 1.0432569974554706,
-      "grad_norm": 3.0543391704559326,
-      "learning_rate": 2.1986306613194482e-05,
-      "loss": 0.3241,
-      "step": 4100
-    },
-    {
-      "epoch": 1.0687022900763359,
-      "grad_norm": 1.1584059000015259,
-      "learning_rate": 2.1100821669554764e-05,
-      "loss": 0.3121,
-      "step": 4200
-    },
-    {
-      "epoch": 1.094147582697201,
-      "grad_norm": 2.015965461730957,
-      "learning_rate": 2.0213165948852832e-05,
-      "loss": 0.3262,
-      "step": 4300
-    },
-    {
-      "epoch": 1.1195928753180662,
-      "grad_norm": 2.360656499862671,
-      "learning_rate": 1.9325089873278702e-05,
-      "loss": 0.2852,
-      "step": 4400
-    },
-    {
-      "epoch": 1.1450381679389312,
-      "grad_norm": 11.277798652648926,
-      "learning_rate": 1.8438344693945684e-05,
-      "loss": 0.2839,
-      "step": 4500
-    },
-    {
-      "epoch": 1.1704834605597965,
-      "grad_norm": 14.375648498535156,
-      "learning_rate": 1.7554679037491995e-05,
-      "loss": 0.3317,
-      "step": 4600
-    },
-    {
-      "epoch": 1.1959287531806615,
-      "grad_norm": 6.140357494354248,
-      "learning_rate": 1.667583545785781e-05,
-      "loss": 0.3063,
-      "step": 4700
-    },
-    {
-      "epoch": 1.2213740458015268,
-      "grad_norm": 9.926220893859863,
-      "learning_rate": 1.5803547000037324e-05,
-      "loss": 0.3466,
-      "step": 4800
-    },
-    {
-      "epoch": 1.2468193384223918,
-      "grad_norm": 1.1600242853164673,
-      "learning_rate": 1.493953378258222e-05,
-      "loss": 0.3031,
-      "step": 4900
-    },
-    {
-      "epoch": 1.272264631043257,
-      "grad_norm": 8.765625953674316,
-      "learning_rate": 1.4085499605595403e-05,
-      "loss": 0.2756,
-      "step": 5000
-    },
-    {
-      "epoch": 1.297709923664122,
-      "grad_norm": 10.345256805419922,
-      "learning_rate": 1.3243128590904269e-05,
-      "loss": 0.3013,
-      "step": 5100
-    },
-    {
-      "epoch": 1.3231552162849873,
-      "grad_norm": 3.349202871322632,
-      "learning_rate": 1.2414081861038584e-05,
-      "loss": 0.2554,
-      "step": 5200
-    },
-    {
-      "epoch": 1.3486005089058524,
-      "grad_norm": 7.207827091217041,
-      "learning_rate": 1.1599994263562202e-05,
-      "loss": 0.2758,
-      "step": 5300
-    },
-    {
-      "epoch": 1.3740458015267176,
-      "grad_norm": 3.8416330814361572,
-      "learning_rate": 1.0802471147217876e-05,
-      "loss": 0.3062,
-      "step": 5400
-    },
-    {
-      "epoch": 1.3994910941475827,
-      "grad_norm": 3.0882201194763184,
-      "learning_rate": 1.0023085196242704e-05,
-      "loss": 0.3213,
-      "step": 5500
-    },
-    {
-      "epoch": 1.424936386768448,
-      "grad_norm": 3.281527280807495,
-      "learning_rate": 9.263373329096565e-06,
-      "loss": 0.2757,
-      "step": 5600
-    },
-    {
-      "epoch": 1.450381679389313,
-      "grad_norm": 4.6003217697143555,
-      "learning_rate": 8.524833667719368e-06,
-      "loss": 0.2978,
-      "step": 5700
-    },
-    {
-      "epoch": 1.4758269720101782,
-      "grad_norm": 2.5000410079956055,
-      "learning_rate": 7.808922583293472e-06,
-      "loss": 0.2816,
-      "step": 5800
-    },
-    {
-      "epoch": 1.5012722646310432,
-      "grad_norm": 2.911534309387207,
-      "learning_rate": 7.117051824336958e-06,
-      "loss": 0.2674,
-      "step": 5900
-    },
-    {
-      "epoch": 1.5267175572519083,
-      "grad_norm": 9.231036186218262,
-      "learning_rate": 6.450585732791013e-06,
-      "loss": 0.3186,
-      "step": 6000
-    },
-    {
-      "epoch": 1.5521628498727735,
-      "grad_norm": 4.873745918273926,
-      "learning_rate": 5.810838553591298e-06,
-      "loss": 0.2834,
-      "step": 6100
-    },
-    {
-      "epoch": 1.5776081424936388,
-      "grad_norm": 5.407022953033447,
-      "learning_rate": 5.199071843028569e-06,
-      "loss": 0.2999,
-      "step": 6200
-    },
-    {
-      "epoch": 1.6030534351145038,
-      "grad_norm": 3.650712728500366,
-      "learning_rate": 4.616491981009243e-06,
-      "loss": 0.2596,
-      "step": 6300
-    },
-    {
-      "epoch": 1.6284987277353689,
-      "grad_norm": 3.6443347930908203,
-      "learning_rate": 4.064247792121691e-06,
-      "loss": 0.3064,
-      "step": 6400
-    },
-    {
-      "epoch": 1.6539440203562341,
-      "grad_norm": 7.009209156036377,
-      "learning_rate": 3.5434282801992483e-06,
-      "loss": 0.3195,
-      "step": 6500
-    },
-    {
-      "epoch": 1.6793893129770994,
-      "grad_norm": 5.872575759887695,
-      "learning_rate": 3.0550604808475073e-06,
-      "loss": 0.2682,
-      "step": 6600
-    },
-    {
-      "epoch": 1.7048346055979644,
-      "grad_norm": 4.577968120574951,
-      "learning_rate": 2.6001074361704427e-06,
-      "loss": 0.3039,
-      "step": 6700
-    },
-    {
-      "epoch": 1.7302798982188294,
-      "grad_norm": 9.756656646728516,
-      "learning_rate": 2.1794662956892585e-06,
-      "loss": 0.2726,
-      "step": 6800
-    },
-    {
-      "epoch": 1.7557251908396947,
-      "grad_norm": 11.115859985351562,
-      "learning_rate": 1.7939665471987844e-06,
-      "loss": 0.2947,
-      "step": 6900
-    },
-    {
-      "epoch": 1.78117048346056,
-      "grad_norm": 3.8502421379089355,
-      "learning_rate": 1.4443683810501563e-06,
-      "loss": 0.2809,
-      "step": 7000
-    },
-    {
-      "epoch": 1.806615776081425,
-      "grad_norm": 11.346807479858398,
-      "learning_rate": 1.1313611910853096e-06,
-      "loss": 0.3048,
-      "step": 7100
-    },
-    {
-      "epoch": 1.83206106870229,
-      "grad_norm": 10.86630916595459,
-      "learning_rate": 8.555622151794352e-07,
-      "loss": 0.286,
-      "step": 7200
-    },
-    {
-      "epoch": 1.8575063613231553,
-      "grad_norm": 4.079004287719727,
-      "learning_rate": 6.175153180721571e-07,
-      "loss": 0.2853,
-      "step": 7300
-    },
-    {
-      "epoch": 1.8829516539440203,
-      "grad_norm": 18.409320831298828,
-      "learning_rate": 4.176899188876271e-07,
-      "loss": 0.2629,
-      "step": 7400
-    },
-    {
-      "epoch": 1.9083969465648853,
-      "grad_norm": 0.5087906718254089,
-      "learning_rate": 2.564800654584687e-07,
-      "loss": 0.2831,
-      "step": 7500
-    },
-    {
-      "epoch": 1.9338422391857506,
-      "grad_norm": 6.566995620727539,
-      "learning_rate": 1.342036572789507e-07,
-      "loss": 0.3214,
-      "step": 7600
-    },
-    {
-      "epoch": 1.9592875318066159,
-      "grad_norm": 11.18786334991455,
-      "learning_rate": 5.1101818619667677e-08,
-      "loss": 0.3245,
-      "step": 7700
-    },
-    {
-      "epoch": 1.984732824427481,
-      "grad_norm": 1.765227198600769,
-      "learning_rate": 7.338423039955356e-09,
-      "loss": 0.2703,
-      "step": 7800
-    },
-    {
-      "epoch": 2.0,
-      "eval_exact_match": 87.9783881134624,
-      "eval_f1": 88.03091700435239,
-      "eval_runtime": 20.4577,
-      "eval_samples_per_second": 217.131,
-      "eval_steps_per_second": 27.178,
-      "step": 7860
-    },
-    {
-      "epoch": 2.0,
-      "step": 7860,
-      "total_flos": 4.284348397959168e+16,
-      "train_loss": 0.5882660921596692,
-      "train_runtime": 1480.7732,
-      "train_samples_per_second": 84.908,
-      "train_steps_per_second": 5.308
     }
   ],
-  "logging_steps": 100,
-  "max_steps": 7860,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -600,7 +94,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.284348397959168e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 3930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1272264631043257,
+      "grad_norm": 17.1181640625,
+      "learning_rate": 3.9911423090147286e-05,
+      "loss": 2.3375,
       "step": 500
     },
     {
       "epoch": 0.2544529262086514,
+      "grad_norm": 6.601884841918945,
+      "learning_rate": 3.717209892534846e-05,
+      "loss": 0.7494,
       "step": 1000
     },
     {
       "epoch": 0.3816793893129771,
+      "grad_norm": 6.359577655792236,
+      "learning_rate": 3.110124796432003e-05,
+      "loss": 0.6163,
       "step": 1500
     },
     {
       "epoch": 0.5089058524173028,
+      "grad_norm": 2.9361400604248047,
+      "learning_rate": 2.2876664647945828e-05,
+      "loss": 0.5633,
       "step": 2000
     },
     {
       "epoch": 0.6361323155216285,
+      "grad_norm": 4.359348297119141,
+      "learning_rate": 1.4093985003332392e-05,
+      "loss": 0.5159,
       "step": 2500
     },
     {
       "epoch": 0.7633587786259542,
+      "grad_norm": 10.268453598022461,
+      "learning_rate": 6.457120282443114e-06,
+      "loss": 0.4929,
       "step": 3000
     },
     {
       "epoch": 0.8905852417302799,
+      "grad_norm": 14.500295639038086,
+      "learning_rate": 1.4476843268606766e-06,
+      "loss": 0.4731,
       "step": 3500
     },
     {
       "epoch": 1.0,
+      "eval_exact_match": 86.65015758667268,
+      "eval_f1": 86.8584507193242,
+      "eval_runtime": 20.7038,
+      "eval_samples_per_second": 214.55,
+      "eval_steps_per_second": 26.855,
       "step": 3930
     },
     {
+      "epoch": 1.0,
+      "step": 3930,
+      "total_flos": 2.142174198979584e+16,
+      "train_loss": 0.7834983495658894,
+      "train_runtime": 745.8939,
+      "train_samples_per_second": 84.281,
+      "train_steps_per_second": 5.269
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 3930,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.142174198979584e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef43baae43e94d2eb73cc7449719748b90a41b8bf04c08301b05f12f4f685d7b
 size 5713

 version https://git-lfs.github.com/spec/v1
+oid sha256:0caf4a2bd00f5c4190d771ad1c57c1c2bc06bae8c1880cab947433020aca0ffe
 size 5713