Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +150 -364
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e60075e8ba6bb41ea77d1f033aa67d45b87967f0e798aef196694fe14a9d207d
 size 3165174664

 version https://git-lfs.github.com/spec/v1
+oid sha256:10724b4cea4a470790946e7468c7181972c5a82dec88e4ad0d5382c5fc2548ea
 size 3165174664

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00c5a43579726adb9b7b0784bc7bed76becc75226e92e9ac2d4dca887beaf327
 size 6330693741

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5c40adecd4568ad788f53bf6de9d5d652371360956d13e030452c6527ec4637
 size 6330693741

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96e61ab708427870acd94294823064ef783185e22a315721c9f098e946d8b906
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:78408af84cd72386bf33b0154204ec6e4daba2bdc3393a5bf3f607656332df74
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d4c71827701888b1efe5ab82a58befc77a15d11ca79ae9595253c1702d57d87
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:58a8f6175f453fe2f4874f9c1c07779af8dcc8a21cd14a96604c82b3f4fc0b6a
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,534 +2,320 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9874861980125138,
-  "eval_steps": 300,
-  "global_step": 5400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0368052999631947,
-      "grad_norm": 10.38057804107666,
-      "learning_rate": 4.981781376518219e-05,
-      "loss": 2.8223,
       "step": 100
     },
     {
       "epoch": 0.0736105999263894,
-      "grad_norm": 22.28519630432129,
-      "learning_rate": 4.963378726536622e-05,
-      "loss": 2.2838,
       "step": 200
     },
     {
       "epoch": 0.1104158998895841,
-      "grad_norm": 7.458190441131592,
-      "learning_rate": 4.944976076555024e-05,
-      "loss": 2.222,
-      "step": 300
-    },
-    {
-      "epoch": 0.1104158998895841,
-      "eval_loss": 2.0901951789855957,
-      "eval_runtime": 662.284,
-      "eval_samples_per_second": 8.206,
-      "eval_steps_per_second": 1.027,
       "step": 300
     },
     {
       "epoch": 0.1472211998527788,
-      "grad_norm": 6.754058837890625,
-      "learning_rate": 4.926573426573427e-05,
-      "loss": 2.2149,
       "step": 400
     },
     {
       "epoch": 0.1840264998159735,
-      "grad_norm": 7.67477560043335,
-      "learning_rate": 4.9081707765918294e-05,
-      "loss": 2.1027,
       "step": 500
     },
     {
-      "epoch": 0.2208317997791682,
-      "grad_norm": 7.060691833496094,
-      "learning_rate": 4.889768126610232e-05,
-      "loss": 2.0664,
-      "step": 600
     },
     {
       "epoch": 0.2208317997791682,
-      "eval_loss": 2.0013794898986816,
-      "eval_runtime": 664.5154,
-      "eval_samples_per_second": 8.179,
-      "eval_steps_per_second": 1.023,
       "step": 600
     },
     {
       "epoch": 0.2576370997423629,
-      "grad_norm": 7.3001909255981445,
-      "learning_rate": 4.871365476628635e-05,
-      "loss": 2.0262,
       "step": 700
     },
     {
       "epoch": 0.2944423997055576,
-      "grad_norm": 6.993441581726074,
-      "learning_rate": 4.852962826647037e-05,
-      "loss": 2.0506,
       "step": 800
     },
     {
       "epoch": 0.3312476996687523,
-      "grad_norm": 6.8796796798706055,
-      "learning_rate": 4.83456017666544e-05,
-      "loss": 2.0443,
       "step": 900
     },
     {
-      "epoch": 0.3312476996687523,
-      "eval_loss": 1.9335800409317017,
-      "eval_runtime": 663.2859,
-      "eval_samples_per_second": 8.194,
-      "eval_steps_per_second": 1.025,
-      "step": 900
     },
     {
       "epoch": 0.368052999631947,
-      "grad_norm": 8.510578155517578,
-      "learning_rate": 4.8161575266838426e-05,
-      "loss": 2.0214,
       "step": 1000
     },
     {
       "epoch": 0.4048582995951417,
-      "grad_norm": 5.925055503845215,
-      "learning_rate": 4.797754876702245e-05,
-      "loss": 1.9283,
       "step": 1100
     },
     {
       "epoch": 0.4416635995583364,
-      "grad_norm": 7.067410469055176,
-      "learning_rate": 4.779352226720648e-05,
-      "loss": 1.9905,
-      "step": 1200
-    },
-    {
-      "epoch": 0.4416635995583364,
-      "eval_loss": 1.8977280855178833,
-      "eval_runtime": 663.3777,
-      "eval_samples_per_second": 8.193,
-      "eval_steps_per_second": 1.025,
       "step": 1200
     },
     {
       "epoch": 0.4784688995215311,
-      "grad_norm": 5.874550819396973,
-      "learning_rate": 4.7609495767390503e-05,
-      "loss": 1.9665,
       "step": 1300
     },
     {
       "epoch": 0.5152741994847257,
-      "grad_norm": 8.402749061584473,
-      "learning_rate": 4.7425469267574534e-05,
-      "loss": 1.9342,
       "step": 1400
     },
     {
       "epoch": 0.5520794994479205,
-      "grad_norm": 6.955828666687012,
-      "learning_rate": 4.724144276775856e-05,
-      "loss": 1.9158,
       "step": 1500
     },
     {
       "epoch": 0.5520794994479205,
-      "eval_loss": 1.877929925918579,
-      "eval_runtime": 661.5674,
-      "eval_samples_per_second": 8.215,
-      "eval_steps_per_second": 1.028,
       "step": 1500
     },
     {
       "epoch": 0.5888847994111152,
-      "grad_norm": 5.033380031585693,
-      "learning_rate": 4.705741626794258e-05,
-      "loss": 1.9417,
       "step": 1600
     },
     {
       "epoch": 0.6256900993743099,
-      "grad_norm": 6.041861534118652,
-      "learning_rate": 4.687338976812661e-05,
-      "loss": 1.9268,
       "step": 1700
     },
     {
       "epoch": 0.6624953993375046,
-      "grad_norm": 6.134337902069092,
-      "learning_rate": 4.6689363268310635e-05,
-      "loss": 1.9385,
-      "step": 1800
-    },
-    {
-      "epoch": 0.6624953993375046,
-      "eval_loss": 1.8483961820602417,
-      "eval_runtime": 661.8464,
-      "eval_samples_per_second": 8.212,
-      "eval_steps_per_second": 1.027,
       "step": 1800
     },
     {
       "epoch": 0.6993006993006993,
-      "grad_norm": 6.114970684051514,
-      "learning_rate": 4.6505336768494665e-05,
-      "loss": 1.9318,
       "step": 1900
     },
     {
       "epoch": 0.736105999263894,
-      "grad_norm": 5.7990312576293945,
-      "learning_rate": 4.632131026867869e-05,
-      "loss": 1.8713,
       "step": 2000
     },
     {
-      "epoch": 0.7729112992270887,
-      "grad_norm": 6.675479412078857,
-      "learning_rate": 4.613728376886272e-05,
-      "loss": 1.8822,
-      "step": 2100
     },
     {
       "epoch": 0.7729112992270887,
-      "eval_loss": 1.8329029083251953,
-      "eval_runtime": 664.1992,
-      "eval_samples_per_second": 8.183,
-      "eval_steps_per_second": 1.024,
       "step": 2100
     },
     {
       "epoch": 0.8097165991902834,
-      "grad_norm": 6.004710674285889,
-      "learning_rate": 4.595325726904674e-05,
-      "loss": 1.8906,
       "step": 2200
     },
     {
       "epoch": 0.8465218991534781,
-      "grad_norm": 6.8489460945129395,
-      "learning_rate": 4.576923076923077e-05,
-      "loss": 1.8894,
       "step": 2300
     },
     {
       "epoch": 0.8833271991166728,
-      "grad_norm": 5.640189170837402,
-      "learning_rate": 4.55852042694148e-05,
-      "loss": 1.8616,
       "step": 2400
     },
     {
-      "epoch": 0.8833271991166728,
-      "eval_loss": 1.8137404918670654,
-      "eval_runtime": 664.8043,
-      "eval_samples_per_second": 8.175,
-      "eval_steps_per_second": 1.023,
-      "step": 2400
     },
     {
       "epoch": 0.9201324990798675,
-      "grad_norm": 6.615390300750732,
-      "learning_rate": 4.540117776959883e-05,
-      "loss": 1.8822,
       "step": 2500
     },
     {
       "epoch": 0.9569377990430622,
-      "grad_norm": 5.047032356262207,
-      "learning_rate": 4.521715126978285e-05,
-      "loss": 1.9137,
       "step": 2600
     },
     {
       "epoch": 0.9937430990062569,
-      "grad_norm": 5.454547882080078,
-      "learning_rate": 4.503312476996688e-05,
-      "loss": 1.8511,
-      "step": 2700
-    },
-    {
-      "epoch": 0.9937430990062569,
-      "eval_loss": 1.8019059896469116,
-      "eval_runtime": 664.5344,
-      "eval_samples_per_second": 8.179,
-      "eval_steps_per_second": 1.023,
       "step": 2700
     },
     {
       "epoch": 1.0305483989694515,
-      "grad_norm": 6.134690284729004,
-      "learning_rate": 4.4849098270150904e-05,
-      "loss": 1.4587,
       "step": 2800
     },
     {
       "epoch": 1.0673536989326462,
-      "grad_norm": 7.562436103820801,
-      "learning_rate": 4.4665071770334935e-05,
-      "loss": 1.3743,
       "step": 2900
     },
     {
       "epoch": 1.104158998895841,
-      "grad_norm": 7.055426120758057,
-      "learning_rate": 4.448104527051896e-05,
-      "loss": 1.3846,
       "step": 3000
     },
     {
       "epoch": 1.104158998895841,
-      "eval_loss": 1.8608911037445068,
-      "eval_runtime": 664.9166,
-      "eval_samples_per_second": 8.174,
-      "eval_steps_per_second": 1.023,
       "step": 3000
     },
     {
       "epoch": 1.1409642988590356,
-      "grad_norm": 5.4267473220825195,
-      "learning_rate": 4.429701877070299e-05,
-      "loss": 1.4539,
       "step": 3100
     },
     {
       "epoch": 1.1777695988222303,
-      "grad_norm": 5.971231937408447,
-      "learning_rate": 4.411299227088701e-05,
-      "loss": 1.3916,
       "step": 3200
     },
     {
       "epoch": 1.214574898785425,
-      "grad_norm": 5.384959697723389,
-      "learning_rate": 4.3928965771071036e-05,
-      "loss": 1.345,
-      "step": 3300
-    },
-    {
-      "epoch": 1.214574898785425,
-      "eval_loss": 1.8579978942871094,
-      "eval_runtime": 666.0495,
-      "eval_samples_per_second": 8.16,
-      "eval_steps_per_second": 1.021,
       "step": 3300
     },
     {
       "epoch": 1.2513801987486197,
-      "grad_norm": 5.7637457847595215,
-      "learning_rate": 4.3744939271255066e-05,
-      "loss": 1.3364,
       "step": 3400
     },
     {
       "epoch": 1.2881854987118144,
-      "grad_norm": 6.541650295257568,
-      "learning_rate": 4.356091277143909e-05,
-      "loss": 1.3466,
       "step": 3500
     },
     {
-      "epoch": 1.3249907986750091,
-      "grad_norm": 5.789462089538574,
-      "learning_rate": 4.337688627162312e-05,
-      "loss": 1.3263,
-      "step": 3600
     },
     {
       "epoch": 1.3249907986750091,
-      "eval_loss": 1.8551760911941528,
-      "eval_runtime": 665.6557,
-      "eval_samples_per_second": 8.165,
-      "eval_steps_per_second": 1.022,
       "step": 3600
-    },
-    {
-      "epoch": 1.3617960986382038,
-      "grad_norm": 5.502793788909912,
-      "learning_rate": 4.3192859771807144e-05,
-      "loss": 1.3387,
-      "step": 3700
-    },
-    {
-      "epoch": 1.3986013986013985,
-      "grad_norm": 5.878416061401367,
-      "learning_rate": 4.300883327199117e-05,
-      "loss": 1.2795,
-      "step": 3800
-    },
-    {
-      "epoch": 1.4354066985645932,
-      "grad_norm": 6.2468037605285645,
-      "learning_rate": 4.28248067721752e-05,
-      "loss": 1.2879,
-      "step": 3900
-    },
-    {
-      "epoch": 1.4354066985645932,
-      "eval_loss": 1.8737432956695557,
-      "eval_runtime": 665.8514,
-      "eval_samples_per_second": 8.162,
-      "eval_steps_per_second": 1.021,
-      "step": 3900
-    },
-    {
-      "epoch": 1.472211998527788,
-      "grad_norm": 5.311323165893555,
-      "learning_rate": 4.264078027235922e-05,
-      "loss": 1.309,
-      "step": 4000
-    },
-    {
-      "epoch": 1.5090172984909827,
-      "grad_norm": 6.0769758224487305,
-      "learning_rate": 4.245675377254325e-05,
-      "loss": 1.3078,
-      "step": 4100
-    },
-    {
-      "epoch": 1.5458225984541774,
-      "grad_norm": 5.616523742675781,
-      "learning_rate": 4.2272727272727275e-05,
-      "loss": 1.2599,
-      "step": 4200
-    },
-    {
-      "epoch": 1.5458225984541774,
-      "eval_loss": 1.8690847158432007,
-      "eval_runtime": 665.6475,
-      "eval_samples_per_second": 8.165,
-      "eval_steps_per_second": 1.022,
-      "step": 4200
-    },
-    {
-      "epoch": 1.582627898417372,
-      "grad_norm": 5.222440242767334,
-      "learning_rate": 4.20887007729113e-05,
-      "loss": 1.3208,
-      "step": 4300
-    },
-    {
-      "epoch": 1.6194331983805668,
-      "grad_norm": 6.666055679321289,
-      "learning_rate": 4.190467427309533e-05,
-      "loss": 1.2911,
-      "step": 4400
-    },
-    {
-      "epoch": 1.6562384983437615,
-      "grad_norm": 6.660887241363525,
-      "learning_rate": 4.172064777327935e-05,
-      "loss": 1.2618,
-      "step": 4500
-    },
-    {
-      "epoch": 1.6562384983437615,
-      "eval_loss": 1.874595046043396,
-      "eval_runtime": 665.9471,
-      "eval_samples_per_second": 8.161,
-      "eval_steps_per_second": 1.021,
-      "step": 4500
-    },
-    {
-      "epoch": 1.6930437983069562,
-      "grad_norm": 6.1277971267700195,
-      "learning_rate": 4.153662127346338e-05,
-      "loss": 1.299,
-      "step": 4600
-    },
-    {
-      "epoch": 1.7298490982701509,
-      "grad_norm": 6.3581862449646,
-      "learning_rate": 4.135259477364741e-05,
-      "loss": 1.2658,
-      "step": 4700
-    },
-    {
-      "epoch": 1.7666543982333456,
-      "grad_norm": 5.905203819274902,
-      "learning_rate": 4.116856827383143e-05,
-      "loss": 1.2784,
-      "step": 4800
-    },
-    {
-      "epoch": 1.7666543982333456,
-      "eval_loss": 1.8622459173202515,
-      "eval_runtime": 667.7769,
-      "eval_samples_per_second": 8.139,
-      "eval_steps_per_second": 1.018,
-      "step": 4800
-    },
-    {
-      "epoch": 1.8034596981965403,
-      "grad_norm": 5.387886047363281,
-      "learning_rate": 4.098454177401546e-05,
-      "loss": 1.2877,
-      "step": 4900
-    },
-    {
-      "epoch": 1.840264998159735,
-      "grad_norm": 5.666168212890625,
-      "learning_rate": 4.0800515274199484e-05,
-      "loss": 1.2821,
-      "step": 5000
-    },
-    {
-      "epoch": 1.8770702981229297,
-      "grad_norm": 4.707683086395264,
-      "learning_rate": 4.0616488774383514e-05,
-      "loss": 1.238,
-      "step": 5100
-    },
-    {
-      "epoch": 1.8770702981229297,
-      "eval_loss": 1.8723958730697632,
-      "eval_runtime": 665.7561,
-      "eval_samples_per_second": 8.164,
-      "eval_steps_per_second": 1.021,
-      "step": 5100
-    },
-    {
-      "epoch": 1.9138755980861244,
-      "grad_norm": 5.434847831726074,
-      "learning_rate": 4.043246227456754e-05,
-      "loss": 1.2613,
-      "step": 5200
-    },
-    {
-      "epoch": 1.950680898049319,
-      "grad_norm": 6.641855716705322,
-      "learning_rate": 4.024843577475156e-05,
-      "loss": 1.3182,
-      "step": 5300
-    },
-    {
-      "epoch": 1.9874861980125138,
-      "grad_norm": 6.376593112945557,
-      "learning_rate": 4.006440927493559e-05,
-      "loss": 1.2729,
-      "step": 5400
-    },
-    {
-      "epoch": 1.9874861980125138,
-      "eval_loss": 1.83621346950531,
-      "eval_runtime": 664.7946,
-      "eval_samples_per_second": 8.175,
-      "eval_steps_per_second": 1.023,
-      "step": 5400
     }
   ],
   "logging_steps": 100,
@@ -549,7 +335,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.501578129309696e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3249907986750091,
+  "eval_steps": 500,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0368052999631947,
+      "grad_norm": 6.317627906799316,
+      "learning_rate": 3.991842559741558e-05,
+      "loss": 1.3232,
       "step": 100
     },
     {
       "epoch": 0.0736105999263894,
+      "grad_norm": 6.4019927978515625,
+      "learning_rate": 3.9770967337294366e-05,
+      "loss": 1.1983,
       "step": 200
     },
     {
       "epoch": 0.1104158998895841,
+      "grad_norm": 5.58203649520874,
+      "learning_rate": 3.962350907717314e-05,
+      "loss": 1.1226,
       "step": 300
     },
     {
       "epoch": 0.1472211998527788,
+      "grad_norm": 4.505954742431641,
+      "learning_rate": 3.947605081705192e-05,
+      "loss": 0.7575,
       "step": 400
     },
     {
       "epoch": 0.1840264998159735,
+      "grad_norm": 5.4588165283203125,
+      "learning_rate": 3.93285925569307e-05,
+      "loss": 0.684,
       "step": 500
     },
     {
+      "epoch": 0.1840264998159735,
+      "eval_loss": 2.1012208461761475,
+      "eval_runtime": 663.3742,
+      "eval_samples_per_second": 8.193,
+      "eval_steps_per_second": 1.025,
+      "step": 500
     },
     {
       "epoch": 0.2208317997791682,
+      "grad_norm": 4.757272720336914,
+      "learning_rate": 3.918113429680948e-05,
+      "loss": 0.6552,
       "step": 600
     },
     {
       "epoch": 0.2576370997423629,
+      "grad_norm": 4.794644355773926,
+      "learning_rate": 3.903367603668826e-05,
+      "loss": 0.6429,
       "step": 700
     },
     {
       "epoch": 0.2944423997055576,
+      "grad_norm": 5.151235103607178,
+      "learning_rate": 3.888621777656704e-05,
+      "loss": 0.6567,
       "step": 800
     },
     {
       "epoch": 0.3312476996687523,
+      "grad_norm": 5.006649971008301,
+      "learning_rate": 3.8738759516445824e-05,
+      "loss": 0.6278,
       "step": 900
     },
     {
+      "epoch": 0.368052999631947,
+      "grad_norm": 6.711447715759277,
+      "learning_rate": 3.85913012563246e-05,
+      "loss": 0.637,
+      "step": 1000
     },
     {
       "epoch": 0.368052999631947,
+      "eval_loss": 2.1562345027923584,
+      "eval_runtime": 663.0039,
+      "eval_samples_per_second": 8.198,
+      "eval_steps_per_second": 1.026,
       "step": 1000
     },
     {
       "epoch": 0.4048582995951417,
+      "grad_norm": 5.702431678771973,
+      "learning_rate": 3.844384299620338e-05,
+      "loss": 0.5867,
       "step": 1100
     },
     {
       "epoch": 0.4416635995583364,
+      "grad_norm": 4.582945346832275,
+      "learning_rate": 3.829638473608216e-05,
+      "loss": 0.6156,
       "step": 1200
     },
     {
       "epoch": 0.4784688995215311,
+      "grad_norm": 4.968910217285156,
+      "learning_rate": 3.814892647596094e-05,
+      "loss": 0.6213,
       "step": 1300
     },
     {
       "epoch": 0.5152741994847257,
+      "grad_norm": 5.8628950119018555,
+      "learning_rate": 3.800146821583972e-05,
+      "loss": 0.6036,
       "step": 1400
     },
     {
       "epoch": 0.5520794994479205,
+      "grad_norm": 4.60435676574707,
+      "learning_rate": 3.7854009955718494e-05,
+      "loss": 0.5947,
       "step": 1500
     },
     {
       "epoch": 0.5520794994479205,
+      "eval_loss": 2.2223360538482666,
+      "eval_runtime": 662.8599,
+      "eval_samples_per_second": 8.199,
+      "eval_steps_per_second": 1.026,
       "step": 1500
     },
     {
       "epoch": 0.5888847994111152,
+      "grad_norm": 4.219241142272949,
+      "learning_rate": 3.7706551695597275e-05,
+      "loss": 0.61,
       "step": 1600
     },
     {
       "epoch": 0.6256900993743099,
+      "grad_norm": 4.9983344078063965,
+      "learning_rate": 3.7559093435476055e-05,
+      "loss": 0.5801,
       "step": 1700
     },
     {
       "epoch": 0.6624953993375046,
+      "grad_norm": 5.795677185058594,
+      "learning_rate": 3.7411635175354836e-05,
+      "loss": 0.6016,
       "step": 1800
     },
     {
       "epoch": 0.6993006993006993,
+      "grad_norm": 4.981507778167725,
+      "learning_rate": 3.726417691523362e-05,
+      "loss": 0.5839,
       "step": 1900
     },
     {
       "epoch": 0.736105999263894,
+      "grad_norm": 5.115480899810791,
+      "learning_rate": 3.71167186551124e-05,
+      "loss": 0.5946,
       "step": 2000
     },
     {
+      "epoch": 0.736105999263894,
+      "eval_loss": 2.1914401054382324,
+      "eval_runtime": 663.2825,
+      "eval_samples_per_second": 8.194,
+      "eval_steps_per_second": 1.025,
+      "step": 2000
     },
     {
       "epoch": 0.7729112992270887,
+      "grad_norm": 4.6113176345825195,
+      "learning_rate": 3.696926039499117e-05,
+      "loss": 0.5763,
       "step": 2100
     },
     {
       "epoch": 0.8097165991902834,
+      "grad_norm": 4.699350833892822,
+      "learning_rate": 3.682180213486995e-05,
+      "loss": 0.6007,
       "step": 2200
     },
     {
       "epoch": 0.8465218991534781,
+      "grad_norm": 4.8883233070373535,
+      "learning_rate": 3.667434387474873e-05,
+      "loss": 0.5741,
       "step": 2300
     },
     {
       "epoch": 0.8833271991166728,
+      "grad_norm": 5.460277557373047,
+      "learning_rate": 3.652688561462751e-05,
+      "loss": 0.5596,
       "step": 2400
     },
     {
+      "epoch": 0.9201324990798675,
+      "grad_norm": 4.431008338928223,
+      "learning_rate": 3.6379427354506294e-05,
+      "loss": 0.5831,
+      "step": 2500
     },
     {
       "epoch": 0.9201324990798675,
+      "eval_loss": 2.2241196632385254,
+      "eval_runtime": 662.9801,
+      "eval_samples_per_second": 8.198,
+      "eval_steps_per_second": 1.026,
       "step": 2500
     },
     {
       "epoch": 0.9569377990430622,
+      "grad_norm": 4.917581081390381,
+      "learning_rate": 3.6231969094385074e-05,
+      "loss": 0.5956,
       "step": 2600
     },
     {
       "epoch": 0.9937430990062569,
+      "grad_norm": 5.325926780700684,
+      "learning_rate": 3.6084510834263855e-05,
+      "loss": 0.6783,
       "step": 2700
     },
     {
       "epoch": 1.0305483989694515,
+      "grad_norm": 3.779780149459839,
+      "learning_rate": 3.593705257414263e-05,
+      "loss": 0.356,
       "step": 2800
     },
     {
       "epoch": 1.0673536989326462,
+      "grad_norm": 7.602641582489014,
+      "learning_rate": 3.5789594314021416e-05,
+      "loss": 0.2066,
       "step": 2900
     },
     {
       "epoch": 1.104158998895841,
+      "grad_norm": 5.734857082366943,
+      "learning_rate": 3.564213605390019e-05,
+      "loss": 0.2202,
       "step": 3000
     },
     {
       "epoch": 1.104158998895841,
+      "eval_loss": 2.732856512069702,
+      "eval_runtime": 663.1541,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 1.025,
       "step": 3000
     },
     {
       "epoch": 1.1409642988590356,
+      "grad_norm": 5.713295936584473,
+      "learning_rate": 3.549467779377897e-05,
+      "loss": 0.6849,
       "step": 3100
     },
     {
       "epoch": 1.1777695988222303,
+      "grad_norm": 8.02027702331543,
+      "learning_rate": 3.534721953365775e-05,
+      "loss": 0.6996,
       "step": 3200
     },
     {
       "epoch": 1.214574898785425,
+      "grad_norm": 7.312982082366943,
+      "learning_rate": 3.5199761273536525e-05,
+      "loss": 0.6721,
       "step": 3300
     },
     {
       "epoch": 1.2513801987486197,
+      "grad_norm": 6.537501811981201,
+      "learning_rate": 3.505230301341531e-05,
+      "loss": 0.6689,
       "step": 3400
     },
     {
       "epoch": 1.2881854987118144,
+      "grad_norm": 6.13110876083374,
+      "learning_rate": 3.4904844753294086e-05,
+      "loss": 0.6943,
       "step": 3500
     },
     {
+      "epoch": 1.2881854987118144,
+      "eval_loss": 2.2627553939819336,
+      "eval_runtime": 662.7328,
+      "eval_samples_per_second": 8.201,
+      "eval_steps_per_second": 1.026,
+      "step": 3500
     },
     {
       "epoch": 1.3249907986750091,
+      "grad_norm": 7.125514984130859,
+      "learning_rate": 3.4757386493172874e-05,
+      "loss": 0.6925,
       "step": 3600
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.001052086206464e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1a45af165c9b4b10ac29d54d577e579792b21aaaa713b168828df64c971d823
 size 5649

 version https://git-lfs.github.com/spec/v1
+oid sha256:695ea3b402062a1144f41521e1d066a9e0db12391e8ff5cdd02d91cc262d45b5
 size 5649