Upload 10 files

Browse files

Files changed (6) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1173 -3
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ccf0628b701b3fbdbd8e47c124929d09ca765f44e1db4de84ca146c4892cb2
 size 598635032

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff261834fa34536f963b44d61629d171e8297d50ec29c9ecd77e55f8f4e30a75
 size 598635032

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90969ce2677fe59ebce6103f3db23c468384c1c32a2de10256b3b5076385d4ff
 size 1197359627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f2cf42e7a86053bde9a697bcec92154da3f0357dc3b6970a4a5c01522d0c4e6
 size 1197359627

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b19a9b53a8ffcdf83e2c27bdb7c9e264673baa2e50d42027e774b79d1973943e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:159e82523ca477221cb6ee71e6e1fe789822217510366cfeda983df59cb19ad5
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca7233d8acabb4ee394de5e172d0b6096e38585b946640bcf133642f5f83579
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6edc5e7ebf57018d51595ed4fff24582a6a8bfe9d84e42ed6a378983c113ffb
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.041862256431438,
   "eval_steps": 1000,
-  "global_step": 214000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16707,6 +16707,1176 @@
       "eval_samples_per_second": 197.021,
       "eval_steps_per_second": 1.546,
       "step": 214000
     }
   ],
   "logging_steps": 100,
@@ -16726,7 +17896,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8676295751696384e+19,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0390714393360088,
   "eval_steps": 1000,
+  "global_step": 229000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 197.021,
       "eval_steps_per_second": 1.546,
       "step": 214000
+    },
+    {
+      "epoch": 0.042141338140980915,
+      "grad_norm": 2.011029005050659,
+      "learning_rate": 1.7978048379468322e-05,
+      "loss": 2.1068,
+      "step": 214100
+    },
+    {
+      "epoch": 0.04242041985052384,
+      "grad_norm": 2.035914897918701,
+      "learning_rate": 1.7956801953428e-05,
+      "loss": 2.1174,
+      "step": 214200
+    },
+    {
+      "epoch": 0.04269950156006676,
+      "grad_norm": 2.129701852798462,
+      "learning_rate": 1.7935561051518883e-05,
+      "loss": 2.1197,
+      "step": 214300
+    },
+    {
+      "epoch": 0.042978583269609676,
+      "grad_norm": 2.043063163757324,
+      "learning_rate": 1.791432569040068e-05,
+      "loss": 2.1106,
+      "step": 214400
+    },
+    {
+      "epoch": 0.043257664979152594,
+      "grad_norm": 2.03788161277771,
+      "learning_rate": 1.7893095886728716e-05,
+      "loss": 2.1055,
+      "step": 214500
+    },
+    {
+      "epoch": 0.04353674668869552,
+      "grad_norm": 1.9218449592590332,
+      "learning_rate": 1.7871871657153993e-05,
+      "loss": 2.1038,
+      "step": 214600
+    },
+    {
+      "epoch": 0.043815828398238436,
+      "grad_norm": 2.175419807434082,
+      "learning_rate": 1.7850653018323132e-05,
+      "loss": 2.1049,
+      "step": 214700
+    },
+    {
+      "epoch": 0.044094910107781354,
+      "grad_norm": 2.14815616607666,
+      "learning_rate": 1.7829439986878374e-05,
+      "loss": 2.1158,
+      "step": 214800
+    },
+    {
+      "epoch": 0.04437399181732428,
+      "grad_norm": 1.9514108896255493,
+      "learning_rate": 1.7808232579457534e-05,
+      "loss": 2.092,
+      "step": 214900
+    },
+    {
+      "epoch": 0.0446530735268672,
+      "grad_norm": 2.0511226654052734,
+      "learning_rate": 1.778703081269405e-05,
+      "loss": 2.0992,
+      "step": 215000
+    },
+    {
+      "epoch": 0.0446530735268672,
+      "eval_loss": 2.183467388153076,
+      "eval_runtime": 51.5396,
+      "eval_samples_per_second": 197.79,
+      "eval_steps_per_second": 1.552,
+      "step": 215000
+    },
+    {
+      "epoch": 0.00027908170954291995,
+      "grad_norm": 2.159756660461426,
+      "learning_rate": 1.776583470321692e-05,
+      "loss": 2.0955,
+      "step": 215100
+    },
+    {
+      "epoch": 0.0005581634190858399,
+      "grad_norm": 2.170898675918579,
+      "learning_rate": 1.7744644267650712e-05,
+      "loss": 2.1049,
+      "step": 215200
+    },
+    {
+      "epoch": 0.0008372451286287599,
+      "grad_norm": 1.9969067573547363,
+      "learning_rate": 1.7723459522615522e-05,
+      "loss": 2.092,
+      "step": 215300
+    },
+    {
+      "epoch": 0.0011163268381716798,
+      "grad_norm": 1.9468703269958496,
+      "learning_rate": 1.770228048472701e-05,
+      "loss": 2.1021,
+      "step": 215400
+    },
+    {
+      "epoch": 0.0013954085477146,
+      "grad_norm": 2.082648992538452,
+      "learning_rate": 1.7681107170596357e-05,
+      "loss": 2.0915,
+      "step": 215500
+    },
+    {
+      "epoch": 0.0016744902572575198,
+      "grad_norm": 2.049349546432495,
+      "learning_rate": 1.7659939596830243e-05,
+      "loss": 2.0962,
+      "step": 215600
+    },
+    {
+      "epoch": 0.00195357196680044,
+      "grad_norm": 2.176790952682495,
+      "learning_rate": 1.7638777780030844e-05,
+      "loss": 2.0892,
+      "step": 215700
+    },
+    {
+      "epoch": 0.0022326536763433596,
+      "grad_norm": 2.1624631881713867,
+      "learning_rate": 1.7617621736795824e-05,
+      "loss": 2.0963,
+      "step": 215800
+    },
+    {
+      "epoch": 0.0025117353858862797,
+      "grad_norm": 2.1935231685638428,
+      "learning_rate": 1.7596471483718328e-05,
+      "loss": 2.0814,
+      "step": 215900
+    },
+    {
+      "epoch": 0.0027908170954292,
+      "grad_norm": 2.091728925704956,
+      "learning_rate": 1.757532703738695e-05,
+      "loss": 2.0956,
+      "step": 216000
+    },
+    {
+      "epoch": 0.0027908170954292,
+      "eval_loss": 2.1795222759246826,
+      "eval_runtime": 51.863,
+      "eval_samples_per_second": 196.556,
+      "eval_steps_per_second": 1.543,
+      "step": 216000
+    },
+    {
+      "epoch": 0.00306989880497212,
+      "grad_norm": 1.9175347089767456,
+      "learning_rate": 1.7554188414385746e-05,
+      "loss": 2.083,
+      "step": 216100
+    },
+    {
+      "epoch": 0.0033489805145150396,
+      "grad_norm": 2.0839240550994873,
+      "learning_rate": 1.753305563129417e-05,
+      "loss": 2.0849,
+      "step": 216200
+    },
+    {
+      "epoch": 0.0036280622240579597,
+      "grad_norm": 2.2987542152404785,
+      "learning_rate": 1.751192870468713e-05,
+      "loss": 2.107,
+      "step": 216300
+    },
+    {
+      "epoch": 0.00390714393360088,
+      "grad_norm": 2.0684635639190674,
+      "learning_rate": 1.7490807651134916e-05,
+      "loss": 2.0833,
+      "step": 216400
+    },
+    {
+      "epoch": 0.0041862256431437995,
+      "grad_norm": 2.094618558883667,
+      "learning_rate": 1.7469692487203242e-05,
+      "loss": 2.1003,
+      "step": 216500
+    },
+    {
+      "epoch": 0.004465307352686719,
+      "grad_norm": 2.0774834156036377,
+      "learning_rate": 1.7448583229453163e-05,
+      "loss": 2.0854,
+      "step": 216600
+    },
+    {
+      "epoch": 0.00474438906222964,
+      "grad_norm": 2.2240655422210693,
+      "learning_rate": 1.7427479894441135e-05,
+      "loss": 2.0914,
+      "step": 216700
+    },
+    {
+      "epoch": 0.005023470771772559,
+      "grad_norm": 2.094910144805908,
+      "learning_rate": 1.740638249871895e-05,
+      "loss": 2.0913,
+      "step": 216800
+    },
+    {
+      "epoch": 0.00530255248131548,
+      "grad_norm": 2.0924530029296875,
+      "learning_rate": 1.738529105883376e-05,
+      "loss": 2.0825,
+      "step": 216900
+    },
+    {
+      "epoch": 0.0055816341908584,
+      "grad_norm": 2.0093395709991455,
+      "learning_rate": 1.7364205591328018e-05,
+      "loss": 2.0782,
+      "step": 217000
+    },
+    {
+      "epoch": 0.0055816341908584,
+      "eval_loss": 2.17291259765625,
+      "eval_runtime": 51.4439,
+      "eval_samples_per_second": 198.157,
+      "eval_steps_per_second": 1.555,
+      "step": 217000
+    },
+    {
+      "epoch": 0.005860715900401319,
+      "grad_norm": 2.0085370540618896,
+      "learning_rate": 1.734312611273951e-05,
+      "loss": 2.0714,
+      "step": 217100
+    },
+    {
+      "epoch": 0.00613979760994424,
+      "grad_norm": 2.3136491775512695,
+      "learning_rate": 1.7322052639601328e-05,
+      "loss": 2.0794,
+      "step": 217200
+    },
+    {
+      "epoch": 0.0064188793194871595,
+      "grad_norm": 2.062134265899658,
+      "learning_rate": 1.7300985188441854e-05,
+      "loss": 2.0822,
+      "step": 217300
+    },
+    {
+      "epoch": 0.006697961029030079,
+      "grad_norm": 2.0435168743133545,
+      "learning_rate": 1.727992377578473e-05,
+      "loss": 2.0763,
+      "step": 217400
+    },
+    {
+      "epoch": 0.006977042738573,
+      "grad_norm": 2.1942365169525146,
+      "learning_rate": 1.7258868418148874e-05,
+      "loss": 2.0876,
+      "step": 217500
+    },
+    {
+      "epoch": 0.0072561244481159195,
+      "grad_norm": 2.1672890186309814,
+      "learning_rate": 1.7237819132048467e-05,
+      "loss": 2.0832,
+      "step": 217600
+    },
+    {
+      "epoch": 0.007535206157658839,
+      "grad_norm": 1.8856595754623413,
+      "learning_rate": 1.7216775933992906e-05,
+      "loss": 2.0706,
+      "step": 217700
+    },
+    {
+      "epoch": 0.00781428786720176,
+      "grad_norm": 2.1063289642333984,
+      "learning_rate": 1.7195738840486825e-05,
+      "loss": 2.2249,
+      "step": 217800
+    },
+    {
+      "epoch": 0.00809336957674468,
+      "grad_norm": 2.09557843208313,
+      "learning_rate": 1.717470786803006e-05,
+      "loss": 2.2446,
+      "step": 217900
+    },
+    {
+      "epoch": 0.008372451286287599,
+      "grad_norm": 2.1334340572357178,
+      "learning_rate": 1.715368303311766e-05,
+      "loss": 2.2297,
+      "step": 218000
+    },
+    {
+      "epoch": 0.008372451286287599,
+      "eval_loss": 2.1775035858154297,
+      "eval_runtime": 51.4889,
+      "eval_samples_per_second": 197.984,
+      "eval_steps_per_second": 1.554,
+      "step": 218000
+    },
+    {
+      "epoch": 0.008651532995830519,
+      "grad_norm": 2.201794385910034,
+      "learning_rate": 1.713266435223986e-05,
+      "loss": 2.2351,
+      "step": 218100
+    },
+    {
+      "epoch": 0.008930614705373438,
+      "grad_norm": 2.2592103481292725,
+      "learning_rate": 1.711165184188205e-05,
+      "loss": 2.223,
+      "step": 218200
+    },
+    {
+      "epoch": 0.00920969641491636,
+      "grad_norm": 2.382873773574829,
+      "learning_rate": 1.7090645518524797e-05,
+      "loss": 2.2283,
+      "step": 218300
+    },
+    {
+      "epoch": 0.00948877812445928,
+      "grad_norm": 2.2751810550689697,
+      "learning_rate": 1.706964539864381e-05,
+      "loss": 2.2369,
+      "step": 218400
+    },
+    {
+      "epoch": 0.0097678598340022,
+      "grad_norm": 2.439268112182617,
+      "learning_rate": 1.7048651498709944e-05,
+      "loss": 2.227,
+      "step": 218500
+    },
+    {
+      "epoch": 0.010046941543545119,
+      "grad_norm": 2.244767665863037,
+      "learning_rate": 1.7027663835189145e-05,
+      "loss": 2.2235,
+      "step": 218600
+    },
+    {
+      "epoch": 0.010326023253088039,
+      "grad_norm": 2.1761574745178223,
+      "learning_rate": 1.7006682424542497e-05,
+      "loss": 2.2172,
+      "step": 218700
+    },
+    {
+      "epoch": 0.01060510496263096,
+      "grad_norm": 2.32922101020813,
+      "learning_rate": 1.6985707283226172e-05,
+      "loss": 2.2169,
+      "step": 218800
+    },
+    {
+      "epoch": 0.01088418667217388,
+      "grad_norm": 2.1702868938446045,
+      "learning_rate": 1.6964738427691426e-05,
+      "loss": 2.2243,
+      "step": 218900
+    },
+    {
+      "epoch": 0.0111632683817168,
+      "grad_norm": 2.0979557037353516,
+      "learning_rate": 1.6943775874384583e-05,
+      "loss": 2.2045,
+      "step": 219000
+    },
+    {
+      "epoch": 0.0111632683817168,
+      "eval_loss": 2.1724750995635986,
+      "eval_runtime": 51.344,
+      "eval_samples_per_second": 198.543,
+      "eval_steps_per_second": 1.558,
+      "step": 219000
+    },
+    {
+      "epoch": 0.011442350091259719,
+      "grad_norm": 2.1244499683380127,
+      "learning_rate": 1.6922819639747006e-05,
+      "loss": 2.2174,
+      "step": 219100
+    },
+    {
+      "epoch": 0.011721431800802639,
+      "grad_norm": 2.18345046043396,
+      "learning_rate": 1.690186974021513e-05,
+      "loss": 2.2265,
+      "step": 219200
+    },
+    {
+      "epoch": 0.012000513510345558,
+      "grad_norm": 2.2020881175994873,
+      "learning_rate": 1.6880926192220413e-05,
+      "loss": 2.2272,
+      "step": 219300
+    },
+    {
+      "epoch": 0.01227959521988848,
+      "grad_norm": 2.2746477127075195,
+      "learning_rate": 1.6859989012189337e-05,
+      "loss": 2.2184,
+      "step": 219400
+    },
+    {
+      "epoch": 0.0125586769294314,
+      "grad_norm": 2.2917847633361816,
+      "learning_rate": 1.6839058216543358e-05,
+      "loss": 2.2267,
+      "step": 219500
+    },
+    {
+      "epoch": 0.012837758638974319,
+      "grad_norm": 2.2045438289642334,
+      "learning_rate": 1.6818133821698965e-05,
+      "loss": 2.2119,
+      "step": 219600
+    },
+    {
+      "epoch": 0.013116840348517239,
+      "grad_norm": 2.218310594558716,
+      "learning_rate": 1.6797215844067604e-05,
+      "loss": 2.2216,
+      "step": 219700
+    },
+    {
+      "epoch": 0.013395922058060158,
+      "grad_norm": 2.124152898788452,
+      "learning_rate": 1.67763043000557e-05,
+      "loss": 2.2065,
+      "step": 219800
+    },
+    {
+      "epoch": 0.013675003767603078,
+      "grad_norm": 2.10780930519104,
+      "learning_rate": 1.675539920606461e-05,
+      "loss": 2.2149,
+      "step": 219900
+    },
+    {
+      "epoch": 0.013954085477146,
+      "grad_norm": 2.210146903991699,
+      "learning_rate": 1.673450057849066e-05,
+      "loss": 2.2149,
+      "step": 220000
+    },
+    {
+      "epoch": 0.013954085477146,
+      "eval_loss": 2.164307117462158,
+      "eval_runtime": 51.3547,
+      "eval_samples_per_second": 198.502,
+      "eval_steps_per_second": 1.558,
+      "step": 220000
+    },
+    {
+      "epoch": 0.01423316718668892,
+      "grad_norm": 2.1689798831939697,
+      "learning_rate": 1.671360843372508e-05,
+      "loss": 2.2174,
+      "step": 220100
+    },
+    {
+      "epoch": 0.014512248896231839,
+      "grad_norm": 2.2905499935150146,
+      "learning_rate": 1.669272278815405e-05,
+      "loss": 2.2041,
+      "step": 220200
+    },
+    {
+      "epoch": 0.014791330605774759,
+      "grad_norm": 2.155677080154419,
+      "learning_rate": 1.6671843658158613e-05,
+      "loss": 2.2197,
+      "step": 220300
+    },
+    {
+      "epoch": 0.015070412315317678,
+      "grad_norm": 2.2219150066375732,
+      "learning_rate": 1.665097106011471e-05,
+      "loss": 2.2173,
+      "step": 220400
+    },
+    {
+      "epoch": 0.015349494024860598,
+      "grad_norm": 2.145770311355591,
+      "learning_rate": 1.6630105010393178e-05,
+      "loss": 2.1991,
+      "step": 220500
+    },
+    {
+      "epoch": 0.01562857573440352,
+      "grad_norm": 2.2329516410827637,
+      "learning_rate": 1.6609245525359717e-05,
+      "loss": 2.222,
+      "step": 220600
+    },
+    {
+      "epoch": 0.015907657443946437,
+      "grad_norm": 2.230044364929199,
+      "learning_rate": 1.6588392621374846e-05,
+      "loss": 2.2124,
+      "step": 220700
+    },
+    {
+      "epoch": 0.01618673915348936,
+      "grad_norm": 2.2386929988861084,
+      "learning_rate": 1.6567546314793956e-05,
+      "loss": 2.1982,
+      "step": 220800
+    },
+    {
+      "epoch": 0.01646582086303228,
+      "grad_norm": 2.178781747817993,
+      "learning_rate": 1.6546706621967255e-05,
+      "loss": 2.2056,
+      "step": 220900
+    },
+    {
+      "epoch": 0.016744902572575198,
+      "grad_norm": 2.2631821632385254,
+      "learning_rate": 1.6525873559239764e-05,
+      "loss": 2.1995,
+      "step": 221000
+    },
+    {
+      "epoch": 0.016744902572575198,
+      "eval_loss": 2.167518138885498,
+      "eval_runtime": 51.2411,
+      "eval_samples_per_second": 198.942,
+      "eval_steps_per_second": 1.561,
+      "step": 221000
+    },
+    {
+      "epoch": 0.01702398428211812,
+      "grad_norm": 2.186282157897949,
+      "learning_rate": 1.650504714295129e-05,
+      "loss": 2.2005,
+      "step": 221100
+    },
+    {
+      "epoch": 0.017303065991661037,
+      "grad_norm": 2.2361273765563965,
+      "learning_rate": 1.648422738943644e-05,
+      "loss": 2.2034,
+      "step": 221200
+    },
+    {
+      "epoch": 0.01758214770120396,
+      "grad_norm": 2.1385703086853027,
+      "learning_rate": 1.646341431502459e-05,
+      "loss": 2.2073,
+      "step": 221300
+    },
+    {
+      "epoch": 0.017861229410746877,
+      "grad_norm": 2.232243299484253,
+      "learning_rate": 1.64426079360399e-05,
+      "loss": 2.2008,
+      "step": 221400
+    },
+    {
+      "epoch": 0.018140311120289798,
+      "grad_norm": 2.30553936958313,
+      "learning_rate": 1.6421808268801235e-05,
+      "loss": 2.2029,
+      "step": 221500
+    },
+    {
+      "epoch": 0.01841939282983272,
+      "grad_norm": 2.1158080101013184,
+      "learning_rate": 1.6401015329622233e-05,
+      "loss": 2.1912,
+      "step": 221600
+    },
+    {
+      "epoch": 0.018698474539375638,
+      "grad_norm": 2.136540412902832,
+      "learning_rate": 1.6380229134811232e-05,
+      "loss": 2.2066,
+      "step": 221700
+    },
+    {
+      "epoch": 0.01897755624891856,
+      "grad_norm": 2.0367746353149414,
+      "learning_rate": 1.6359449700671307e-05,
+      "loss": 2.2027,
+      "step": 221800
+    },
+    {
+      "epoch": 0.019256637958461477,
+      "grad_norm": 2.1502268314361572,
+      "learning_rate": 1.6338677043500197e-05,
+      "loss": 2.2027,
+      "step": 221900
+    },
+    {
+      "epoch": 0.0195357196680044,
+      "grad_norm": 2.2150540351867676,
+      "learning_rate": 1.6317911179590346e-05,
+      "loss": 2.207,
+      "step": 222000
+    },
+    {
+      "epoch": 0.0195357196680044,
+      "eval_loss": 2.16145920753479,
+      "eval_runtime": 51.444,
+      "eval_samples_per_second": 198.157,
+      "eval_steps_per_second": 1.555,
+      "step": 222000
+    },
+    {
+      "epoch": 0.01981480137754732,
+      "grad_norm": 2.327277183532715,
+      "learning_rate": 1.629715212522887e-05,
+      "loss": 2.2025,
+      "step": 222100
+    },
+    {
+      "epoch": 0.020093883087090238,
+      "grad_norm": 2.240081548690796,
+      "learning_rate": 1.627639989669754e-05,
+      "loss": 2.2018,
+      "step": 222200
+    },
+    {
+      "epoch": 0.02037296479663316,
+      "grad_norm": 2.3731963634490967,
+      "learning_rate": 1.6255654510272778e-05,
+      "loss": 2.2009,
+      "step": 222300
+    },
+    {
+      "epoch": 0.020652046506176077,
+      "grad_norm": 2.1497604846954346,
+      "learning_rate": 1.623491598222563e-05,
+      "loss": 2.1973,
+      "step": 222400
+    },
+    {
+      "epoch": 0.020931128215719,
+      "grad_norm": 2.194458246231079,
+      "learning_rate": 1.621418432882176e-05,
+      "loss": 2.2045,
+      "step": 222500
+    },
+    {
+      "epoch": 0.02121020992526192,
+      "grad_norm": 2.1718227863311768,
+      "learning_rate": 1.6193459566321456e-05,
+      "loss": 2.1977,
+      "step": 222600
+    },
+    {
+      "epoch": 0.021489291634804838,
+      "grad_norm": 2.2664620876312256,
+      "learning_rate": 1.6172741710979606e-05,
+      "loss": 2.2011,
+      "step": 222700
+    },
+    {
+      "epoch": 0.02176837334434776,
+      "grad_norm": 2.388573169708252,
+      "learning_rate": 1.6152030779045647e-05,
+      "loss": 2.1984,
+      "step": 222800
+    },
+    {
+      "epoch": 0.022047455053890677,
+      "grad_norm": 2.1636369228363037,
+      "learning_rate": 1.6131326786763616e-05,
+      "loss": 2.2017,
+      "step": 222900
+    },
+    {
+      "epoch": 0.0223265367634336,
+      "grad_norm": 2.3732447624206543,
+      "learning_rate": 1.6110629750372096e-05,
+      "loss": 2.1938,
+      "step": 223000
+    },
+    {
+      "epoch": 0.0223265367634336,
+      "eval_loss": 2.170623779296875,
+      "eval_runtime": 51.4801,
+      "eval_samples_per_second": 198.018,
+      "eval_steps_per_second": 1.554,
+      "step": 223000
+    },
+    {
+      "epoch": 0.022605618472976517,
+      "grad_norm": 2.167587995529175,
+      "learning_rate": 1.608993968610423e-05,
+      "loss": 2.191,
+      "step": 223100
+    },
+    {
+      "epoch": 0.022884700182519438,
+      "grad_norm": 2.159860849380493,
+      "learning_rate": 1.6069256610187656e-05,
+      "loss": 2.2105,
+      "step": 223200
+    },
+    {
+      "epoch": 0.02316378189206236,
+      "grad_norm": 2.154714822769165,
+      "learning_rate": 1.6048580538844566e-05,
+      "loss": 2.1955,
+      "step": 223300
+    },
+    {
+      "epoch": 0.023442863601605277,
+      "grad_norm": 2.1291658878326416,
+      "learning_rate": 1.602791148829164e-05,
+      "loss": 2.2017,
+      "step": 223400
+    },
+    {
+      "epoch": 0.0237219453111482,
+      "grad_norm": 2.1027395725250244,
+      "learning_rate": 1.600724947474008e-05,
+      "loss": 2.1981,
+      "step": 223500
+    },
+    {
+      "epoch": 0.024001027020691117,
+      "grad_norm": 2.206848621368408,
+      "learning_rate": 1.5986594514395513e-05,
+      "loss": 2.1952,
+      "step": 223600
+    },
+    {
+      "epoch": 0.024280108730234038,
+      "grad_norm": 2.2017011642456055,
+      "learning_rate": 1.5965946623458084e-05,
+      "loss": 2.2008,
+      "step": 223700
+    },
+    {
+      "epoch": 0.02455919043977696,
+      "grad_norm": 2.31180477142334,
+      "learning_rate": 1.5945305818122376e-05,
+      "loss": 2.1875,
+      "step": 223800
+    },
+    {
+      "epoch": 0.024838272149319877,
+      "grad_norm": 2.226900577545166,
+      "learning_rate": 1.5924672114577422e-05,
+      "loss": 2.1909,
+      "step": 223900
+    },
+    {
+      "epoch": 0.0251173538588628,
+      "grad_norm": 2.177281618118286,
+      "learning_rate": 1.5904045529006657e-05,
+      "loss": 2.1933,
+      "step": 224000
+    },
+    {
+      "epoch": 0.0251173538588628,
+      "eval_loss": 2.158267021179199,
+      "eval_runtime": 51.4171,
+      "eval_samples_per_second": 198.261,
+      "eval_steps_per_second": 1.556,
+      "step": 224000
+    },
+    {
+      "epoch": 0.025396435568405717,
+      "grad_norm": 2.1759471893310547,
+      "learning_rate": 1.588342607758797e-05,
+      "loss": 2.1969,
+      "step": 224100
+    },
+    {
+      "epoch": 0.025675517277948638,
+      "grad_norm": 2.1845242977142334,
+      "learning_rate": 1.586281377649364e-05,
+      "loss": 2.2041,
+      "step": 224200
+    },
+    {
+      "epoch": 0.025954598987491556,
+      "grad_norm": 2.3617475032806396,
+      "learning_rate": 1.5842208641890337e-05,
+      "loss": 2.1873,
+      "step": 224300
+    },
+    {
+      "epoch": 0.026233680697034478,
+      "grad_norm": 2.091614007949829,
+      "learning_rate": 1.5821610689939105e-05,
+      "loss": 2.1918,
+      "step": 224400
+    },
+    {
+      "epoch": 0.0265127624065774,
+      "grad_norm": 2.2906229496002197,
+      "learning_rate": 1.580101993679535e-05,
+      "loss": 2.1975,
+      "step": 224500
+    },
+    {
+      "epoch": 0.026791844116120317,
+      "grad_norm": 2.089142084121704,
+      "learning_rate": 1.5780436398608854e-05,
+      "loss": 2.2017,
+      "step": 224600
+    },
+    {
+      "epoch": 0.02707092582566324,
+      "grad_norm": 2.2736806869506836,
+      "learning_rate": 1.575986009152373e-05,
+      "loss": 2.1857,
+      "step": 224700
+    },
+    {
+      "epoch": 0.027350007535206156,
+      "grad_norm": 2.1917905807495117,
+      "learning_rate": 1.5739291031678404e-05,
+      "loss": 2.1903,
+      "step": 224800
+    },
+    {
+      "epoch": 0.027629089244749078,
+      "grad_norm": 2.207611322402954,
+      "learning_rate": 1.5718729235205642e-05,
+      "loss": 2.1948,
+      "step": 224900
+    },
+    {
+      "epoch": 0.027908170954292,
+      "grad_norm": 2.3215441703796387,
+      "learning_rate": 1.5698174718232494e-05,
+      "loss": 2.192,
+      "step": 225000
+    },
+    {
+      "epoch": 0.027908170954292,
+      "eval_loss": 2.1532270908355713,
+      "eval_runtime": 51.4641,
+      "eval_samples_per_second": 198.08,
+      "eval_steps_per_second": 1.554,
+      "step": 225000
+    },
+    {
+      "epoch": 0.028187252663834917,
+      "grad_norm": 2.1780614852905273,
+      "learning_rate": 1.567762749688031e-05,
+      "loss": 2.1826,
+      "step": 225100
+    },
+    {
+      "epoch": 0.02846633437337784,
+      "grad_norm": 2.1773393154144287,
+      "learning_rate": 1.5657087587264724e-05,
+      "loss": 2.187,
+      "step": 225200
+    },
+    {
+      "epoch": 0.028745416082920756,
+      "grad_norm": 2.1740593910217285,
+      "learning_rate": 1.5636555005495616e-05,
+      "loss": 2.186,
+      "step": 225300
+    },
+    {
+      "epoch": 0.029024497792463678,
+      "grad_norm": 2.338139295578003,
+      "learning_rate": 1.561602976767713e-05,
+      "loss": 2.1901,
+      "step": 225400
+    },
+    {
+      "epoch": 0.0293035795020066,
+      "grad_norm": 2.3076512813568115,
+      "learning_rate": 1.5595511889907665e-05,
+      "loss": 2.1911,
+      "step": 225500
+    },
+    {
+      "epoch": 0.029582661211549517,
+      "grad_norm": 2.286112070083618,
+      "learning_rate": 1.557500138827982e-05,
+      "loss": 2.1823,
+      "step": 225600
+    },
+    {
+      "epoch": 0.02986174292109244,
+      "grad_norm": 2.1310651302337646,
+      "learning_rate": 1.5554498278880424e-05,
+      "loss": 2.1904,
+      "step": 225700
+    },
+    {
+      "epoch": 0.030140824630635357,
+      "grad_norm": 2.149794578552246,
+      "learning_rate": 1.5534002577790497e-05,
+      "loss": 2.1857,
+      "step": 225800
+    },
+    {
+      "epoch": 0.030419906340178278,
+      "grad_norm": 2.250833511352539,
+      "learning_rate": 1.5513514301085266e-05,
+      "loss": 2.1748,
+      "step": 225900
+    },
+    {
+      "epoch": 0.030698988049721196,
+      "grad_norm": 2.2140324115753174,
+      "learning_rate": 1.5493033464834133e-05,
+      "loss": 2.1891,
+      "step": 226000
+    },
+    {
+      "epoch": 0.030698988049721196,
+      "eval_loss": 2.149634838104248,
+      "eval_runtime": 51.5665,
+      "eval_samples_per_second": 197.687,
+      "eval_steps_per_second": 1.551,
+      "step": 226000
+    },
+    {
+      "epoch": 0.030978069759264117,
+      "grad_norm": 2.228729009628296,
+      "learning_rate": 1.547256008510064e-05,
+      "loss": 2.1815,
+      "step": 226100
+    },
+    {
+      "epoch": 0.03125715146880704,
+      "grad_norm": 2.263529062271118,
+      "learning_rate": 1.545209417794251e-05,
+      "loss": 2.2412,
+      "step": 226200
+    },
+    {
+      "epoch": 0.03153623317834996,
+      "grad_norm": 2.239266872406006,
+      "learning_rate": 1.5431635759411582e-05,
+      "loss": 2.3094,
+      "step": 226300
+    },
+    {
+      "epoch": 0.031815314887892875,
+      "grad_norm": 2.179316997528076,
+      "learning_rate": 1.541118484555385e-05,
+      "loss": 2.2971,
+      "step": 226400
+    },
+    {
+      "epoch": 0.0320943965974358,
+      "grad_norm": 2.152000665664673,
+      "learning_rate": 1.539074145240938e-05,
+      "loss": 2.3019,
+      "step": 226500
+    },
+    {
+      "epoch": 0.03237347830697872,
+      "grad_norm": 2.2889840602874756,
+      "learning_rate": 1.5370305596012376e-05,
+      "loss": 2.284,
+      "step": 226600
+    },
+    {
+      "epoch": 0.032652560016521635,
+      "grad_norm": 2.195444345474243,
+      "learning_rate": 1.5349877292391122e-05,
+      "loss": 2.2919,
+      "step": 226700
+    },
+    {
+      "epoch": 0.03293164172606456,
+      "grad_norm": 2.3559839725494385,
+      "learning_rate": 1.5329456557567978e-05,
+      "loss": 2.2882,
+      "step": 226800
+    },
+    {
+      "epoch": 0.03321072343560748,
+      "grad_norm": 2.2163028717041016,
+      "learning_rate": 1.5309043407559345e-05,
+      "loss": 2.2731,
+      "step": 226900
+    },
+    {
+      "epoch": 0.033489805145150396,
+      "grad_norm": 2.3102822303771973,
+      "learning_rate": 1.5288637858375714e-05,
+      "loss": 2.2873,
+      "step": 227000
+    },
+    {
+      "epoch": 0.033489805145150396,
+      "eval_loss": 2.1502978801727295,
+      "eval_runtime": 51.5237,
+      "eval_samples_per_second": 197.851,
+      "eval_steps_per_second": 1.553,
+      "step": 227000
+    },
+    {
+      "epoch": 0.033768886854693314,
+      "grad_norm": 2.150144577026367,
+      "learning_rate": 1.5268239926021576e-05,
+      "loss": 2.2731,
+      "step": 227100
+    },
+    {
+      "epoch": 0.03404796856423624,
+      "grad_norm": 2.355604410171509,
+      "learning_rate": 1.5247849626495492e-05,
+      "loss": 2.2814,
+      "step": 227200
+    },
+    {
+      "epoch": 0.03432705027377916,
+      "grad_norm": 2.2507338523864746,
+      "learning_rate": 1.5227466975789987e-05,
+      "loss": 2.2773,
+      "step": 227300
+    },
+    {
+      "epoch": 0.034606131983322075,
+      "grad_norm": 2.3993356227874756,
+      "learning_rate": 1.5207091989891617e-05,
+      "loss": 2.275,
+      "step": 227400
+    },
+    {
+      "epoch": 0.034885213692865,
+      "grad_norm": 2.2218728065490723,
+      "learning_rate": 1.5186724684780929e-05,
+      "loss": 2.29,
+      "step": 227500
+    },
+    {
+      "epoch": 0.03516429540240792,
+      "grad_norm": 2.109447717666626,
+      "learning_rate": 1.5166365076432432e-05,
+      "loss": 2.2635,
+      "step": 227600
+    },
+    {
+      "epoch": 0.035443377111950836,
+      "grad_norm": 2.2415287494659424,
+      "learning_rate": 1.51460131808146e-05,
+      "loss": 2.2773,
+      "step": 227700
+    },
+    {
+      "epoch": 0.035722458821493754,
+      "grad_norm": 2.3350560665130615,
+      "learning_rate": 1.5125669013889861e-05,
+      "loss": 2.2789,
+      "step": 227800
+    },
+    {
+      "epoch": 0.03600154053103668,
+      "grad_norm": 2.2049736976623535,
+      "learning_rate": 1.5105332591614585e-05,
+      "loss": 2.2747,
+      "step": 227900
+    },
+    {
+      "epoch": 0.036280622240579596,
+      "grad_norm": 2.2645366191864014,
+      "learning_rate": 1.5085003929939067e-05,
+      "loss": 2.2662,
+      "step": 228000
+    },
+    {
+      "epoch": 0.036280622240579596,
+      "eval_loss": 2.140353202819824,
+      "eval_runtime": 51.6063,
+      "eval_samples_per_second": 197.534,
+      "eval_steps_per_second": 1.55,
+      "step": 228000
+    },
+    {
+      "epoch": 0.036559703950122514,
+      "grad_norm": 2.245758295059204,
+      "learning_rate": 1.5064683044807504e-05,
+      "loss": 2.2559,
+      "step": 228100
+    },
+    {
+      "epoch": 0.03683878565966544,
+      "grad_norm": 2.1644320487976074,
+      "learning_rate": 1.5044369952158e-05,
+      "loss": 2.2621,
+      "step": 228200
+    },
+    {
+      "epoch": 0.03711786736920836,
+      "grad_norm": 2.24301815032959,
+      "learning_rate": 1.5024064667922563e-05,
+      "loss": 2.2643,
+      "step": 228300
+    },
+    {
+      "epoch": 0.037396949078751275,
+      "grad_norm": 2.1599223613739014,
+      "learning_rate": 1.5003767208027048e-05,
+      "loss": 2.2675,
+      "step": 228400
+    },
+    {
+      "epoch": 0.0376760307882942,
+      "grad_norm": 2.279449701309204,
+      "learning_rate": 1.4983477588391203e-05,
+      "loss": 2.2637,
+      "step": 228500
+    },
+    {
+      "epoch": 0.03795511249783712,
+      "grad_norm": 2.155567169189453,
+      "learning_rate": 1.4963195824928595e-05,
+      "loss": 2.2511,
+      "step": 228600
+    },
+    {
+      "epoch": 0.038234194207380036,
+      "grad_norm": 2.1678829193115234,
+      "learning_rate": 1.4942921933546653e-05,
+      "loss": 2.2637,
+      "step": 228700
+    },
+    {
+      "epoch": 0.038513275916922954,
+      "grad_norm": 2.173006772994995,
+      "learning_rate": 1.4922655930146628e-05,
+      "loss": 2.2565,
+      "step": 228800
+    },
+    {
+      "epoch": 0.03879235762646588,
+      "grad_norm": 2.268568992614746,
+      "learning_rate": 1.4902397830623583e-05,
+      "loss": 2.267,
+      "step": 228900
+    },
+    {
+      "epoch": 0.0390714393360088,
+      "grad_norm": 2.140665292739868,
+      "learning_rate": 1.488214765086637e-05,
+      "loss": 2.2609,
+      "step": 229000
+    },
+    {
+      "epoch": 0.0390714393360088,
+      "eval_loss": 2.1331050395965576,
+      "eval_runtime": 51.4755,
+      "eval_samples_per_second": 198.036,
+      "eval_steps_per_second": 1.554,
+      "step": 229000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.9985381902516224e+19,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b369d4c284193104629459ff70a317184ca3f350753d5cc563977de982dd1e9
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f7b845168445732fd0c73bfeaca5509fec78a0bea7de873006a9dc759b752ca
 size 5777