Training in progress, step 4800

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +828 -258
last-checkpoint/training_args.bin +1 -1
model.safetensors +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad15d12fa229f1794a8dd10223f571b0c4044b188c2edb0e066b7a18688f6132
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:470ceab2ffbdc9be7e9ba55dac8f66ad2d2ee6d83bf68d588bdf8c2e363afa0a
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52a3dcb31a2a26c374576cfddafb3476db84b7103622bbfe66f386c692915e00
 size 1980545291

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a8f1de75a1e7f597eeeec866f696144c9ded9443ee76a77efdde665cb83edb3
 size 1980545291

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435141f0266913129d6ffd1dc7b62f464fe5698014d7627dbd3fef5684f9d38b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ce3825e60923efd0732224de480af38290fa16b941f44ff5e3049ad2c6cac56
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0258928230b848c7fc84e13b45f33e34530c19f3dde5f9081a5d4f027a569dd2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:3185a876acce70348de92f6615e3c6174f04c918e17668da9430678af0491872
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,436 +2,1006 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6236162361623616,
   "eval_steps": 400,
-  "global_step": 4400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03690036900369004,
-      "grad_norm": 4.41992712020874,
-      "learning_rate": 3.926937269372694e-05,
-      "loss": 0.9291,
       "step": 100
     },
     {
-      "epoch": 0.07380073800738007,
-      "grad_norm": 5.523387908935547,
-      "learning_rate": 3.853136531365314e-05,
-      "loss": 0.9121,
       "step": 200
     },
     {
-      "epoch": 0.11070110701107011,
-      "grad_norm": 2.894198417663574,
-      "learning_rate": 3.779335793357934e-05,
-      "loss": 0.9451,
       "step": 300
     },
     {
-      "epoch": 0.14760147601476015,
-      "grad_norm": 4.9876556396484375,
-      "learning_rate": 3.705535055350554e-05,
-      "loss": 0.92,
       "step": 400
     },
     {
-      "epoch": 0.14760147601476015,
-      "eval_bleu": 46.2124538637683,
-      "eval_chrf": 70.20566598384819,
-      "eval_loss": 0.9659060835838318,
-      "eval_runtime": 96.6966,
-      "eval_samples_per_second": 8.439,
-      "eval_steps_per_second": 1.055,
       "step": 400
     },
     {
-      "epoch": 0.18450184501845018,
-      "grad_norm": 3.176483631134033,
-      "learning_rate": 3.6317343173431734e-05,
-      "loss": 0.9031,
       "step": 500
     },
     {
-      "epoch": 0.22140221402214022,
-      "grad_norm": 3.038796901702881,
-      "learning_rate": 3.5579335793357936e-05,
-      "loss": 0.9035,
       "step": 600
     },
     {
-      "epoch": 0.25830258302583026,
-      "grad_norm": 10.56854248046875,
-      "learning_rate": 3.484132841328414e-05,
-      "loss": 0.8688,
       "step": 700
     },
     {
-      "epoch": 0.2952029520295203,
-      "grad_norm": 4.877047538757324,
-      "learning_rate": 3.410332103321034e-05,
-      "loss": 1.0048,
       "step": 800
     },
     {
-      "epoch": 0.2952029520295203,
-      "eval_bleu": 45.750715379330366,
-      "eval_chrf": 70.00797971045762,
-      "eval_loss": 0.962220311164856,
-      "eval_runtime": 96.7314,
-      "eval_samples_per_second": 8.436,
-      "eval_steps_per_second": 1.054,
       "step": 800
     },
     {
-      "epoch": 0.33210332103321033,
-      "grad_norm": 5.688119888305664,
-      "learning_rate": 3.3365313653136534e-05,
-      "loss": 0.9146,
       "step": 900
     },
     {
-      "epoch": 0.36900369003690037,
-      "grad_norm": 4.046717643737793,
-      "learning_rate": 3.2627306273062736e-05,
-      "loss": 0.906,
       "step": 1000
     },
     {
-      "epoch": 0.4059040590405904,
-      "grad_norm": 4.171918869018555,
-      "learning_rate": 3.188929889298893e-05,
-      "loss": 0.9026,
       "step": 1100
     },
     {
-      "epoch": 0.44280442804428044,
-      "grad_norm": 2.658325672149658,
-      "learning_rate": 3.115129151291513e-05,
-      "loss": 0.9634,
       "step": 1200
     },
     {
-      "epoch": 0.44280442804428044,
-      "eval_bleu": 46.31749782940418,
-      "eval_chrf": 70.29647401157018,
-      "eval_loss": 0.9587263464927673,
-      "eval_runtime": 97.1058,
-      "eval_samples_per_second": 8.403,
-      "eval_steps_per_second": 1.05,
       "step": 1200
     },
     {
-      "epoch": 0.4797047970479705,
-      "grad_norm": 2.7676937580108643,
-      "learning_rate": 3.041328413284133e-05,
-      "loss": 0.889,
       "step": 1300
     },
     {
-      "epoch": 0.5166051660516605,
-      "grad_norm": 3.7263267040252686,
-      "learning_rate": 2.967527675276753e-05,
-      "loss": 0.9156,
       "step": 1400
     },
     {
-      "epoch": 0.5535055350553506,
-      "grad_norm": 5.799243450164795,
-      "learning_rate": 2.893726937269373e-05,
-      "loss": 0.9631,
       "step": 1500
     },
     {
-      "epoch": 0.5904059040590406,
-      "grad_norm": 3.508241653442383,
-      "learning_rate": 2.819926199261993e-05,
-      "loss": 0.9116,
       "step": 1600
     },
     {
-      "epoch": 0.5904059040590406,
-      "eval_bleu": 46.58006412895955,
-      "eval_chrf": 70.4943624210968,
-      "eval_loss": 0.9491108655929565,
-      "eval_runtime": 96.8012,
-      "eval_samples_per_second": 8.43,
-      "eval_steps_per_second": 1.054,
       "step": 1600
     },
     {
-      "epoch": 0.6273062730627307,
-      "grad_norm": 4.0949225425720215,
-      "learning_rate": 2.7461254612546128e-05,
-      "loss": 0.9217,
       "step": 1700
     },
     {
-      "epoch": 0.6642066420664207,
-      "grad_norm": 4.698362827301025,
-      "learning_rate": 2.6723247232472326e-05,
-      "loss": 0.9627,
       "step": 1800
     },
     {
-      "epoch": 0.7011070110701108,
-      "grad_norm": 3.4152214527130127,
-      "learning_rate": 2.5985239852398528e-05,
-      "loss": 0.9621,
       "step": 1900
     },
     {
-      "epoch": 0.7380073800738007,
-      "grad_norm": 5.174529075622559,
-      "learning_rate": 2.5247232472324727e-05,
-      "loss": 0.9127,
       "step": 2000
     },
     {
-      "epoch": 0.7380073800738007,
-      "eval_bleu": 46.23328341662156,
-      "eval_chrf": 70.4334392951765,
-      "eval_loss": 0.9401571154594421,
-      "eval_runtime": 96.3896,
-      "eval_samples_per_second": 8.466,
-      "eval_steps_per_second": 1.058,
       "step": 2000
     },
     {
-      "epoch": 0.7749077490774908,
-      "grad_norm": 4.145532608032227,
-      "learning_rate": 2.4509225092250925e-05,
-      "loss": 0.8737,
       "step": 2100
     },
     {
-      "epoch": 0.8118081180811808,
-      "grad_norm": 3.2128381729125977,
-      "learning_rate": 2.3771217712177123e-05,
-      "loss": 0.8972,
       "step": 2200
     },
     {
-      "epoch": 0.8487084870848709,
-      "grad_norm": 5.43286657333374,
-      "learning_rate": 2.3033210332103325e-05,
-      "loss": 0.9537,
       "step": 2300
     },
     {
-      "epoch": 0.8856088560885609,
-      "grad_norm": 4.181277751922607,
-      "learning_rate": 2.2295202952029523e-05,
-      "loss": 0.9513,
       "step": 2400
     },
     {
-      "epoch": 0.8856088560885609,
-      "eval_bleu": 46.62494660518371,
-      "eval_chrf": 70.75585572160985,
-      "eval_loss": 0.931623101234436,
-      "eval_runtime": 96.3421,
-      "eval_samples_per_second": 8.47,
-      "eval_steps_per_second": 1.059,
       "step": 2400
     },
     {
-      "epoch": 0.922509225092251,
-      "grad_norm": 4.236485004425049,
-      "learning_rate": 2.1557195571955722e-05,
-      "loss": 0.912,
       "step": 2500
     },
     {
-      "epoch": 0.959409594095941,
-      "grad_norm": 4.3563337326049805,
-      "learning_rate": 2.081918819188192e-05,
-      "loss": 0.9503,
       "step": 2600
     },
     {
-      "epoch": 0.996309963099631,
-      "grad_norm": 3.8650689125061035,
-      "learning_rate": 2.0081180811808122e-05,
-      "loss": 0.8835,
       "step": 2700
     },
     {
-      "epoch": 1.033210332103321,
-      "grad_norm": 4.865896224975586,
-      "learning_rate": 1.934317343173432e-05,
-      "loss": 0.9395,
       "step": 2800
     },
     {
-      "epoch": 1.033210332103321,
-      "eval_bleu": 46.61705928386175,
-      "eval_chrf": 70.76885341204647,
-      "eval_loss": 0.9273455739021301,
-      "eval_runtime": 96.2367,
-      "eval_samples_per_second": 8.479,
-      "eval_steps_per_second": 1.06,
       "step": 2800
     },
     {
-      "epoch": 1.070110701107011,
-      "grad_norm": 4.255625247955322,
-      "learning_rate": 1.8605166051660515e-05,
-      "loss": 0.925,
       "step": 2900
     },
     {
-      "epoch": 1.1070110701107012,
-      "grad_norm": 3.4618682861328125,
-      "learning_rate": 1.7867158671586717e-05,
-      "loss": 0.8997,
       "step": 3000
     },
     {
-      "epoch": 1.1439114391143912,
-      "grad_norm": 4.462490558624268,
-      "learning_rate": 1.7129151291512916e-05,
-      "loss": 0.9109,
       "step": 3100
     },
     {
-      "epoch": 1.1808118081180812,
-      "grad_norm": 3.9228367805480957,
-      "learning_rate": 1.6391143911439117e-05,
-      "loss": 0.8899,
       "step": 3200
     },
     {
-      "epoch": 1.1808118081180812,
-      "eval_bleu": 46.706846283749094,
-      "eval_chrf": 70.66405951179729,
-      "eval_loss": 0.9309074282646179,
-      "eval_runtime": 96.5614,
-      "eval_samples_per_second": 8.451,
-      "eval_steps_per_second": 1.056,
       "step": 3200
     },
     {
-      "epoch": 1.2177121771217712,
-      "grad_norm": 4.034820556640625,
-      "learning_rate": 1.5653136531365312e-05,
-      "loss": 0.8508,
       "step": 3300
     },
     {
-      "epoch": 1.2546125461254611,
-      "grad_norm": 3.396322011947632,
-      "learning_rate": 1.4915129151291514e-05,
-      "loss": 0.8776,
       "step": 3400
     },
     {
-      "epoch": 1.2915129151291513,
-      "grad_norm": 7.144755840301514,
-      "learning_rate": 1.4177121771217713e-05,
-      "loss": 0.8599,
       "step": 3500
     },
     {
-      "epoch": 1.3284132841328413,
-      "grad_norm": 3.339700937271118,
-      "learning_rate": 1.3439114391143913e-05,
-      "loss": 0.8638,
       "step": 3600
     },
     {
-      "epoch": 1.3284132841328413,
-      "eval_bleu": 46.624919425579975,
-      "eval_chrf": 70.85748628309527,
-      "eval_loss": 0.9251583218574524,
-      "eval_runtime": 96.1672,
-      "eval_samples_per_second": 8.485,
-      "eval_steps_per_second": 1.061,
       "step": 3600
     },
     {
-      "epoch": 1.3653136531365313,
-      "grad_norm": 3.8256001472473145,
-      "learning_rate": 1.2701107011070111e-05,
-      "loss": 0.8555,
       "step": 3700
     },
     {
-      "epoch": 1.4022140221402215,
-      "grad_norm": 3.9691555500030518,
-      "learning_rate": 1.1963099630996311e-05,
-      "loss": 0.9664,
       "step": 3800
     },
     {
-      "epoch": 1.4391143911439115,
-      "grad_norm": 3.3013808727264404,
-      "learning_rate": 1.122509225092251e-05,
-      "loss": 0.8878,
       "step": 3900
     },
     {
-      "epoch": 1.4760147601476015,
-      "grad_norm": 2.8146023750305176,
-      "learning_rate": 1.048708487084871e-05,
-      "loss": 0.8244,
       "step": 4000
     },
     {
-      "epoch": 1.4760147601476015,
-      "eval_bleu": 46.934667995761984,
-      "eval_chrf": 70.98538034968328,
-      "eval_loss": 0.9257907271385193,
-      "eval_runtime": 96.3505,
-      "eval_samples_per_second": 8.469,
-      "eval_steps_per_second": 1.059,
       "step": 4000
     },
     {
-      "epoch": 1.5129151291512914,
-      "grad_norm": 3.6188437938690186,
-      "learning_rate": 9.749077490774908e-06,
-      "loss": 0.9188,
       "step": 4100
     },
     {
-      "epoch": 1.5498154981549814,
-      "grad_norm": 3.578477621078491,
-      "learning_rate": 9.011070110701108e-06,
-      "loss": 0.9018,
       "step": 4200
     },
     {
-      "epoch": 1.5867158671586716,
-      "grad_norm": 5.138524532318115,
-      "learning_rate": 8.273062730627306e-06,
-      "loss": 0.826,
       "step": 4300
     },
     {
-      "epoch": 1.6236162361623616,
-      "grad_norm": 4.470804214477539,
-      "learning_rate": 7.5350553505535065e-06,
-      "loss": 0.8736,
       "step": 4400
     },
     {
-      "epoch": 1.6236162361623616,
-      "eval_bleu": 46.87049580619245,
-      "eval_chrf": 70.96854490395519,
-      "eval_loss": 0.9282872676849365,
-      "eval_runtime": 96.576,
-      "eval_samples_per_second": 8.449,
-      "eval_steps_per_second": 1.056,
       "step": 4400
     }
   ],
   "logging_steps": 100,
-  "max_steps": 5420,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -445,7 +1015,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.20506497892352e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.987647227808101,
   "eval_steps": 400,
+  "global_step": 10400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.028727377190462512,
+      "grad_norm": 6.10549259185791,
+      "learning_rate": 3.450229819017523e-05,
+      "loss": 1.2588,
       "step": 100
     },
     {
+      "epoch": 0.057454754380925024,
+      "grad_norm": 4.3359055519104,
+      "learning_rate": 3.399956908934214e-05,
+      "loss": 1.1224,
       "step": 200
     },
     {
+      "epoch": 0.08618213157138753,
+      "grad_norm": 5.931371212005615,
+      "learning_rate": 3.3496839988509046e-05,
+      "loss": 1.1446,
       "step": 300
     },
     {
+      "epoch": 0.11490950876185005,
+      "grad_norm": 3.002002716064453,
+      "learning_rate": 3.299411088767595e-05,
+      "loss": 1.1758,
       "step": 400
     },
     {
+      "epoch": 0.11490950876185005,
+      "eval_bleu": 41.28035874039895,
+      "eval_chrf": 67.18168785062267,
+      "eval_loss": 1.1012325286865234,
+      "eval_runtime": 92.7093,
+      "eval_samples_per_second": 8.802,
+      "eval_steps_per_second": 1.1,
       "step": 400
     },
     {
+      "epoch": 0.14363688595231255,
+      "grad_norm": 8.971595764160156,
+      "learning_rate": 3.249138178684286e-05,
+      "loss": 1.1277,
       "step": 500
     },
     {
+      "epoch": 0.17236426314277506,
+      "grad_norm": 4.5978193283081055,
+      "learning_rate": 3.1988652686009764e-05,
+      "loss": 1.1686,
       "step": 600
     },
     {
+      "epoch": 0.20109164033323756,
+      "grad_norm": 4.403153419494629,
+      "learning_rate": 3.148592358517667e-05,
+      "loss": 1.1407,
       "step": 700
     },
     {
+      "epoch": 0.2298190175237001,
+      "grad_norm": 6.78354024887085,
+      "learning_rate": 3.098319448434358e-05,
+      "loss": 1.1484,
       "step": 800
     },
     {
+      "epoch": 0.2298190175237001,
+      "eval_bleu": 41.581675716567375,
+      "eval_chrf": 67.43982029189218,
+      "eval_loss": 1.082136631011963,
+      "eval_runtime": 93.3596,
+      "eval_samples_per_second": 8.74,
+      "eval_steps_per_second": 1.093,
       "step": 800
     },
     {
+      "epoch": 0.2585463947141626,
+      "grad_norm": 5.0640668869018555,
+      "learning_rate": 3.0480465383510482e-05,
+      "loss": 1.1026,
       "step": 900
     },
     {
+      "epoch": 0.2872737719046251,
+      "grad_norm": 6.618113994598389,
+      "learning_rate": 2.9977736282677386e-05,
+      "loss": 1.1249,
       "step": 1000
     },
     {
+      "epoch": 0.31600114909508764,
+      "grad_norm": 4.835494041442871,
+      "learning_rate": 2.9475007181844297e-05,
+      "loss": 1.0801,
       "step": 1100
     },
     {
+      "epoch": 0.3447285262855501,
+      "grad_norm": 5.188547611236572,
+      "learning_rate": 2.89722780810112e-05,
+      "loss": 1.084,
       "step": 1200
     },
     {
+      "epoch": 0.3447285262855501,
+      "eval_bleu": 42.00764102408484,
+      "eval_chrf": 67.64762972701448,
+      "eval_loss": 1.089510202407837,
+      "eval_runtime": 93.2029,
+      "eval_samples_per_second": 8.755,
+      "eval_steps_per_second": 1.094,
       "step": 1200
     },
     {
+      "epoch": 0.37345590347601265,
+      "grad_norm": 4.901341438293457,
+      "learning_rate": 2.8469548980178107e-05,
+      "loss": 1.077,
       "step": 1300
     },
     {
+      "epoch": 0.40218328066647513,
+      "grad_norm": 3.2502522468566895,
+      "learning_rate": 2.7966819879345015e-05,
+      "loss": 1.1337,
       "step": 1400
     },
     {
+      "epoch": 0.43091065785693766,
+      "grad_norm": 4.620765209197998,
+      "learning_rate": 2.746409077851192e-05,
+      "loss": 1.0423,
       "step": 1500
     },
     {
+      "epoch": 0.4596380350474002,
+      "grad_norm": 5.650172233581543,
+      "learning_rate": 2.696136167767883e-05,
+      "loss": 1.0917,
       "step": 1600
     },
     {
+      "epoch": 0.4596380350474002,
+      "eval_bleu": 42.83637366392379,
+      "eval_chrf": 68.16318386751354,
+      "eval_loss": 1.0691643953323364,
+      "eval_runtime": 93.178,
+      "eval_samples_per_second": 8.757,
+      "eval_steps_per_second": 1.095,
       "step": 1600
     },
     {
+      "epoch": 0.4883654122378627,
+      "grad_norm": 4.365080833435059,
+      "learning_rate": 2.6458632576845733e-05,
+      "loss": 1.0874,
       "step": 1700
     },
     {
+      "epoch": 0.5170927894283252,
+      "grad_norm": 6.768467903137207,
+      "learning_rate": 2.5955903476012636e-05,
+      "loss": 1.0862,
       "step": 1800
     },
     {
+      "epoch": 0.5458201666187877,
+      "grad_norm": 6.844293594360352,
+      "learning_rate": 2.5453174375179547e-05,
+      "loss": 1.0999,
       "step": 1900
     },
     {
+      "epoch": 0.5745475438092502,
+      "grad_norm": 6.295813083648682,
+      "learning_rate": 2.495044527434645e-05,
+      "loss": 1.1827,
       "step": 2000
     },
     {
+      "epoch": 0.5745475438092502,
+      "eval_bleu": 42.50176680079929,
+      "eval_chrf": 67.98178905115233,
+      "eval_loss": 1.072556734085083,
+      "eval_runtime": 93.3417,
+      "eval_samples_per_second": 8.742,
+      "eval_steps_per_second": 1.093,
       "step": 2000
     },
     {
+      "epoch": 0.6032749209997127,
+      "grad_norm": 4.727890491485596,
+      "learning_rate": 2.4447716173513354e-05,
+      "loss": 1.1242,
       "step": 2100
     },
     {
+      "epoch": 0.6320022981901753,
+      "grad_norm": 6.65009880065918,
+      "learning_rate": 2.3944987072680265e-05,
+      "loss": 1.0538,
       "step": 2200
     },
     {
+      "epoch": 0.6607296753806378,
+      "grad_norm": 7.740184307098389,
+      "learning_rate": 2.344225797184717e-05,
+      "loss": 1.0841,
       "step": 2300
     },
     {
+      "epoch": 0.6894570525711002,
+      "grad_norm": 2.9125332832336426,
+      "learning_rate": 2.2939528871014072e-05,
+      "loss": 1.072,
       "step": 2400
     },
     {
+      "epoch": 0.6894570525711002,
+      "eval_bleu": 42.81380660025228,
+      "eval_chrf": 68.15974530185456,
+      "eval_loss": 1.0647461414337158,
+      "eval_runtime": 93.2564,
+      "eval_samples_per_second": 8.75,
+      "eval_steps_per_second": 1.094,
       "step": 2400
     },
     {
+      "epoch": 0.7181844297615627,
+      "grad_norm": 4.305944442749023,
+      "learning_rate": 2.2436799770180983e-05,
+      "loss": 1.0874,
       "step": 2500
     },
     {
+      "epoch": 0.7469118069520253,
+      "grad_norm": 4.778198719024658,
+      "learning_rate": 2.1934070669347887e-05,
+      "loss": 1.0971,
       "step": 2600
     },
     {
+      "epoch": 0.7756391841424878,
+      "grad_norm": 3.9012796878814697,
+      "learning_rate": 2.143134156851479e-05,
+      "loss": 1.0818,
       "step": 2700
     },
     {
+      "epoch": 0.8043665613329503,
+      "grad_norm": 6.876541614532471,
+      "learning_rate": 2.09286124676817e-05,
+      "loss": 1.0424,
       "step": 2800
     },
     {
+      "epoch": 0.8043665613329503,
+      "eval_bleu": 42.600987811990336,
+      "eval_chrf": 68.08456018392769,
+      "eval_loss": 1.0626726150512695,
+      "eval_runtime": 93.8915,
+      "eval_samples_per_second": 8.691,
+      "eval_steps_per_second": 1.086,
       "step": 2800
     },
     {
+      "epoch": 0.8330939385234128,
+      "grad_norm": 3.5570015907287598,
+      "learning_rate": 2.0425883366848605e-05,
+      "loss": 1.0989,
       "step": 2900
     },
     {
+      "epoch": 0.8618213157138753,
+      "grad_norm": 4.700556755065918,
+      "learning_rate": 1.992315426601551e-05,
+      "loss": 1.0897,
       "step": 3000
     },
     {
+      "epoch": 0.8905486929043378,
+      "grad_norm": 3.259363889694214,
+      "learning_rate": 1.942042516518242e-05,
+      "loss": 1.0951,
       "step": 3100
     },
     {
+      "epoch": 0.9192760700948004,
+      "grad_norm": 5.479709148406982,
+      "learning_rate": 1.8917696064349323e-05,
+      "loss": 1.0604,
       "step": 3200
     },
     {
+      "epoch": 0.9192760700948004,
+      "eval_bleu": 42.6775731878505,
+      "eval_chrf": 68.08652942159591,
+      "eval_loss": 1.0623129606246948,
+      "eval_runtime": 94.0003,
+      "eval_samples_per_second": 8.681,
+      "eval_steps_per_second": 1.085,
       "step": 3200
     },
     {
+      "epoch": 0.9480034472852629,
+      "grad_norm": 4.478285312652588,
+      "learning_rate": 1.841496696351623e-05,
+      "loss": 1.1103,
       "step": 3300
     },
     {
+      "epoch": 0.9767308244757253,
+      "grad_norm": 6.426375389099121,
+      "learning_rate": 1.7912237862683137e-05,
+      "loss": 1.0529,
       "step": 3400
     },
     {
+      "epoch": 1.005458201666188,
+      "grad_norm": 5.8713884353637695,
+      "learning_rate": 1.740950876185004e-05,
+      "loss": 1.0224,
       "step": 3500
     },
     {
+      "epoch": 1.0341855788566503,
+      "grad_norm": 3.4513754844665527,
+      "learning_rate": 1.6906779661016948e-05,
+      "loss": 1.0399,
       "step": 3600
     },
     {
+      "epoch": 1.0341855788566503,
+      "eval_bleu": 43.44094597011667,
+      "eval_chrf": 68.32209136987879,
+      "eval_loss": 1.0515447854995728,
+      "eval_runtime": 93.6321,
+      "eval_samples_per_second": 8.715,
+      "eval_steps_per_second": 1.089,
       "step": 3600
     },
     {
+      "epoch": 1.062912956047113,
+      "grad_norm": 4.6053595542907715,
+      "learning_rate": 1.6404050560183855e-05,
+      "loss": 1.0074,
       "step": 3700
     },
     {
+      "epoch": 1.0916403332375755,
+      "grad_norm": 3.8163719177246094,
+      "learning_rate": 1.5901321459350762e-05,
+      "loss": 0.977,
       "step": 3800
     },
     {
+      "epoch": 1.1203677104280378,
+      "grad_norm": 5.681026458740234,
+      "learning_rate": 1.5398592358517666e-05,
+      "loss": 1.0561,
       "step": 3900
     },
     {
+      "epoch": 1.1490950876185004,
+      "grad_norm": 3.1531848907470703,
+      "learning_rate": 1.4895863257684573e-05,
+      "loss": 1.0264,
       "step": 4000
     },
     {
+      "epoch": 1.1490950876185004,
+      "eval_bleu": 43.34741810707491,
+      "eval_chrf": 68.32312785885578,
+      "eval_loss": 1.0600742101669312,
+      "eval_runtime": 93.0806,
+      "eval_samples_per_second": 8.767,
+      "eval_steps_per_second": 1.096,
       "step": 4000
     },
     {
+      "epoch": 1.177822464808963,
+      "grad_norm": 4.803258419036865,
+      "learning_rate": 1.4393134156851478e-05,
+      "loss": 1.0506,
       "step": 4100
     },
     {
+      "epoch": 1.2065498419994254,
+      "grad_norm": 3.834118366241455,
+      "learning_rate": 1.3890405056018384e-05,
+      "loss": 1.0144,
       "step": 4200
     },
     {
+      "epoch": 1.235277219189888,
+      "grad_norm": 4.096823215484619,
+      "learning_rate": 1.3387675955185291e-05,
+      "loss": 1.0276,
       "step": 4300
     },
     {
+      "epoch": 1.2640045963803503,
+      "grad_norm": 4.902688980102539,
+      "learning_rate": 1.2884946854352196e-05,
+      "loss": 1.0298,
       "step": 4400
     },
     {
+      "epoch": 1.2640045963803503,
+      "eval_bleu": 43.13712526544163,
+      "eval_chrf": 68.36972995474055,
+      "eval_loss": 1.0530284643173218,
+      "eval_runtime": 92.6858,
+      "eval_samples_per_second": 8.804,
+      "eval_steps_per_second": 1.1,
       "step": 4400
+    },
+    {
+      "epoch": 1.292731973570813,
+      "grad_norm": 5.135220050811768,
+      "learning_rate": 1.2382217753519102e-05,
+      "loss": 1.0511,
+      "step": 4500
+    },
+    {
+      "epoch": 1.3214593507612755,
+      "grad_norm": 5.3379669189453125,
+      "learning_rate": 1.1879488652686009e-05,
+      "loss": 0.9576,
+      "step": 4600
+    },
+    {
+      "epoch": 1.3501867279517379,
+      "grad_norm": 3.882709264755249,
+      "learning_rate": 1.1376759551852914e-05,
+      "loss": 1.0353,
+      "step": 4700
+    },
+    {
+      "epoch": 1.3789141051422005,
+      "grad_norm": 5.007932662963867,
+      "learning_rate": 1.0874030451019821e-05,
+      "loss": 1.1185,
+      "step": 4800
+    },
+    {
+      "epoch": 1.3789141051422005,
+      "eval_bleu": 43.42350950007614,
+      "eval_chrf": 68.41671354789146,
+      "eval_loss": 1.0510783195495605,
+      "eval_runtime": 92.8632,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 1.098,
+      "step": 4800
+    },
+    {
+      "epoch": 1.407641482332663,
+      "grad_norm": 4.357149600982666,
+      "learning_rate": 1.0371301350186727e-05,
+      "loss": 1.0127,
+      "step": 4900
+    },
+    {
+      "epoch": 1.4363688595231254,
+      "grad_norm": 4.049122333526611,
+      "learning_rate": 9.868572249353634e-06,
+      "loss": 0.9992,
+      "step": 5000
+    },
+    {
+      "epoch": 1.465096236713588,
+      "grad_norm": 7.8539509773254395,
+      "learning_rate": 9.36584314852054e-06,
+      "loss": 0.9932,
+      "step": 5100
+    },
+    {
+      "epoch": 1.4938236139040506,
+      "grad_norm": 3.6276633739471436,
+      "learning_rate": 8.863114047687445e-06,
+      "loss": 1.0533,
+      "step": 5200
+    },
+    {
+      "epoch": 1.4938236139040506,
+      "eval_bleu": 43.312959923626096,
+      "eval_chrf": 68.37463399791737,
+      "eval_loss": 1.0536953210830688,
+      "eval_runtime": 92.7398,
+      "eval_samples_per_second": 8.799,
+      "eval_steps_per_second": 1.1,
+      "step": 5200
+    },
+    {
+      "epoch": 1.522550991094513,
+      "grad_norm": 5.274589538574219,
+      "learning_rate": 8.360384946854352e-06,
+      "loss": 1.0569,
+      "step": 5300
+    },
+    {
+      "epoch": 1.5512783682849756,
+      "grad_norm": 4.3048553466796875,
+      "learning_rate": 7.857655846021257e-06,
+      "loss": 0.9795,
+      "step": 5400
+    },
+    {
+      "epoch": 1.5800057454754382,
+      "grad_norm": 2.943560838699341,
+      "learning_rate": 7.354926745188164e-06,
+      "loss": 1.0684,
+      "step": 5500
+    },
+    {
+      "epoch": 1.6087331226659005,
+      "grad_norm": 4.310853481292725,
+      "learning_rate": 6.852197644355069e-06,
+      "loss": 1.0273,
+      "step": 5600
+    },
+    {
+      "epoch": 1.6087331226659005,
+      "eval_bleu": 43.54734511736152,
+      "eval_chrf": 68.38126240205835,
+      "eval_loss": 1.0513123273849487,
+      "eval_runtime": 93.5642,
+      "eval_samples_per_second": 8.721,
+      "eval_steps_per_second": 1.09,
+      "step": 5600
+    },
+    {
+      "epoch": 1.637460499856363,
+      "grad_norm": 5.702296733856201,
+      "learning_rate": 6.349468543521976e-06,
+      "loss": 1.0453,
+      "step": 5700
+    },
+    {
+      "epoch": 1.6661878770468257,
+      "grad_norm": 4.328929424285889,
+      "learning_rate": 5.846739442688882e-06,
+      "loss": 1.0025,
+      "step": 5800
+    },
+    {
+      "epoch": 1.694915254237288,
+      "grad_norm": 3.448596954345703,
+      "learning_rate": 5.344010341855789e-06,
+      "loss": 1.0255,
+      "step": 5900
+    },
+    {
+      "epoch": 1.7236426314277506,
+      "grad_norm": 5.398486614227295,
+      "learning_rate": 4.841281241022694e-06,
+      "loss": 1.0557,
+      "step": 6000
+    },
+    {
+      "epoch": 1.7236426314277506,
+      "eval_bleu": 43.809297513184895,
+      "eval_chrf": 68.57608398234109,
+      "eval_loss": 1.0441299676895142,
+      "eval_runtime": 93.6873,
+      "eval_samples_per_second": 8.71,
+      "eval_steps_per_second": 1.089,
+      "step": 6000
+    },
+    {
+      "epoch": 1.7523700086182132,
+      "grad_norm": 6.588860511779785,
+      "learning_rate": 4.338552140189601e-06,
+      "loss": 0.9614,
+      "step": 6100
+    },
+    {
+      "epoch": 1.7810973858086756,
+      "grad_norm": 3.7804524898529053,
+      "learning_rate": 3.835823039356507e-06,
+      "loss": 0.975,
+      "step": 6200
+    },
+    {
+      "epoch": 1.8098247629991382,
+      "grad_norm": 7.301486968994141,
+      "learning_rate": 3.3330939385234123e-06,
+      "loss": 0.9646,
+      "step": 6300
+    },
+    {
+      "epoch": 1.8385521401896008,
+      "grad_norm": 4.416522026062012,
+      "learning_rate": 2.8303648376903186e-06,
+      "loss": 1.084,
+      "step": 6400
+    },
+    {
+      "epoch": 1.8385521401896008,
+      "eval_bleu": 43.701603906200226,
+      "eval_chrf": 68.50928352812315,
+      "eval_loss": 1.0416936874389648,
+      "eval_runtime": 94.7088,
+      "eval_samples_per_second": 8.616,
+      "eval_steps_per_second": 1.077,
+      "step": 6400
+    },
+    {
+      "epoch": 1.8672795173800631,
+      "grad_norm": 4.443411827087402,
+      "learning_rate": 2.327635736857225e-06,
+      "loss": 1.0306,
+      "step": 6500
+    },
+    {
+      "epoch": 1.8960068945705257,
+      "grad_norm": 2.7506167888641357,
+      "learning_rate": 1.824906636024131e-06,
+      "loss": 0.9817,
+      "step": 6600
+    },
+    {
+      "epoch": 1.9247342717609883,
+      "grad_norm": 3.5802366733551025,
+      "learning_rate": 1.3221775351910368e-06,
+      "loss": 1.0187,
+      "step": 6700
+    },
+    {
+      "epoch": 1.9534616489514507,
+      "grad_norm": 3.9516446590423584,
+      "learning_rate": 8.194484343579431e-07,
+      "loss": 0.9603,
+      "step": 6800
+    },
+    {
+      "epoch": 1.9534616489514507,
+      "eval_bleu": 43.77821033710757,
+      "eval_chrf": 68.65385549549458,
+      "eval_loss": 1.0408196449279785,
+      "eval_runtime": 93.305,
+      "eval_samples_per_second": 8.746,
+      "eval_steps_per_second": 1.093,
+      "step": 6800
+    },
+    {
+      "epoch": 1.9821890261419133,
+      "grad_norm": 3.300943374633789,
+      "learning_rate": 1.7658359666762423e-05,
+      "loss": 0.9946,
+      "step": 6900
+    },
+    {
+      "epoch": 2.010916403332376,
+      "grad_norm": 4.883905410766602,
+      "learning_rate": 1.7406995116345875e-05,
+      "loss": 0.9878,
+      "step": 7000
+    },
+    {
+      "epoch": 2.0396437805228382,
+      "grad_norm": 8.941852569580078,
+      "learning_rate": 1.715563056592933e-05,
+      "loss": 1.0303,
+      "step": 7100
+    },
+    {
+      "epoch": 2.0683711577133006,
+      "grad_norm": 5.8202619552612305,
+      "learning_rate": 1.6904266015512782e-05,
+      "loss": 1.024,
+      "step": 7200
+    },
+    {
+      "epoch": 2.0683711577133006,
+      "eval_bleu": 44.776518325274054,
+      "eval_chrf": 69.47421963436383,
+      "eval_loss": 1.011445164680481,
+      "eval_runtime": 96.566,
+      "eval_samples_per_second": 8.45,
+      "eval_steps_per_second": 1.056,
+      "step": 7200
+    },
+    {
+      "epoch": 2.0970985349037634,
+      "grad_norm": 4.4640212059021,
+      "learning_rate": 1.6652901465096237e-05,
+      "loss": 0.9985,
+      "step": 7300
+    },
+    {
+      "epoch": 2.125825912094226,
+      "grad_norm": 5.426873207092285,
+      "learning_rate": 1.640153691467969e-05,
+      "loss": 1.0666,
+      "step": 7400
+    },
+    {
+      "epoch": 2.154553289284688,
+      "grad_norm": 4.508958339691162,
+      "learning_rate": 1.615017236426314e-05,
+      "loss": 1.0056,
+      "step": 7500
+    },
+    {
+      "epoch": 2.183280666475151,
+      "grad_norm": 4.3101115226745605,
+      "learning_rate": 1.5898807813846596e-05,
+      "loss": 0.9447,
+      "step": 7600
+    },
+    {
+      "epoch": 2.183280666475151,
+      "eval_bleu": 44.62186321013662,
+      "eval_chrf": 69.46358431357127,
+      "eval_loss": 1.0075112581253052,
+      "eval_runtime": 97.4195,
+      "eval_samples_per_second": 8.376,
+      "eval_steps_per_second": 1.047,
+      "step": 7600
+    },
+    {
+      "epoch": 2.2120080436656133,
+      "grad_norm": 6.016995906829834,
+      "learning_rate": 1.5647443263430048e-05,
+      "loss": 0.9619,
+      "step": 7700
+    },
+    {
+      "epoch": 2.2407354208560757,
+      "grad_norm": 4.525808811187744,
+      "learning_rate": 1.53960787130135e-05,
+      "loss": 0.9508,
+      "step": 7800
+    },
+    {
+      "epoch": 2.2694627980465385,
+      "grad_norm": 6.449229717254639,
+      "learning_rate": 1.5144714162596954e-05,
+      "loss": 1.0076,
+      "step": 7900
+    },
+    {
+      "epoch": 2.298190175237001,
+      "grad_norm": 5.163827419281006,
+      "learning_rate": 1.4893349612180407e-05,
+      "loss": 0.9704,
+      "step": 8000
+    },
+    {
+      "epoch": 2.298190175237001,
+      "eval_bleu": 44.871701979454734,
+      "eval_chrf": 69.5808210141665,
+      "eval_loss": 1.0056633949279785,
+      "eval_runtime": 99.6577,
+      "eval_samples_per_second": 8.188,
+      "eval_steps_per_second": 1.024,
+      "step": 8000
+    },
+    {
+      "epoch": 2.3269175524274632,
+      "grad_norm": 5.531907081604004,
+      "learning_rate": 1.4641985061763859e-05,
+      "loss": 1.0062,
+      "step": 8100
+    },
+    {
+      "epoch": 2.355644929617926,
+      "grad_norm": 3.4357688426971436,
+      "learning_rate": 1.4390620511347313e-05,
+      "loss": 0.9495,
+      "step": 8200
+    },
+    {
+      "epoch": 2.3843723068083884,
+      "grad_norm": 4.002674102783203,
+      "learning_rate": 1.4139255960930766e-05,
+      "loss": 1.0155,
+      "step": 8300
+    },
+    {
+      "epoch": 2.4130996839988508,
+      "grad_norm": 4.969707489013672,
+      "learning_rate": 1.3887891410514218e-05,
+      "loss": 0.9888,
+      "step": 8400
+    },
+    {
+      "epoch": 2.4130996839988508,
+      "eval_bleu": 44.87312977165901,
+      "eval_chrf": 69.59913415031703,
+      "eval_loss": 1.0011674165725708,
+      "eval_runtime": 96.8255,
+      "eval_samples_per_second": 8.428,
+      "eval_steps_per_second": 1.053,
+      "step": 8400
+    },
+    {
+      "epoch": 2.4418270611893136,
+      "grad_norm": 4.432431221008301,
+      "learning_rate": 1.3636526860097672e-05,
+      "loss": 0.9735,
+      "step": 8500
+    },
+    {
+      "epoch": 2.470554438379776,
+      "grad_norm": 3.4303410053253174,
+      "learning_rate": 1.3385162309681125e-05,
+      "loss": 1.0241,
+      "step": 8600
+    },
+    {
+      "epoch": 2.4992818155702383,
+      "grad_norm": 6.358030796051025,
+      "learning_rate": 1.3133797759264577e-05,
+      "loss": 0.9798,
+      "step": 8700
+    },
+    {
+      "epoch": 2.5280091927607007,
+      "grad_norm": 3.427170991897583,
+      "learning_rate": 1.288243320884803e-05,
+      "loss": 0.9448,
+      "step": 8800
+    },
+    {
+      "epoch": 2.5280091927607007,
+      "eval_bleu": 45.198620007189945,
+      "eval_chrf": 69.6731219507204,
+      "eval_loss": 1.0011487007141113,
+      "eval_runtime": 96.2525,
+      "eval_samples_per_second": 8.478,
+      "eval_steps_per_second": 1.06,
+      "step": 8800
+    },
+    {
+      "epoch": 2.5567365699511635,
+      "grad_norm": 4.5513715744018555,
+      "learning_rate": 1.2631068658431484e-05,
+      "loss": 1.0314,
+      "step": 8900
+    },
+    {
+      "epoch": 2.585463947141626,
+      "grad_norm": 4.186106204986572,
+      "learning_rate": 1.2379704108014938e-05,
+      "loss": 1.0178,
+      "step": 9000
+    },
+    {
+      "epoch": 2.6141913243320882,
+      "grad_norm": 6.664104461669922,
+      "learning_rate": 1.2128339557598391e-05,
+      "loss": 0.9677,
+      "step": 9100
+    },
+    {
+      "epoch": 2.642918701522551,
+      "grad_norm": 4.591300964355469,
+      "learning_rate": 1.1876975007181843e-05,
+      "loss": 0.9438,
+      "step": 9200
+    },
+    {
+      "epoch": 2.642918701522551,
+      "eval_bleu": 45.157866699798426,
+      "eval_chrf": 69.66915651414561,
+      "eval_loss": 1.0011706352233887,
+      "eval_runtime": 96.261,
+      "eval_samples_per_second": 8.477,
+      "eval_steps_per_second": 1.06,
+      "step": 9200
+    },
+    {
+      "epoch": 2.6716460787130134,
+      "grad_norm": 3.8000681400299072,
+      "learning_rate": 1.1625610456765297e-05,
+      "loss": 0.9528,
+      "step": 9300
+    },
+    {
+      "epoch": 2.7003734559034758,
+      "grad_norm": 4.306599140167236,
+      "learning_rate": 1.137424590634875e-05,
+      "loss": 0.9654,
+      "step": 9400
+    },
+    {
+      "epoch": 2.7291008330939386,
+      "grad_norm": 2.658061981201172,
+      "learning_rate": 1.1122881355932202e-05,
+      "loss": 0.9606,
+      "step": 9500
+    },
+    {
+      "epoch": 2.757828210284401,
+      "grad_norm": 3.8488523960113525,
+      "learning_rate": 1.0871516805515656e-05,
+      "loss": 0.9975,
+      "step": 9600
+    },
+    {
+      "epoch": 2.757828210284401,
+      "eval_bleu": 45.270832494636274,
+      "eval_chrf": 69.71396054828098,
+      "eval_loss": 0.9907030463218689,
+      "eval_runtime": 95.5189,
+      "eval_samples_per_second": 8.543,
+      "eval_steps_per_second": 1.068,
+      "step": 9600
+    },
+    {
+      "epoch": 2.7865555874748633,
+      "grad_norm": 6.573736190795898,
+      "learning_rate": 1.062015225509911e-05,
+      "loss": 0.9221,
+      "step": 9700
+    },
+    {
+      "epoch": 2.815282964665326,
+      "grad_norm": 5.980939865112305,
+      "learning_rate": 1.0368787704682561e-05,
+      "loss": 0.9592,
+      "step": 9800
+    },
+    {
+      "epoch": 2.8440103418557885,
+      "grad_norm": 7.583348274230957,
+      "learning_rate": 1.0117423154266015e-05,
+      "loss": 1.0261,
+      "step": 9900
+    },
+    {
+      "epoch": 2.872737719046251,
+      "grad_norm": 4.932117938995361,
+      "learning_rate": 9.866058603849468e-06,
+      "loss": 0.9585,
+      "step": 10000
+    },
+    {
+      "epoch": 2.872737719046251,
+      "eval_bleu": 45.452688800881376,
+      "eval_chrf": 69.95442745584451,
+      "eval_loss": 0.994485080242157,
+      "eval_runtime": 95.7902,
+      "eval_samples_per_second": 8.519,
+      "eval_steps_per_second": 1.065,
+      "step": 10000
+    },
+    {
+      "epoch": 2.9014650962367137,
+      "grad_norm": 4.127469062805176,
+      "learning_rate": 9.61469405343292e-06,
+      "loss": 0.9333,
+      "step": 10100
+    },
+    {
+      "epoch": 2.930192473427176,
+      "grad_norm": 4.6181559562683105,
+      "learning_rate": 9.363329503016374e-06,
+      "loss": 0.8895,
+      "step": 10200
+    },
+    {
+      "epoch": 2.9589198506176384,
+      "grad_norm": 3.028794050216675,
+      "learning_rate": 9.111964952599827e-06,
+      "loss": 0.9395,
+      "step": 10300
+    },
+    {
+      "epoch": 2.987647227808101,
+      "grad_norm": 5.18999719619751,
+      "learning_rate": 8.86060040218328e-06,
+      "loss": 0.9686,
+      "step": 10400
+    },
+    {
+      "epoch": 2.987647227808101,
+      "eval_bleu": 45.433727848087464,
+      "eval_chrf": 69.79153825463808,
+      "eval_loss": 0.993137001991272,
+      "eval_runtime": 96.9358,
+      "eval_samples_per_second": 8.418,
+      "eval_steps_per_second": 1.052,
+      "step": 10400
     }
   ],
   "logging_steps": 100,
+  "max_steps": 13924,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.8481299959250944e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c7095dd3f16a053228927e43b0533849042f7097c1f117a57fdb94e71d9c4e7
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:c569ee8bfa824e15f7ea34dff282d6cfba522dc5377663ba7e9fb590f959a53d
 size 5905

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad15d12fa229f1794a8dd10223f571b0c4044b188c2edb0e066b7a18688f6132
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ed261aaa3c3ec74fccf2ba187e24f5eb03a30d3d2c0e6edb64a19100c1aaa77
 size 990185320