Training in progress, step 1000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +9 -957
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a13a9b809252e5aae629463259efb1628c1144763b5f9f5693935d107037a0ad
 size 1583480280

 version https://git-lfs.github.com/spec/v1
+oid sha256:872dafd4f7a04e803d7c539219fc84f71fe6a69c1babbc798b79455dc4e1cc48
 size 1583480280

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7fd3a75f72ae3055bcc4fa868ea1839ec1bf4df33d6b0043a5d9c1f7d92b4ce
 size 3166958572

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9ad0354ec70f7cee4872b10ddc2b723a017a3711c3e9c5a25eba5b7823716aa
 size 3166958572

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78dbe42c7dcb5b34be1b27933cf3f4508f8633769c61bd10f6ed99a6b2a7aa0b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ef1ee026e99fb5f8e5a5e72bb4657b4cedd8651ee5b752f5c314d3a89fd9ad7
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc1875a9cdc0acada4ec00dae1b22790ec75c57a24a0a014b3248a1201d3a993
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:14ae2a2128444abab378aa06c09a61a84665f758fcc19fc46f5789b0bc1b5665
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f6e34b111723c929f0db228e345f9eda4ba2b88d0c04b9e6d5ca2744e89af18
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:68aec417c91400a5fbe9c98d7447dabd74ed3b0812272a5f21d640985e919bad
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13000,
-  "best_metric": 1.4730943441390991,
-  "best_model_checkpoint": "hieptt/vietnamese-correction-finetuning/checkpoint-13000",
-  "epoch": 0.349208907513364,
   "eval_steps": 1000,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -82,959 +82,11 @@
     {
       "epoch": 0.02686222365487415,
       "eval_loss": 1.550229787826538,
-      "eval_runtime": 3677.195,
       "eval_sacrebleu": 96.21455916515954,
-      "eval_samples_per_second": 71.991,
-      "eval_steps_per_second": 0.563,
-      "step": 1000
-    },
-    {
-      "epoch": 0.029548446020361566,
-      "grad_norm": 0.43504711985588074,
-      "learning_rate": 4.999949639906304e-05,
-      "loss": 1.5642,
-      "step": 1100
-    },
-    {
-      "epoch": 0.03223466838584898,
-      "grad_norm": 0.5235740542411804,
-      "learning_rate": 4.999796521812822e-05,
-      "loss": 1.5535,
-      "step": 1200
-    },
-    {
-      "epoch": 0.0349208907513364,
-      "grad_norm": 0.40589195489883423,
-      "learning_rate": 4.999540646875361e-05,
-      "loss": 1.5474,
-      "step": 1300
-    },
-    {
-      "epoch": 0.03760711311682381,
-      "grad_norm": 0.47619858384132385,
-      "learning_rate": 4.9991820256119385e-05,
-      "loss": 1.5467,
-      "step": 1400
-    },
-    {
-      "epoch": 0.040293335482311225,
-      "grad_norm": 0.5160552263259888,
-      "learning_rate": 4.9987206727640703e-05,
-      "loss": 1.5404,
-      "step": 1500
-    },
-    {
-      "epoch": 0.04297955784779864,
-      "grad_norm": 0.7639428973197937,
-      "learning_rate": 4.998156607296163e-05,
-      "loss": 1.5391,
-      "step": 1600
-    },
-    {
-      "epoch": 0.04566578021328606,
-      "grad_norm": Infinity,
-      "learning_rate": 4.997489852394741e-05,
-      "loss": 1.5411,
-      "step": 1700
-    },
-    {
-      "epoch": 0.04835200257877347,
-      "grad_norm": 11.356963157653809,
-      "learning_rate": 4.996720435467485e-05,
-      "loss": 3.6358,
-      "step": 1800
-    },
-    {
-      "epoch": 0.051038224944260885,
-      "grad_norm": 0.5683807730674744,
-      "learning_rate": 4.995848388142112e-05,
-      "loss": 5.6818,
-      "step": 1900
-    },
-    {
-      "epoch": 0.0537244473097483,
-      "grad_norm": 0.47999536991119385,
-      "learning_rate": 4.994873746265073e-05,
-      "loss": 1.8588,
-      "step": 2000
-    },
-    {
-      "epoch": 0.0537244473097483,
-      "eval_loss": 1.5401405096054077,
-      "eval_runtime": 3621.9751,
-      "eval_sacrebleu": 96.05509046827605,
-      "eval_samples_per_second": 73.089,
-      "eval_steps_per_second": 0.571,
-      "step": 2000
-    },
-    {
-      "epoch": 0.05641066967523572,
-      "grad_norm": 0.4521150290966034,
-      "learning_rate": 4.993796549900076e-05,
-      "loss": 1.5427,
-      "step": 2100
-    },
-    {
-      "epoch": 0.05909689204072313,
-      "grad_norm": 0.4296003580093384,
-      "learning_rate": 4.992616843326446e-05,
-      "loss": 1.5634,
-      "step": 2200
-    },
-    {
-      "epoch": 0.061783114406210544,
-      "grad_norm": 0.6067550182342529,
-      "learning_rate": 4.991334675037299e-05,
-      "loss": 1.534,
-      "step": 2300
-    },
-    {
-      "epoch": 0.06446933677169796,
-      "grad_norm": 0.5774173140525818,
-      "learning_rate": 4.989950097737552e-05,
-      "loss": 1.542,
-      "step": 2400
-    },
-    {
-      "epoch": 0.06715555913718538,
-      "grad_norm": 0.40837734937667847,
-      "learning_rate": 4.988463168341755e-05,
-      "loss": 1.5252,
-      "step": 2500
-    },
-    {
-      "epoch": 0.0698417815026728,
-      "grad_norm": 0.5584208965301514,
-      "learning_rate": 4.986873947971751e-05,
-      "loss": 1.5311,
-      "step": 2600
-    },
-    {
-      "epoch": 0.0725280038681602,
-      "grad_norm": 0.430813193321228,
-      "learning_rate": 4.9851825019541644e-05,
-      "loss": 1.5247,
-      "step": 2700
-    },
-    {
-      "epoch": 0.07521422623364762,
-      "grad_norm": 0.3637406826019287,
-      "learning_rate": 4.9833888998177165e-05,
-      "loss": 1.5221,
-      "step": 2800
-    },
-    {
-      "epoch": 0.07790044859913503,
-      "grad_norm": 0.530950129032135,
-      "learning_rate": 4.981493215290366e-05,
-      "loss": 1.5233,
-      "step": 2900
-    },
-    {
-      "epoch": 0.08058667096462245,
-      "grad_norm": 1.674155831336975,
-      "learning_rate": 4.979495526296279e-05,
-      "loss": 1.5204,
-      "step": 3000
-    },
-    {
-      "epoch": 0.08058667096462245,
-      "eval_loss": 1.5201951265335083,
-      "eval_runtime": 3188.7059,
-      "eval_sacrebleu": 96.36598044790144,
-      "eval_samples_per_second": 83.02,
-      "eval_steps_per_second": 0.649,
-      "step": 3000
-    },
-    {
-      "epoch": 0.08327289333010987,
-      "grad_norm": 0.39490917325019836,
-      "learning_rate": 4.977395914952627e-05,
-      "loss": 1.5193,
-      "step": 3100
-    },
-    {
-      "epoch": 0.08595911569559728,
-      "grad_norm": 0.37447476387023926,
-      "learning_rate": 4.975194467566206e-05,
-      "loss": 1.5185,
-      "step": 3200
-    },
-    {
-      "epoch": 0.0886453380610847,
-      "grad_norm": 0.4466964900493622,
-      "learning_rate": 4.9728912746298975e-05,
-      "loss": 1.5143,
-      "step": 3300
-    },
-    {
-      "epoch": 0.09133156042657212,
-      "grad_norm": 0.45723655819892883,
-      "learning_rate": 4.9704864308189415e-05,
-      "loss": 1.5119,
-      "step": 3400
-    },
-    {
-      "epoch": 0.09401778279205952,
-      "grad_norm": 0.3492431938648224,
-      "learning_rate": 4.967980034987048e-05,
-      "loss": 1.5118,
-      "step": 3500
-    },
-    {
-      "epoch": 0.09670400515754694,
-      "grad_norm": 0.6189600825309753,
-      "learning_rate": 4.965372190162333e-05,
-      "loss": 1.5079,
-      "step": 3600
-    },
-    {
-      "epoch": 0.09939022752303436,
-      "grad_norm": 0.4467921555042267,
-      "learning_rate": 4.962663003543083e-05,
-      "loss": 1.5091,
-      "step": 3700
-    },
-    {
-      "epoch": 0.10207644988852177,
-      "grad_norm": 0.4007367491722107,
-      "learning_rate": 4.959852586493349e-05,
-      "loss": 1.5111,
-      "step": 3800
-    },
-    {
-      "epoch": 0.10476267225400919,
-      "grad_norm": 0.4409460127353668,
-      "learning_rate": 4.9569410545383665e-05,
-      "loss": 1.5099,
-      "step": 3900
-    },
-    {
-      "epoch": 0.1074488946194966,
-      "grad_norm": 0.3737949728965759,
-      "learning_rate": 4.953928527359812e-05,
-      "loss": 1.5107,
-      "step": 4000
-    },
-    {
-      "epoch": 0.1074488946194966,
-      "eval_loss": 1.5068457126617432,
-      "eval_runtime": 3197.023,
-      "eval_sacrebleu": 96.60403832626737,
-      "eval_samples_per_second": 82.804,
-      "eval_steps_per_second": 0.647,
-      "step": 4000
-    },
-    {
-      "epoch": 0.11013511698498402,
-      "grad_norm": 0.3667586147785187,
-      "learning_rate": 4.95081512879088e-05,
-      "loss": 1.505,
-      "step": 4100
-    },
-    {
-      "epoch": 0.11282133935047144,
-      "grad_norm": 0.3441518545150757,
-      "learning_rate": 4.947600986811188e-05,
-      "loss": 1.5082,
-      "step": 4200
-    },
-    {
-      "epoch": 0.11550756171595884,
-      "grad_norm": 0.3704121708869934,
-      "learning_rate": 4.9442862335415266e-05,
-      "loss": 1.5026,
-      "step": 4300
-    },
-    {
-      "epoch": 0.11819378408144626,
-      "grad_norm": 0.3782528042793274,
-      "learning_rate": 4.940871005238418e-05,
-      "loss": 1.5041,
-      "step": 4400
-    },
-    {
-      "epoch": 0.12088000644693368,
-      "grad_norm": 0.3923707902431488,
-      "learning_rate": 4.937355442288523e-05,
-      "loss": 1.5008,
-      "step": 4500
-    },
-    {
-      "epoch": 0.12356622881242109,
-      "grad_norm": 0.38463589549064636,
-      "learning_rate": 4.933739689202862e-05,
-      "loss": 1.5035,
-      "step": 4600
-    },
-    {
-      "epoch": 0.1262524511779085,
-      "grad_norm": 0.44041115045547485,
-      "learning_rate": 4.9300238946108856e-05,
-      "loss": 1.5005,
-      "step": 4700
-    },
-    {
-      "epoch": 0.12893867354339592,
-      "grad_norm": 0.41506507992744446,
-      "learning_rate": 4.926208211254354e-05,
-      "loss": 1.5014,
-      "step": 4800
-    },
-    {
-      "epoch": 0.13162489590888335,
-      "grad_norm": 3.7683701515197754,
-      "learning_rate": 4.922292795981065e-05,
-      "loss": 3.7267,
-      "step": 4900
-    },
-    {
-      "epoch": 0.13431111827437076,
-      "grad_norm": 3.7164273262023926,
-      "learning_rate": 4.9182778097384055e-05,
-      "loss": 5.7642,
-      "step": 5000
-    },
-    {
-      "epoch": 0.13431111827437076,
-      "eval_loss": 4.501608371734619,
-      "eval_runtime": 2795.6042,
-      "eval_sacrebleu": 17.695398660139727,
-      "eval_samples_per_second": 94.694,
-      "eval_steps_per_second": 0.74,
-      "step": 5000
-    },
-    {
-      "epoch": 0.13699734063985816,
-      "grad_norm": 7.479543209075928,
-      "learning_rate": 4.914163417566734e-05,
-      "loss": 2.1475,
-      "step": 5100
-    },
-    {
-      "epoch": 0.1396835630053456,
-      "grad_norm": 0.3754720091819763,
-      "learning_rate": 4.909949788592598e-05,
-      "loss": 2.107,
-      "step": 5200
-    },
-    {
-      "epoch": 0.142369785370833,
-      "grad_norm": 0.42401301860809326,
-      "learning_rate": 4.9056370960217804e-05,
-      "loss": 1.5074,
-      "step": 5300
-    },
-    {
-      "epoch": 0.1450560077363204,
-      "grad_norm": 0.261708527803421,
-      "learning_rate": 4.9012255171321814e-05,
-      "loss": 1.5061,
-      "step": 5400
-    },
-    {
-      "epoch": 0.14774223010180781,
-      "grad_norm": 0.35923367738723755,
-      "learning_rate": 4.89671523326653e-05,
-      "loss": 1.5086,
-      "step": 5500
-    },
-    {
-      "epoch": 0.15042845246729525,
-      "grad_norm": 0.3558649718761444,
-      "learning_rate": 4.892106429824931e-05,
-      "loss": 1.5026,
-      "step": 5600
-    },
-    {
-      "epoch": 0.15311467483278265,
-      "grad_norm": 0.3130311369895935,
-      "learning_rate": 4.8873992962572413e-05,
-      "loss": 1.5008,
-      "step": 5700
-    },
-    {
-      "epoch": 0.15580089719827006,
-      "grad_norm": 0.40723615884780884,
-      "learning_rate": 4.882594026055286e-05,
-      "loss": 1.497,
-      "step": 5800
-    },
-    {
-      "epoch": 0.1584871195637575,
-      "grad_norm": 0.3690826892852783,
-      "learning_rate": 4.877690816744903e-05,
-      "loss": 1.493,
-      "step": 5900
-    },
-    {
-      "epoch": 0.1611733419292449,
-      "grad_norm": 0.4789445400238037,
-      "learning_rate": 4.87268986987782e-05,
-      "loss": 1.4936,
-      "step": 6000
-    },
-    {
-      "epoch": 0.1611733419292449,
-      "eval_loss": 1.4912784099578857,
-      "eval_runtime": 3279.389,
-      "eval_sacrebleu": 96.84419951407857,
-      "eval_samples_per_second": 80.724,
-      "eval_steps_per_second": 0.631,
-      "step": 6000
-    },
-    {
-      "epoch": 0.1638595642947323,
-      "grad_norm": 0.7140536308288574,
-      "learning_rate": 4.8675913910233784e-05,
-      "loss": 1.4966,
-      "step": 6100
-    },
-    {
-      "epoch": 0.16654578666021974,
-      "grad_norm": 0.348763108253479,
-      "learning_rate": 4.8623955897600724e-05,
-      "loss": 1.4944,
-      "step": 6200
-    },
-    {
-      "epoch": 0.16923200902570715,
-      "grad_norm": 0.33172258734703064,
-      "learning_rate": 4.8571026796669416e-05,
-      "loss": 1.4922,
-      "step": 6300
-    },
-    {
-      "epoch": 0.17191823139119455,
-      "grad_norm": 0.42076775431632996,
-      "learning_rate": 4.85171287831479e-05,
-      "loss": 1.4935,
-      "step": 6400
-    },
-    {
-      "epoch": 0.174604453756682,
-      "grad_norm": 0.4683443009853363,
-      "learning_rate": 4.846226407257241e-05,
-      "loss": 1.4956,
-      "step": 6500
-    },
-    {
-      "epoch": 0.1772906761221694,
-      "grad_norm": 0.45604732632637024,
-      "learning_rate": 4.840643492021628e-05,
-      "loss": 1.4916,
-      "step": 6600
-    },
-    {
-      "epoch": 0.1799768984876568,
-      "grad_norm": 0.4385334849357605,
-      "learning_rate": 4.834964362099733e-05,
-      "loss": 1.489,
-      "step": 6700
-    },
-    {
-      "epoch": 0.18266312085314423,
-      "grad_norm": 0.48662105202674866,
-      "learning_rate": 4.829189250938341e-05,
-      "loss": 1.4893,
-      "step": 6800
-    },
-    {
-      "epoch": 0.18534934321863164,
-      "grad_norm": 0.4047809839248657,
-      "learning_rate": 4.8233183959296544e-05,
-      "loss": 1.489,
-      "step": 6900
-    },
-    {
-      "epoch": 0.18803556558411905,
-      "grad_norm": 0.31221145391464233,
-      "learning_rate": 4.817352038401526e-05,
-      "loss": 1.4888,
-      "step": 7000
-    },
-    {
-      "epoch": 0.18803556558411905,
-      "eval_loss": 1.48853600025177,
-      "eval_runtime": 3164.6016,
-      "eval_sacrebleu": 96.86234024863172,
-      "eval_samples_per_second": 83.652,
-      "eval_steps_per_second": 0.654,
-      "step": 7000
-    },
-    {
-      "epoch": 0.19072178794960648,
-      "grad_norm": 0.33513781428337097,
-      "learning_rate": 4.8112904236075464e-05,
-      "loss": 1.4882,
-      "step": 7100
-    },
-    {
-      "epoch": 0.1934080103150939,
-      "grad_norm": 0.3263476490974426,
-      "learning_rate": 4.8051338007169574e-05,
-      "loss": 1.4931,
-      "step": 7200
-    },
-    {
-      "epoch": 0.1960942326805813,
-      "grad_norm": 0.40779784321784973,
-      "learning_rate": 4.798882422804413e-05,
-      "loss": 1.4894,
-      "step": 7300
-    },
-    {
-      "epoch": 0.19878045504606873,
-      "grad_norm": 0.3289216458797455,
-      "learning_rate": 4.792536546839573e-05,
-      "loss": 1.4872,
-      "step": 7400
-    },
-    {
-      "epoch": 0.20146667741155613,
-      "grad_norm": 0.3560020625591278,
-      "learning_rate": 4.786096433676545e-05,
-      "loss": 1.4879,
-      "step": 7500
-    },
-    {
-      "epoch": 0.20415289977704354,
-      "grad_norm": 0.34368178248405457,
-      "learning_rate": 4.779562348043155e-05,
-      "loss": 1.4888,
-      "step": 7600
-    },
-    {
-      "epoch": 0.20683912214253095,
-      "grad_norm": 0.7768594622612,
-      "learning_rate": 4.7729345585300716e-05,
-      "loss": 1.4891,
-      "step": 7700
-    },
-    {
-      "epoch": 0.20952534450801838,
-      "grad_norm": 0.32350119948387146,
-      "learning_rate": 4.7662133375797635e-05,
-      "loss": 1.4846,
-      "step": 7800
-    },
-    {
-      "epoch": 0.21221156687350579,
-      "grad_norm": 0.3208902180194855,
-      "learning_rate": 4.7593989614752974e-05,
-      "loss": 1.4889,
-      "step": 7900
-    },
-    {
-      "epoch": 0.2148977892389932,
-      "grad_norm": 0.2309061586856842,
-      "learning_rate": 4.7524917103289863e-05,
-      "loss": 1.4831,
-      "step": 8000
-    },
-    {
-      "epoch": 0.2148977892389932,
-      "eval_loss": 1.4867380857467651,
-      "eval_runtime": 3183.5875,
-      "eval_sacrebleu": 96.88666750889345,
-      "eval_samples_per_second": 83.153,
       "eval_steps_per_second": 0.65,
-      "step": 8000
-    },
-    {
-      "epoch": 0.21758401160448063,
-      "grad_norm": 0.33346688747406006,
-      "learning_rate": 4.74549186807087e-05,
-      "loss": 1.4812,
-      "step": 8100
-    },
-    {
-      "epoch": 0.22027023396996803,
-      "grad_norm": 0.5275943279266357,
-      "learning_rate": 4.738399722437047e-05,
-      "loss": 1.4874,
-      "step": 8200
-    },
-    {
-      "epoch": 0.22295645633545544,
-      "grad_norm": 0.4352237284183502,
-      "learning_rate": 4.731215564957847e-05,
-      "loss": 1.4912,
-      "step": 8300
-    },
-    {
-      "epoch": 0.22564267870094287,
-      "grad_norm": 0.3379707336425781,
-      "learning_rate": 4.723939690945846e-05,
-      "loss": 1.4852,
-      "step": 8400
-    },
-    {
-      "epoch": 0.22832890106643028,
-      "grad_norm": 0.40677231550216675,
-      "learning_rate": 4.7165723994837246e-05,
-      "loss": 1.4857,
-      "step": 8500
-    },
-    {
-      "epoch": 0.23101512343191768,
-      "grad_norm": 0.4737798273563385,
-      "learning_rate": 4.709113993411981e-05,
-      "loss": 1.4863,
-      "step": 8600
-    },
-    {
-      "epoch": 0.23370134579740512,
-      "grad_norm": 0.33614835143089294,
-      "learning_rate": 4.701564779316476e-05,
-      "loss": 1.485,
-      "step": 8700
-    },
-    {
-      "epoch": 0.23638756816289253,
-      "grad_norm": 0.4807875454425812,
-      "learning_rate": 4.693925067515834e-05,
-      "loss": 1.4875,
-      "step": 8800
-    },
-    {
-      "epoch": 0.23907379052837993,
-      "grad_norm": 0.3510216772556305,
-      "learning_rate": 4.686195172048682e-05,
-      "loss": 1.4839,
-      "step": 8900
-    },
-    {
-      "epoch": 0.24176001289386737,
-      "grad_norm": 0.24355977773666382,
-      "learning_rate": 4.678375410660748e-05,
-      "loss": 1.483,
-      "step": 9000
-    },
-    {
-      "epoch": 0.24176001289386737,
-      "eval_loss": 1.4836901426315308,
-      "eval_runtime": 3169.9641,
-      "eval_sacrebleu": 96.9796698855444,
-      "eval_samples_per_second": 83.511,
-      "eval_steps_per_second": 0.653,
-      "step": 9000
-    },
-    {
-      "epoch": 0.24444623525935477,
-      "grad_norm": 0.26222726702690125,
-      "learning_rate": 4.6704661047917955e-05,
-      "loss": 1.4855,
-      "step": 9100
-    },
-    {
-      "epoch": 0.24713245762484218,
-      "grad_norm": 0.3217809796333313,
-      "learning_rate": 4.6624675795624084e-05,
-      "loss": 1.4823,
-      "step": 9200
-    },
-    {
-      "epoch": 0.2498186799903296,
-      "grad_norm": 0.31736332178115845,
-      "learning_rate": 4.6543801637606324e-05,
-      "loss": 1.4791,
-      "step": 9300
-    },
-    {
-      "epoch": 0.252504902355817,
-      "grad_norm": 0.42374491691589355,
-      "learning_rate": 4.646204189828453e-05,
-      "loss": 1.4793,
-      "step": 9400
-    },
-    {
-      "epoch": 0.25519112472130445,
-      "grad_norm": 0.3236493468284607,
-      "learning_rate": 4.637939993848137e-05,
-      "loss": 1.4815,
-      "step": 9500
-    },
-    {
-      "epoch": 0.25787734708679183,
-      "grad_norm": 0.3557586371898651,
-      "learning_rate": 4.6295879155284125e-05,
-      "loss": 1.4822,
-      "step": 9600
-    },
-    {
-      "epoch": 0.26056356945227926,
-      "grad_norm": 0.2667744755744934,
-      "learning_rate": 4.621148298190506e-05,
-      "loss": 1.4804,
-      "step": 9700
-    },
-    {
-      "epoch": 0.2632497918177667,
-      "grad_norm": 0.2917531132698059,
-      "learning_rate": 4.61262148875403e-05,
-      "loss": 1.4782,
-      "step": 9800
-    },
-    {
-      "epoch": 0.2659360141832541,
-      "grad_norm": 0.32322603464126587,
-      "learning_rate": 4.604007837722725e-05,
-      "loss": 1.4815,
-      "step": 9900
-    },
-    {
-      "epoch": 0.2686222365487415,
-      "grad_norm": 0.3380342125892639,
-      "learning_rate": 4.595307699170045e-05,
-      "loss": 1.4816,
-      "step": 10000
-    },
-    {
-      "epoch": 0.2686222365487415,
-      "eval_loss": 1.4826488494873047,
-      "eval_runtime": 3178.5973,
-      "eval_sacrebleu": 97.05288129988465,
-      "eval_samples_per_second": 83.284,
-      "eval_steps_per_second": 0.651,
-      "step": 10000
-    },
-    {
-      "epoch": 0.27130845891422894,
-      "grad_norm": 0.34705039858818054,
-      "learning_rate": 4.586521430724612e-05,
-      "loss": 1.4829,
-      "step": 10100
-    },
-    {
-      "epoch": 0.2739946812797163,
-      "grad_norm": 0.3544181287288666,
-      "learning_rate": 4.5776493935555065e-05,
-      "loss": 1.481,
-      "step": 10200
-    },
-    {
-      "epoch": 0.27668090364520376,
-      "grad_norm": 0.3179134726524353,
-      "learning_rate": 4.568691952357428e-05,
-      "loss": 1.4783,
-      "step": 10300
-    },
-    {
-      "epoch": 0.2793671260106912,
-      "grad_norm": 0.32810860872268677,
-      "learning_rate": 4.5596494753357005e-05,
-      "loss": 1.4777,
-      "step": 10400
-    },
-    {
-      "epoch": 0.28205334837617857,
-      "grad_norm": 0.36927270889282227,
-      "learning_rate": 4.550522334191138e-05,
-      "loss": 1.4776,
-      "step": 10500
-    },
-    {
-      "epoch": 0.284739570741666,
-      "grad_norm": 0.2897135615348816,
-      "learning_rate": 4.541310904104762e-05,
-      "loss": 1.4768,
-      "step": 10600
-    },
-    {
-      "epoch": 0.28742579310715344,
-      "grad_norm": 0.31894442439079285,
-      "learning_rate": 4.532015563722387e-05,
-      "loss": 1.4753,
-      "step": 10700
-    },
-    {
-      "epoch": 0.2901120154726408,
-      "grad_norm": 0.3248063921928406,
-      "learning_rate": 4.522636695139049e-05,
-      "loss": 1.4755,
-      "step": 10800
-    },
-    {
-      "epoch": 0.29279823783812825,
-      "grad_norm": 0.28601497411727905,
-      "learning_rate": 4.513174683883299e-05,
-      "loss": 1.4789,
-      "step": 10900
-    },
-    {
-      "epoch": 0.29548446020361563,
-      "grad_norm": 0.263621985912323,
-      "learning_rate": 4.50362991890136e-05,
-      "loss": 1.4772,
-      "step": 11000
-    },
-    {
-      "epoch": 0.29548446020361563,
-      "eval_loss": 1.483279824256897,
-      "eval_runtime": 3185.3454,
-      "eval_sacrebleu": 97.12672190258174,
-      "eval_samples_per_second": 83.107,
-      "eval_steps_per_second": 0.65,
-      "step": 11000
-    },
-    {
-      "epoch": 0.29817068256910306,
-      "grad_norm": 0.32398489117622375,
-      "learning_rate": 4.494002792541137e-05,
-      "loss": 1.475,
-      "step": 11100
-    },
-    {
-      "epoch": 0.3008569049345905,
-      "grad_norm": 0.28194740414619446,
-      "learning_rate": 4.484293700536088e-05,
-      "loss": 1.478,
-      "step": 11200
-    },
-    {
-      "epoch": 0.3035431273000779,
-      "grad_norm": 0.25159361958503723,
-      "learning_rate": 4.4745030419889555e-05,
-      "loss": 1.4733,
-      "step": 11300
-    },
-    {
-      "epoch": 0.3062293496655653,
-      "grad_norm": 0.33246248960494995,
-      "learning_rate": 4.4646312193553675e-05,
-      "loss": 1.4786,
-      "step": 11400
-    },
-    {
-      "epoch": 0.30891557203105274,
-      "grad_norm": 0.2811319828033447,
-      "learning_rate": 4.4546786384272855e-05,
-      "loss": 1.4739,
-      "step": 11500
-    },
-    {
-      "epoch": 0.3116017943965401,
-      "grad_norm": 0.3391018807888031,
-      "learning_rate": 4.44464570831633e-05,
-      "loss": 1.4758,
-      "step": 11600
-    },
-    {
-      "epoch": 0.31428801676202756,
-      "grad_norm": 0.3480006158351898,
-      "learning_rate": 4.434532841436962e-05,
-      "loss": 1.4739,
-      "step": 11700
-    },
-    {
-      "epoch": 0.316974239127515,
-      "grad_norm": 0.32334116101264954,
-      "learning_rate": 4.42434045348953e-05,
-      "loss": 1.4757,
-      "step": 11800
-    },
-    {
-      "epoch": 0.31966046149300237,
-      "grad_norm": 0.35196009278297424,
-      "learning_rate": 4.41406896344318e-05,
-      "loss": 1.4759,
-      "step": 11900
-    },
-    {
-      "epoch": 0.3223466838584898,
-      "grad_norm": 0.31370338797569275,
-      "learning_rate": 4.4037187935186394e-05,
-      "loss": 1.4735,
-      "step": 12000
-    },
-    {
-      "epoch": 0.3223466838584898,
-      "eval_loss": 1.4803506135940552,
-      "eval_runtime": 3210.9887,
-      "eval_sacrebleu": 97.12202597988144,
-      "eval_samples_per_second": 82.444,
-      "eval_steps_per_second": 0.644,
-      "step": 12000
-    },
-    {
-      "epoch": 0.32503290622397724,
-      "grad_norm": 0.36732399463653564,
-      "learning_rate": 4.3932903691708534e-05,
-      "loss": 1.4759,
-      "step": 12100
-    },
-    {
-      "epoch": 0.3277191285894646,
-      "grad_norm": 0.23831887543201447,
-      "learning_rate": 4.382784119071502e-05,
-      "loss": 1.4719,
-      "step": 12200
-    },
-    {
-      "epoch": 0.33040535095495205,
-      "grad_norm": 0.3706836700439453,
-      "learning_rate": 4.372200475091376e-05,
-      "loss": 1.4739,
-      "step": 12300
-    },
-    {
-      "epoch": 0.3330915733204395,
-      "grad_norm": 0.3490886688232422,
-      "learning_rate": 4.3615398722826276e-05,
-      "loss": 1.474,
-      "step": 12400
-    },
-    {
-      "epoch": 0.33577779568592686,
-      "grad_norm": 1.0285382270812988,
-      "learning_rate": 4.350802748860882e-05,
-      "loss": 1.4734,
-      "step": 12500
-    },
-    {
-      "epoch": 0.3384640180514143,
-      "grad_norm": 0.26471439003944397,
-      "learning_rate": 4.339989546187229e-05,
-      "loss": 1.4745,
-      "step": 12600
-    },
-    {
-      "epoch": 0.34115024041690173,
-      "grad_norm": 0.30338284373283386,
-      "learning_rate": 4.329100708750079e-05,
-      "loss": 1.4727,
-      "step": 12700
-    },
-    {
-      "epoch": 0.3438364627823891,
-      "grad_norm": 0.290783166885376,
-      "learning_rate": 4.3181366841468896e-05,
-      "loss": 1.4722,
-      "step": 12800
-    },
-    {
-      "epoch": 0.34652268514787654,
-      "grad_norm": 0.2663359045982361,
-      "learning_rate": 4.3070979230657694e-05,
-      "loss": 1.4729,
-      "step": 12900
-    },
-    {
-      "epoch": 0.349208907513364,
-      "grad_norm": 1.0900615453720093,
-      "learning_rate": 4.29598487926695e-05,
-      "loss": 1.4707,
-      "step": 13000
-    },
-    {
-      "epoch": 0.349208907513364,
-      "eval_loss": 1.4730943441390991,
-      "eval_runtime": 3189.0879,
-      "eval_sacrebleu": 97.19666890806242,
-      "eval_samples_per_second": 83.01,
-      "eval_steps_per_second": 0.649,
-      "step": 13000
     }
   ],
   "logging_steps": 100,
@@ -1063,7 +115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1543220310074982e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1000,
+  "best_metric": 1.550229787826538,
+  "best_model_checkpoint": "hieptt/vietnamese-correction-finetuning/checkpoint-1000",
+  "epoch": 0.02686222365487415,
   "eval_steps": 1000,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.02686222365487415,
       "eval_loss": 1.550229787826538,
+      "eval_runtime": 3183.759,
       "eval_sacrebleu": 96.21455916515954,
+      "eval_samples_per_second": 83.149,
       "eval_steps_per_second": 0.65,
+      "step": 1000
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.6604548281925632e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce0cdcde6ce6ad61a433903430eaa7d57da2bdffd8fa9982262860bcf6d0b1b1
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:522844a580fb08e9801add7b55973eec21ec1422f4a0aab9509ee801930f6aa1
 size 6033