Upload 6 files

Browse files

Files changed (4) hide show

config.json +1 -0
model.safetensors +1 -1
trainer_state.json +410 -193
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "architectures": [
     "VisionEncoderDecoderModel"
   ],

 {
+  "_name_or_path": "kms7530/ko-coco",
   "architectures": [
     "VisionEncoderDecoderModel"
   ],

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:286b0f04d00d206225bc71b352f2fc1ee9bcfe04d6e73cec11cafc461173bf8c
 size 901697272

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ae809b41c667fa9b9b0fcce2d610db8925c62d14621efb6401bc596ffaeace8
 size 901697272

trainer_state.json CHANGED Viewed

@@ -1,306 +1,523 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "eval_steps": 500,
-  "global_step": 3077,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.032499187520311994,
-      "grad_norm": 0.38231489062309265,
-      "learning_rate": 4.8375040623984405e-05,
-      "loss": 0.1722,
       "step": 100
     },
     {
-      "epoch": 0.06499837504062399,
-      "grad_norm": 0.29991772770881653,
-      "learning_rate": 4.67500812479688e-05,
-      "loss": 0.1983,
       "step": 200
     },
     {
-      "epoch": 0.09749756256093597,
-      "grad_norm": 0.3033580780029297,
-      "learning_rate": 4.51251218719532e-05,
-      "loss": 0.2034,
       "step": 300
     },
     {
-      "epoch": 0.12999675008124797,
-      "grad_norm": 0.31061500310897827,
-      "learning_rate": 4.3500162495937604e-05,
-      "loss": 0.2022,
       "step": 400
     },
     {
-      "epoch": 0.16249593760155995,
-      "grad_norm": 0.27624836564064026,
-      "learning_rate": 4.1875203119922e-05,
-      "loss": 0.1975,
-      "step": 500
-    },
-    {
-      "epoch": 0.16249593760155995,
-      "eval_gen_len": 19.964290067032298,
-      "eval_loss": 0.18788783252239227,
-      "eval_rouge1": 0.0068,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.0068,
-      "eval_rougeLsum": 0.0068,
-      "eval_runtime": 2174.226,
-      "eval_samples_per_second": 11.321,
-      "eval_steps_per_second": 0.354,
       "step": 500
     },
     {
-      "epoch": 0.19499512512187195,
-      "grad_norm": 0.2493065893650055,
-      "learning_rate": 4.02502437439064e-05,
-      "loss": 0.1943,
       "step": 600
     },
     {
-      "epoch": 0.22749431264218395,
-      "grad_norm": 0.2768040597438812,
-      "learning_rate": 3.8625284367890804e-05,
-      "loss": 0.1919,
       "step": 700
     },
     {
-      "epoch": 0.25999350016249595,
-      "grad_norm": 0.2641097605228424,
-      "learning_rate": 3.7000324991875206e-05,
-      "loss": 0.1883,
       "step": 800
     },
     {
-      "epoch": 0.29249268768280795,
-      "grad_norm": 0.266985148191452,
-      "learning_rate": 3.537536561585961e-05,
-      "loss": 0.1866,
       "step": 900
     },
     {
-      "epoch": 0.3249918752031199,
-      "grad_norm": 0.2505531311035156,
-      "learning_rate": 3.3750406239844004e-05,
-      "loss": 0.186,
       "step": 1000
     },
     {
-      "epoch": 0.3249918752031199,
-      "eval_gen_len": 19.9981718464351,
-      "eval_loss": 0.1798761785030365,
-      "eval_rouge1": 0.0108,
-      "eval_rouge2": 0.0041,
-      "eval_rougeL": 0.0108,
-      "eval_rougeLsum": 0.0108,
-      "eval_runtime": 2176.3057,
-      "eval_samples_per_second": 11.31,
-      "eval_steps_per_second": 0.354,
       "step": 1000
     },
     {
-      "epoch": 0.3574910627234319,
-      "grad_norm": 0.2498556226491928,
-      "learning_rate": 3.2125446863828406e-05,
-      "loss": 0.1839,
       "step": 1100
     },
     {
-      "epoch": 0.3899902502437439,
-      "grad_norm": 0.2563565969467163,
-      "learning_rate": 3.0500487487812808e-05,
-      "loss": 0.1835,
       "step": 1200
     },
     {
-      "epoch": 0.4224894377640559,
-      "grad_norm": 0.25993165373802185,
-      "learning_rate": 2.8875528111797207e-05,
-      "loss": 0.1837,
       "step": 1300
     },
     {
-      "epoch": 0.4549886252843679,
-      "grad_norm": 0.2639683485031128,
-      "learning_rate": 2.7250568735781606e-05,
-      "loss": 0.1814,
       "step": 1400
     },
     {
-      "epoch": 0.4874878128046799,
-      "grad_norm": 0.25668901205062866,
-      "learning_rate": 2.5625609359766008e-05,
-      "loss": 0.1762,
       "step": 1500
     },
     {
-      "epoch": 0.4874878128046799,
-      "eval_gen_len": 19.983384115376804,
-      "eval_loss": 0.17473776638507843,
-      "eval_rouge1": 0.1836,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.1828,
-      "eval_rougeLsum": 0.1851,
-      "eval_runtime": 2167.8807,
-      "eval_samples_per_second": 11.354,
-      "eval_steps_per_second": 0.355,
-      "step": 1500
-    },
-    {
-      "epoch": 0.5199870003249919,
-      "grad_norm": 0.2645615041255951,
-      "learning_rate": 2.4000649983750407e-05,
-      "loss": 0.1794,
       "step": 1600
     },
     {
-      "epoch": 0.5524861878453039,
-      "grad_norm": 0.24295924603939056,
-      "learning_rate": 2.237569060773481e-05,
-      "loss": 0.1769,
       "step": 1700
     },
     {
-      "epoch": 0.5849853753656159,
-      "grad_norm": 0.25981849431991577,
-      "learning_rate": 2.0750731231719208e-05,
-      "loss": 0.1785,
       "step": 1800
     },
     {
-      "epoch": 0.6174845628859279,
-      "grad_norm": 0.24553097784519196,
-      "learning_rate": 1.912577185570361e-05,
-      "loss": 0.173,
       "step": 1900
     },
     {
-      "epoch": 0.6499837504062398,
-      "grad_norm": 0.24243266880512238,
-      "learning_rate": 1.750081247968801e-05,
-      "loss": 0.1764,
       "step": 2000
     },
     {
-      "epoch": 0.6499837504062398,
-      "eval_gen_len": 19.99471866747918,
-      "eval_loss": 0.17154192924499512,
-      "eval_rouge1": 0.1151,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.1151,
-      "eval_rougeLsum": 0.1165,
-      "eval_runtime": 2157.4938,
-      "eval_samples_per_second": 11.409,
-      "eval_steps_per_second": 0.357,
       "step": 2000
     },
     {
-      "epoch": 0.6824829379265518,
-      "grad_norm": 0.26906952261924744,
-      "learning_rate": 1.5875853103672408e-05,
-      "loss": 0.1789,
       "step": 2100
     },
     {
-      "epoch": 0.7149821254468638,
-      "grad_norm": 0.2654452919960022,
-      "learning_rate": 1.4250893727656808e-05,
-      "loss": 0.1727,
       "step": 2200
     },
     {
-      "epoch": 0.7474813129671758,
-      "grad_norm": 0.24443137645721436,
-      "learning_rate": 1.2625934351641208e-05,
-      "loss": 0.1767,
       "step": 2300
     },
     {
-      "epoch": 0.7799805004874878,
-      "grad_norm": 0.24741144478321075,
-      "learning_rate": 1.1000974975625609e-05,
-      "loss": 0.1745,
       "step": 2400
     },
     {
-      "epoch": 0.8124796880077998,
-      "grad_norm": 0.2507327198982239,
-      "learning_rate": 9.376015599610011e-06,
-      "loss": 0.1756,
       "step": 2500
     },
     {
-      "epoch": 0.8124796880077998,
-      "eval_gen_len": 19.99869997968718,
-      "eval_loss": 0.1691381335258484,
-      "eval_rouge1": 0.0027,
-      "eval_rouge2": 0.0,
-      "eval_rougeL": 0.0027,
-      "eval_rougeLsum": 0.0027,
-      "eval_runtime": 2163.6252,
-      "eval_samples_per_second": 11.377,
-      "eval_steps_per_second": 0.356,
-      "step": 2500
-    },
-    {
-      "epoch": 0.8449788755281118,
-      "grad_norm": 0.23773913085460663,
-      "learning_rate": 7.75105622359441e-06,
-      "loss": 0.1733,
       "step": 2600
     },
     {
-      "epoch": 0.8774780630484238,
-      "grad_norm": 0.24695108830928802,
-      "learning_rate": 6.1260968475788104e-06,
-      "loss": 0.1744,
       "step": 2700
     },
     {
-      "epoch": 0.9099772505687358,
-      "grad_norm": 0.23871463537216187,
-      "learning_rate": 4.501137471563211e-06,
-      "loss": 0.1741,
       "step": 2800
     },
     {
-      "epoch": 0.9424764380890478,
-      "grad_norm": 0.24402374029159546,
-      "learning_rate": 2.8761780955476114e-06,
-      "loss": 0.1703,
       "step": 2900
     },
     {
-      "epoch": 0.9749756256093598,
-      "grad_norm": 0.24215468764305115,
-      "learning_rate": 1.2512187195320117e-06,
-      "loss": 0.1724,
       "step": 3000
     },
     {
-      "epoch": 0.9749756256093598,
-      "eval_gen_len": 19.99163111923624,
-      "eval_loss": 0.1676524430513382,
-      "eval_rouge1": 0.0257,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.0244,
-      "eval_rougeLsum": 0.0257,
-      "eval_runtime": 2148.352,
-      "eval_samples_per_second": 11.458,
-      "eval_steps_per_second": 0.358,
       "step": 3000
     }
   ],
   "logging_steps": 100,
-  "max_steps": 3077,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -314,7 +531,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7819450187495506e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 1000,
+  "global_step": 6166,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.032435939020434644,
+      "grad_norm": 0.35351359844207764,
+      "learning_rate": 4.918910152448913e-05,
+      "loss": 0.1337,
       "step": 100
     },
     {
+      "epoch": 0.06487187804086929,
+      "grad_norm": 0.2617332935333252,
+      "learning_rate": 4.837820304897827e-05,
+      "loss": 0.1762,
       "step": 200
     },
     {
+      "epoch": 0.09730781706130393,
+      "grad_norm": 0.26761409640312195,
+      "learning_rate": 4.7567304573467406e-05,
+      "loss": 0.1729,
       "step": 300
     },
     {
+      "epoch": 0.12974375608173858,
+      "grad_norm": 0.2583613991737366,
+      "learning_rate": 4.675640609795654e-05,
+      "loss": 0.1728,
       "step": 400
     },
     {
+      "epoch": 0.1621796951021732,
+      "grad_norm": 0.24968299269676208,
+      "learning_rate": 4.594550762244567e-05,
+      "loss": 0.1721,
       "step": 500
     },
     {
+      "epoch": 0.19461563412260785,
+      "grad_norm": 0.252204567193985,
+      "learning_rate": 4.513460914693481e-05,
+      "loss": 0.1729,
       "step": 600
     },
     {
+      "epoch": 0.2270515731430425,
+      "grad_norm": 0.25790390372276306,
+      "learning_rate": 4.432371067142394e-05,
+      "loss": 0.1716,
       "step": 700
     },
     {
+      "epoch": 0.25948751216347715,
+      "grad_norm": 0.2649690508842468,
+      "learning_rate": 4.351281219591307e-05,
+      "loss": 0.1726,
       "step": 800
     },
     {
+      "epoch": 0.2919234511839118,
+      "grad_norm": 0.2653878927230835,
+      "learning_rate": 4.270191372040221e-05,
+      "loss": 0.172,
       "step": 900
     },
     {
+      "epoch": 0.3243593902043464,
+      "grad_norm": 0.2365722954273224,
+      "learning_rate": 4.1891015244891344e-05,
+      "loss": 0.1734,
       "step": 1000
     },
     {
+      "epoch": 0.3243593902043464,
+      "eval_gen_len": 19.97732987265796,
+      "eval_loss": 0.17071112990379333,
+      "eval_rouge1": 0.146,
+      "eval_rouge2": 0.0,
+      "eval_rougeL": 0.146,
+      "eval_rougeLsum": 0.1477,
+      "eval_runtime": 2204.8687,
+      "eval_samples_per_second": 11.183,
+      "eval_steps_per_second": 0.35,
       "step": 1000
     },
     {
+      "epoch": 0.3567953292247811,
+      "grad_norm": 0.2285241037607193,
+      "learning_rate": 4.108011676938048e-05,
+      "loss": 0.1721,
       "step": 1100
     },
     {
+      "epoch": 0.3892312682452157,
+      "grad_norm": 0.2493802011013031,
+      "learning_rate": 4.026921829386961e-05,
+      "loss": 0.1694,
       "step": 1200
     },
     {
+      "epoch": 0.4216672072656503,
+      "grad_norm": 0.25236544013023376,
+      "learning_rate": 3.945831981835874e-05,
+      "loss": 0.1698,
       "step": 1300
     },
     {
+      "epoch": 0.454103146286085,
+      "grad_norm": 0.243851900100708,
+      "learning_rate": 3.864742134284788e-05,
+      "loss": 0.1683,
       "step": 1400
     },
     {
+      "epoch": 0.4865390853065196,
+      "grad_norm": 0.24125412106513977,
+      "learning_rate": 3.783652286733701e-05,
+      "loss": 0.1694,
       "step": 1500
     },
     {
+      "epoch": 0.5189750243269543,
+      "grad_norm": 0.25099146366119385,
+      "learning_rate": 3.7025624391826144e-05,
+      "loss": 0.1669,
       "step": 1600
     },
     {
+      "epoch": 0.5514109633473889,
+      "grad_norm": 0.23592032492160797,
+      "learning_rate": 3.621472591631528e-05,
+      "loss": 0.1668,
       "step": 1700
     },
     {
+      "epoch": 0.5838469023678236,
+      "grad_norm": 0.25207582116127014,
+      "learning_rate": 3.540382744080442e-05,
+      "loss": 0.1678,
       "step": 1800
     },
     {
+      "epoch": 0.6162828413882582,
+      "grad_norm": 0.2521522045135498,
+      "learning_rate": 3.459292896529355e-05,
+      "loss": 0.166,
       "step": 1900
     },
     {
+      "epoch": 0.6487187804086928,
+      "grad_norm": 0.2497226446866989,
+      "learning_rate": 3.378203048978268e-05,
+      "loss": 0.169,
       "step": 2000
     },
     {
+      "epoch": 0.6487187804086928,
+      "eval_gen_len": 19.993389569308135,
+      "eval_loss": 0.1660359501838684,
+      "eval_rouge1": 0.1899,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.1899,
+      "eval_rougeLsum": 0.1913,
+      "eval_runtime": 2195.0671,
+      "eval_samples_per_second": 11.233,
+      "eval_steps_per_second": 0.351,
       "step": 2000
     },
     {
+      "epoch": 0.6811547194291274,
+      "grad_norm": 0.25921228528022766,
+      "learning_rate": 3.2971132014271815e-05,
+      "loss": 0.1663,
       "step": 2100
     },
     {
+      "epoch": 0.7135906584495622,
+      "grad_norm": 0.22675295174121857,
+      "learning_rate": 3.2160233538760945e-05,
+      "loss": 0.1661,
       "step": 2200
     },
     {
+      "epoch": 0.7460265974699968,
+      "grad_norm": 0.253683477640152,
+      "learning_rate": 3.134933506325008e-05,
+      "loss": 0.1661,
       "step": 2300
     },
     {
+      "epoch": 0.7784625364904314,
+      "grad_norm": 0.23699304461479187,
+      "learning_rate": 3.053843658773922e-05,
+      "loss": 0.1664,
       "step": 2400
     },
     {
+      "epoch": 0.810898475510866,
+      "grad_norm": 0.21723595261573792,
+      "learning_rate": 2.972753811222835e-05,
+      "loss": 0.1628,
       "step": 2500
     },
     {
+      "epoch": 0.8433344145313006,
+      "grad_norm": 0.2416258603334427,
+      "learning_rate": 2.8916639636717486e-05,
+      "loss": 0.1684,
       "step": 2600
     },
     {
+      "epoch": 0.8757703535517353,
+      "grad_norm": 0.24152766168117523,
+      "learning_rate": 2.8105741161206616e-05,
+      "loss": 0.1655,
       "step": 2700
     },
     {
+      "epoch": 0.90820629257217,
+      "grad_norm": 0.23950466513633728,
+      "learning_rate": 2.7294842685695753e-05,
+      "loss": 0.1662,
       "step": 2800
     },
     {
+      "epoch": 0.9406422315926046,
+      "grad_norm": 0.2509647011756897,
+      "learning_rate": 2.6483944210184886e-05,
+      "loss": 0.1642,
       "step": 2900
     },
     {
+      "epoch": 0.9730781706130393,
+      "grad_norm": 0.24778147041797638,
+      "learning_rate": 2.5673045734674023e-05,
+      "loss": 0.1628,
       "step": 3000
     },
     {
+      "epoch": 0.9730781706130393,
+      "eval_gen_len": 19.997323383891636,
+      "eval_loss": 0.16280025243759155,
+      "eval_rouge1": 0.0561,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.0561,
+      "eval_rougeLsum": 0.0547,
+      "eval_runtime": 2183.6993,
+      "eval_samples_per_second": 11.292,
+      "eval_steps_per_second": 0.353,
       "step": 3000
+    },
+    {
+      "epoch": 1.0055141096334739,
+      "grad_norm": 0.22274711728096008,
+      "learning_rate": 2.4862147259163153e-05,
+      "loss": 0.1629,
+      "step": 3100
+    },
+    {
+      "epoch": 1.0379500486539086,
+      "grad_norm": 0.23203332722187042,
+      "learning_rate": 2.405124878365229e-05,
+      "loss": 0.1556,
+      "step": 3200
+    },
+    {
+      "epoch": 1.0703859876743431,
+      "grad_norm": 0.24074462056159973,
+      "learning_rate": 2.3240350308141423e-05,
+      "loss": 0.1548,
+      "step": 3300
+    },
+    {
+      "epoch": 1.1028219266947779,
+      "grad_norm": 0.23876875638961792,
+      "learning_rate": 2.2429451832630553e-05,
+      "loss": 0.1535,
+      "step": 3400
+    },
+    {
+      "epoch": 1.1352578657152124,
+      "grad_norm": 0.23867164552211761,
+      "learning_rate": 2.161855335711969e-05,
+      "loss": 0.1528,
+      "step": 3500
+    },
+    {
+      "epoch": 1.167693804735647,
+      "grad_norm": 0.2626864016056061,
+      "learning_rate": 2.0807654881608824e-05,
+      "loss": 0.1526,
+      "step": 3600
+    },
+    {
+      "epoch": 1.2001297437560818,
+      "grad_norm": 0.26715072989463806,
+      "learning_rate": 1.9996756406097957e-05,
+      "loss": 0.1526,
+      "step": 3700
+    },
+    {
+      "epoch": 1.2325656827765163,
+      "grad_norm": 0.2496395856142044,
+      "learning_rate": 1.9185857930587094e-05,
+      "loss": 0.1518,
+      "step": 3800
+    },
+    {
+      "epoch": 1.265001621796951,
+      "grad_norm": 0.24588952958583832,
+      "learning_rate": 1.8374959455076227e-05,
+      "loss": 0.1519,
+      "step": 3900
+    },
+    {
+      "epoch": 1.2974375608173856,
+      "grad_norm": 0.23679636418819427,
+      "learning_rate": 1.7564060979565357e-05,
+      "loss": 0.1504,
+      "step": 4000
+    },
+    {
+      "epoch": 1.2974375608173856,
+      "eval_gen_len": 19.98292643361181,
+      "eval_loss": 0.16194650530815125,
+      "eval_rouge1": 0.1229,
+      "eval_rouge2": 0.0041,
+      "eval_rougeL": 0.123,
+      "eval_rougeLsum": 0.1233,
+      "eval_runtime": 2185.3639,
+      "eval_samples_per_second": 11.283,
+      "eval_steps_per_second": 0.353,
+      "step": 4000
+    },
+    {
+      "epoch": 1.3298734998378203,
+      "grad_norm": 0.24863706529140472,
+      "learning_rate": 1.6753162504054494e-05,
+      "loss": 0.1511,
+      "step": 4100
+    },
+    {
+      "epoch": 1.3623094388582548,
+      "grad_norm": 0.2532482445240021,
+      "learning_rate": 1.5942264028543628e-05,
+      "loss": 0.1503,
+      "step": 4200
+    },
+    {
+      "epoch": 1.3947453778786896,
+      "grad_norm": 0.2682236135005951,
+      "learning_rate": 1.5131365553032761e-05,
+      "loss": 0.1529,
+      "step": 4300
+    },
+    {
+      "epoch": 1.4271813168991243,
+      "grad_norm": 0.23846983909606934,
+      "learning_rate": 1.4320467077521896e-05,
+      "loss": 0.1514,
+      "step": 4400
+    },
+    {
+      "epoch": 1.4596172559195588,
+      "grad_norm": 0.2428126037120819,
+      "learning_rate": 1.350956860201103e-05,
+      "loss": 0.1486,
+      "step": 4500
+    },
+    {
+      "epoch": 1.4920531949399936,
+      "grad_norm": 0.25097399950027466,
+      "learning_rate": 1.2698670126500161e-05,
+      "loss": 0.15,
+      "step": 4600
+    },
+    {
+      "epoch": 1.524489133960428,
+      "grad_norm": 0.2583732008934021,
+      "learning_rate": 1.1887771650989297e-05,
+      "loss": 0.1528,
+      "step": 4700
+    },
+    {
+      "epoch": 1.5569250729808628,
+      "grad_norm": 0.23872007429599762,
+      "learning_rate": 1.107687317547843e-05,
+      "loss": 0.1486,
+      "step": 4800
+    },
+    {
+      "epoch": 1.5893610120012975,
+      "grad_norm": 0.2473708838224411,
+      "learning_rate": 1.0265974699967565e-05,
+      "loss": 0.1493,
+      "step": 4900
+    },
+    {
+      "epoch": 1.621796951021732,
+      "grad_norm": 0.24233025312423706,
+      "learning_rate": 9.455076224456699e-06,
+      "loss": 0.1505,
+      "step": 5000
+    },
+    {
+      "epoch": 1.621796951021732,
+      "eval_gen_len": 19.982034228242355,
+      "eval_loss": 0.16026677191257477,
+      "eval_rouge1": 0.0744,
+      "eval_rouge2": 0.0041,
+      "eval_rougeL": 0.0744,
+      "eval_rougeLsum": 0.0744,
+      "eval_runtime": 2176.6648,
+      "eval_samples_per_second": 11.328,
+      "eval_steps_per_second": 0.354,
+      "step": 5000
+    },
+    {
+      "epoch": 1.6542328900421666,
+      "grad_norm": 0.25053468346595764,
+      "learning_rate": 8.644177748945832e-06,
+      "loss": 0.1508,
+      "step": 5100
+    },
+    {
+      "epoch": 1.6866688290626013,
+      "grad_norm": 0.24528223276138306,
+      "learning_rate": 7.833279273434967e-06,
+      "loss": 0.1499,
+      "step": 5200
+    },
+    {
+      "epoch": 1.719104768083036,
+      "grad_norm": 0.2794703543186188,
+      "learning_rate": 7.0223807979241e-06,
+      "loss": 0.1476,
+      "step": 5300
+    },
+    {
+      "epoch": 1.7515407071034708,
+      "grad_norm": 0.257614403963089,
+      "learning_rate": 6.211482322413234e-06,
+      "loss": 0.1498,
+      "step": 5400
+    },
+    {
+      "epoch": 1.7839766461239053,
+      "grad_norm": 0.24895663559436798,
+      "learning_rate": 5.400583846902368e-06,
+      "loss": 0.1485,
+      "step": 5500
+    },
+    {
+      "epoch": 1.8164125851443398,
+      "grad_norm": 0.26096346974372864,
+      "learning_rate": 4.589685371391502e-06,
+      "loss": 0.1486,
+      "step": 5600
+    },
+    {
+      "epoch": 1.8488485241647745,
+      "grad_norm": 0.23756231367588043,
+      "learning_rate": 3.7787868958806357e-06,
+      "loss": 0.1506,
+      "step": 5700
+    },
+    {
+      "epoch": 1.8812844631852093,
+      "grad_norm": 0.2549228072166443,
+      "learning_rate": 2.9678884203697696e-06,
+      "loss": 0.1483,
+      "step": 5800
+    },
+    {
+      "epoch": 1.913720402205644,
+      "grad_norm": 0.24819372594356537,
+      "learning_rate": 2.156989944858904e-06,
+      "loss": 0.149,
+      "step": 5900
+    },
+    {
+      "epoch": 1.9461563412260785,
+      "grad_norm": 0.23372448980808258,
+      "learning_rate": 1.3460914693480378e-06,
+      "loss": 0.1506,
+      "step": 6000
+    },
+    {
+      "epoch": 1.9461563412260785,
+      "eval_gen_len": 19.98361586503366,
+      "eval_loss": 0.15918129682540894,
+      "eval_rouge1": 0.073,
+      "eval_rouge2": 0.002,
+      "eval_rougeL": 0.073,
+      "eval_rougeLsum": 0.073,
+      "eval_runtime": 2174.8737,
+      "eval_samples_per_second": 11.338,
+      "eval_steps_per_second": 0.355,
+      "step": 6000
+    },
+    {
+      "epoch": 1.978592280246513,
+      "grad_norm": 0.25701549649238586,
+      "learning_rate": 5.351929938371715e-07,
+      "loss": 0.15,
+      "step": 6100
     }
   ],
   "logging_steps": 100,
+  "max_steps": 6166,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.5709139077411373e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:194ce32cec5fe69bed212938bb3ed6d454d649295f789cd68caef98b2b3225af
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d585a2c4f69235113a2ad29e36aef3be9f972906a8fd4eddd987849af1a5a8
 size 5304