End of training

Browse files

Files changed (7) hide show

README.md +4 -2
all_results.json +11 -11
eval_results.json +6 -6
p_object.json +0 -0
prediction_reference.json +0 -0
train_results.json +6 -6
trainer_state.json +585 -57

README.md CHANGED Viewed

@@ -1,6 +1,8 @@
 ---
 base_model: microsoft/dit-base-finetuned-rvlcdip
 tags:
 - generated_from_trainer
 metrics:
 - f1
@@ -16,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/dit-base-finetuned-rvlcdip](https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0539
-- F1: 0.6108
 ## Model description

 ---
 base_model: microsoft/dit-base-finetuned-rvlcdip
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 metrics:
 - f1
 This model is a fine-tuned version of [microsoft/dit-base-finetuned-rvlcdip](https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0404
+- F1: 0.6134
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.5427922241858116,
-    "eval_f1": 0.6095153739086423,
-    "eval_loss": 0.05489746853709221,
-    "eval_runtime": 1141.5758,
-    "eval_samples_per_second": 180.682,
-    "eval_steps_per_second": 2.823,
-    "total_flos": 1.0663947529637069e+19,
-    "train_loss": 0.08201153971428095,
-    "train_runtime": 47443.3166,
-    "train_samples_per_second": 13.49,
-    "train_steps_per_second": 0.211
 }

 {
+    "epoch": 0.6942691239585963,
+    "eval_f1": 0.6133951445650848,
+    "eval_loss": 0.04044894501566887,
+    "eval_runtime": 1162.523,
+    "eval_samples_per_second": 177.426,
+    "eval_steps_per_second": 2.772,
+    "total_flos": 1.3639932886745088e+19,
+    "train_loss": 0.019194319985129618,
+    "train_runtime": 18605.0451,
+    "train_samples_per_second": 34.399,
+    "train_steps_per_second": 0.537
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.5427922241858116,
-    "eval_f1": 0.6095153739086423,
-    "eval_loss": 0.05489746853709221,
-    "eval_runtime": 1141.5758,
-    "eval_samples_per_second": 180.682,
-    "eval_steps_per_second": 2.823
 }

 {
+    "epoch": 0.6942691239585963,
+    "eval_f1": 0.6133951445650848,
+    "eval_loss": 0.04044894501566887,
+    "eval_runtime": 1162.523,
+    "eval_samples_per_second": 177.426,
+    "eval_steps_per_second": 2.772
 }

p_object.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

prediction_reference.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.5427922241858116,
-    "total_flos": 1.0663947529637069e+19,
-    "train_loss": 0.08201153971428095,
-    "train_runtime": 47443.3166,
-    "train_samples_per_second": 13.49,
-    "train_steps_per_second": 0.211
 }

 {
+    "epoch": 0.6942691239585963,
+    "total_flos": 1.3639932886745088e+19,
+    "train_loss": 0.019194319985129618,
+    "train_runtime": 18605.0451,
+    "train_samples_per_second": 34.399,
+    "train_steps_per_second": 0.537
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6095153739086423,
-  "best_model_checkpoint": "./step_test_microsoft_dit/checkpoint-2000",
-  "epoch": 0.5427922241858116,
   "eval_steps": 50,
-  "global_step": 2150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1770,144 +1770,672 @@
     },
     {
       "epoch": 0.5074476142388286,
-      "grad_norm": 0.604178786277771,
       "learning_rate": 2.3970000000000003e-05,
-      "loss": 0.0551,
       "step": 2010
     },
     {
       "epoch": 0.5099722292350417,
-      "grad_norm": 0.6526350378990173,
       "learning_rate": 2.394e-05,
-      "loss": 0.0734,
       "step": 2020
     },
     {
       "epoch": 0.5124968442312547,
-      "grad_norm": 0.8096711039543152,
       "learning_rate": 2.3910000000000003e-05,
-      "loss": 0.0724,
       "step": 2030
     },
     {
       "epoch": 0.5150214592274678,
-      "grad_norm": 1.262484073638916,
       "learning_rate": 2.3880000000000002e-05,
-      "loss": 0.0949,
       "step": 2040
     },
     {
       "epoch": 0.5175460742236809,
-      "grad_norm": 0.8815634846687317,
       "learning_rate": 2.385e-05,
-      "loss": 0.0706,
       "step": 2050
     },
     {
       "epoch": 0.5175460742236809,
-      "eval_f1": 0.6041730781067275,
-      "eval_loss": 0.04226996377110481,
-      "eval_runtime": 1154.7019,
-      "eval_samples_per_second": 178.628,
-      "eval_steps_per_second": 2.791,
       "step": 2050
     },
     {
       "epoch": 0.520070689219894,
-      "grad_norm": 0.6676633954048157,
       "learning_rate": 2.3820000000000002e-05,
-      "loss": 0.0831,
       "step": 2060
     },
     {
       "epoch": 0.522595304216107,
-      "grad_norm": 0.9431056976318359,
       "learning_rate": 2.379e-05,
-      "loss": 0.0762,
       "step": 2070
     },
     {
       "epoch": 0.5251199192123202,
-      "grad_norm": 0.8600429892539978,
       "learning_rate": 2.3760000000000003e-05,
-      "loss": 0.0674,
       "step": 2080
     },
     {
       "epoch": 0.5276445342085332,
-      "grad_norm": 1.0786969661712646,
       "learning_rate": 2.373e-05,
-      "loss": 0.0688,
       "step": 2090
     },
     {
       "epoch": 0.5301691492047462,
-      "grad_norm": 0.6463090181350708,
       "learning_rate": 2.37e-05,
-      "loss": 0.0647,
       "step": 2100
     },
     {
       "epoch": 0.5301691492047462,
-      "eval_f1": 0.6056007895386134,
-      "eval_loss": 0.04632845148444176,
-      "eval_runtime": 1152.9435,
-      "eval_samples_per_second": 178.9,
-      "eval_steps_per_second": 2.795,
       "step": 2100
     },
     {
       "epoch": 0.5326937642009594,
-      "grad_norm": 1.0313136577606201,
       "learning_rate": 2.3670000000000002e-05,
-      "loss": 0.0673,
       "step": 2110
     },
     {
       "epoch": 0.5352183791971724,
-      "grad_norm": 1.19906485080719,
       "learning_rate": 2.364e-05,
-      "loss": 0.0722,
       "step": 2120
     },
     {
       "epoch": 0.5377429941933856,
-      "grad_norm": 0.8951911926269531,
       "learning_rate": 2.3610000000000003e-05,
-      "loss": 0.0801,
       "step": 2130
     },
     {
       "epoch": 0.5402676091895986,
-      "grad_norm": 0.856438159942627,
       "learning_rate": 2.358e-05,
-      "loss": 0.0664,
       "step": 2140
     },
     {
       "epoch": 0.5427922241858116,
-      "grad_norm": 0.74139404296875,
       "learning_rate": 2.3550000000000003e-05,
-      "loss": 0.0626,
       "step": 2150
     },
     {
       "epoch": 0.5427922241858116,
-      "eval_f1": 0.6048198696667897,
-      "eval_loss": 0.047770071774721146,
-      "eval_runtime": 1156.5853,
-      "eval_samples_per_second": 178.337,
-      "eval_steps_per_second": 2.787,
       "step": 2150
     },
     {
-      "epoch": 0.5427922241858116,
-      "step": 2150,
-      "total_flos": 1.0663947529637069e+19,
-      "train_loss": 0.08201153971428095,
-      "train_runtime": 47443.3166,
-      "train_samples_per_second": 13.49,
-      "train_steps_per_second": 0.211
     }
   ],
   "logging_steps": 10,
@@ -1936,7 +2464,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0663947529637069e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6133951445650848,
+  "best_model_checkpoint": "./step_test_microsoft_dit/checkpoint-2500",
+  "epoch": 0.6942691239585963,
   "eval_steps": 50,
+  "global_step": 2750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.5074476142388286,
+      "grad_norm": 0.7863900065422058,
       "learning_rate": 2.3970000000000003e-05,
+      "loss": 0.061,
       "step": 2010
     },
     {
       "epoch": 0.5099722292350417,
+      "grad_norm": 1.0800750255584717,
       "learning_rate": 2.394e-05,
+      "loss": 0.0781,
       "step": 2020
     },
     {
       "epoch": 0.5124968442312547,
+      "grad_norm": 1.0992929935455322,
       "learning_rate": 2.3910000000000003e-05,
+      "loss": 0.0694,
       "step": 2030
     },
     {
       "epoch": 0.5150214592274678,
+      "grad_norm": 0.703554093837738,
       "learning_rate": 2.3880000000000002e-05,
+      "loss": 0.0881,
       "step": 2040
     },
     {
       "epoch": 0.5175460742236809,
+      "grad_norm": 1.214089274406433,
       "learning_rate": 2.385e-05,
+      "loss": 0.0736,
       "step": 2050
     },
     {
       "epoch": 0.5175460742236809,
+      "eval_f1": 0.612187690432663,
+      "eval_loss": 0.05384594947099686,
+      "eval_runtime": 1155.7771,
+      "eval_samples_per_second": 178.462,
+      "eval_steps_per_second": 2.789,
       "step": 2050
     },
     {
       "epoch": 0.520070689219894,
+      "grad_norm": 0.8359307050704956,
       "learning_rate": 2.3820000000000002e-05,
+      "loss": 0.0759,
       "step": 2060
     },
     {
       "epoch": 0.522595304216107,
+      "grad_norm": 1.6299511194229126,
       "learning_rate": 2.379e-05,
+      "loss": 0.076,
       "step": 2070
     },
     {
       "epoch": 0.5251199192123202,
+      "grad_norm": 0.6880617737770081,
       "learning_rate": 2.3760000000000003e-05,
+      "loss": 0.0745,
       "step": 2080
     },
     {
       "epoch": 0.5276445342085332,
+      "grad_norm": 0.7822777032852173,
       "learning_rate": 2.373e-05,
+      "loss": 0.0697,
       "step": 2090
     },
     {
       "epoch": 0.5301691492047462,
+      "grad_norm": 0.7941886782646179,
       "learning_rate": 2.37e-05,
+      "loss": 0.0685,
       "step": 2100
     },
     {
       "epoch": 0.5301691492047462,
+      "eval_f1": 0.6104315862855695,
+      "eval_loss": 0.04854836314916611,
+      "eval_runtime": 1154.0649,
+      "eval_samples_per_second": 178.727,
+      "eval_steps_per_second": 2.793,
       "step": 2100
     },
     {
       "epoch": 0.5326937642009594,
+      "grad_norm": 0.948130190372467,
       "learning_rate": 2.3670000000000002e-05,
+      "loss": 0.0706,
       "step": 2110
     },
     {
       "epoch": 0.5352183791971724,
+      "grad_norm": 0.959032416343689,
       "learning_rate": 2.364e-05,
+      "loss": 0.0684,
       "step": 2120
     },
     {
       "epoch": 0.5377429941933856,
+      "grad_norm": 1.1859666109085083,
       "learning_rate": 2.3610000000000003e-05,
+      "loss": 0.0757,
       "step": 2130
     },
     {
       "epoch": 0.5402676091895986,
+      "grad_norm": 0.9001142978668213,
       "learning_rate": 2.358e-05,
+      "loss": 0.079,
       "step": 2140
     },
     {
       "epoch": 0.5427922241858116,
+      "grad_norm": 0.47399717569351196,
       "learning_rate": 2.3550000000000003e-05,
+      "loss": 0.0726,
       "step": 2150
     },
     {
       "epoch": 0.5427922241858116,
+      "eval_f1": 0.611992731677771,
+      "eval_loss": 0.05662121623754501,
+      "eval_runtime": 1151.3771,
+      "eval_samples_per_second": 179.144,
+      "eval_steps_per_second": 2.799,
       "step": 2150
     },
     {
+      "epoch": 0.5453168391820248,
+      "grad_norm": 0.6292353272438049,
+      "learning_rate": 2.3520000000000002e-05,
+      "loss": 0.0677,
+      "step": 2160
+    },
+    {
+      "epoch": 0.5478414541782378,
+      "grad_norm": 0.7090362906455994,
+      "learning_rate": 2.349e-05,
+      "loss": 0.0703,
+      "step": 2170
+    },
+    {
+      "epoch": 0.5503660691744509,
+      "grad_norm": 0.6082953810691833,
+      "learning_rate": 2.3460000000000002e-05,
+      "loss": 0.0672,
+      "step": 2180
+    },
+    {
+      "epoch": 0.552890684170664,
+      "grad_norm": 0.5937643051147461,
+      "learning_rate": 2.343e-05,
+      "loss": 0.0686,
+      "step": 2190
+    },
+    {
+      "epoch": 0.555415299166877,
+      "grad_norm": 0.7394770979881287,
+      "learning_rate": 2.3400000000000003e-05,
+      "loss": 0.0731,
+      "step": 2200
+    },
+    {
+      "epoch": 0.555415299166877,
+      "eval_f1": 0.6111780293905084,
+      "eval_loss": 0.05852247402071953,
+      "eval_runtime": 1153.1003,
+      "eval_samples_per_second": 178.876,
+      "eval_steps_per_second": 2.795,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5579399141630901,
+      "grad_norm": 0.7641323804855347,
+      "learning_rate": 2.337e-05,
+      "loss": 0.0732,
+      "step": 2210
+    },
+    {
+      "epoch": 0.5604645291593032,
+      "grad_norm": 0.8567935824394226,
+      "learning_rate": 2.334e-05,
+      "loss": 0.0599,
+      "step": 2220
+    },
+    {
+      "epoch": 0.5629891441555163,
+      "grad_norm": 0.9106941819190979,
+      "learning_rate": 2.3310000000000002e-05,
+      "loss": 0.0593,
+      "step": 2230
+    },
+    {
+      "epoch": 0.5655137591517294,
+      "grad_norm": 1.5944632291793823,
+      "learning_rate": 2.328e-05,
+      "loss": 0.0669,
+      "step": 2240
+    },
+    {
+      "epoch": 0.5680383741479424,
+      "grad_norm": 0.9120457768440247,
+      "learning_rate": 2.3250000000000003e-05,
+      "loss": 0.0722,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5680383741479424,
+      "eval_f1": 0.6139676730710583,
+      "eval_loss": 0.05887339636683464,
+      "eval_runtime": 1155.9087,
+      "eval_samples_per_second": 178.441,
+      "eval_steps_per_second": 2.788,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5705629891441555,
+      "grad_norm": 0.8505953550338745,
+      "learning_rate": 2.322e-05,
+      "loss": 0.0863,
+      "step": 2260
+    },
+    {
+      "epoch": 0.5730876041403686,
+      "grad_norm": 0.9573137164115906,
+      "learning_rate": 2.319e-05,
+      "loss": 0.0712,
+      "step": 2270
+    },
+    {
+      "epoch": 0.5756122191365817,
+      "grad_norm": 1.230735182762146,
+      "learning_rate": 2.3160000000000002e-05,
+      "loss": 0.0677,
+      "step": 2280
+    },
+    {
+      "epoch": 0.5781368341327947,
+      "grad_norm": 1.203621745109558,
+      "learning_rate": 2.313e-05,
+      "loss": 0.0634,
+      "step": 2290
+    },
+    {
+      "epoch": 0.5806614491290079,
+      "grad_norm": 1.3590195178985596,
+      "learning_rate": 2.3100000000000002e-05,
+      "loss": 0.0819,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5806614491290079,
+      "eval_f1": 0.6121980676328502,
+      "eval_loss": 0.050494007766246796,
+      "eval_runtime": 1153.6589,
+      "eval_samples_per_second": 178.789,
+      "eval_steps_per_second": 2.794,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5831860641252209,
+      "grad_norm": 0.8538402318954468,
+      "learning_rate": 2.307e-05,
+      "loss": 0.0674,
+      "step": 2310
+    },
+    {
+      "epoch": 0.5857106791214339,
+      "grad_norm": 1.1863012313842773,
+      "learning_rate": 2.304e-05,
+      "loss": 0.0665,
+      "step": 2320
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 1.0120714902877808,
+      "learning_rate": 2.301e-05,
+      "loss": 0.0675,
+      "step": 2330
+    },
+    {
+      "epoch": 0.5907599091138601,
+      "grad_norm": 0.8394482135772705,
+      "learning_rate": 2.298e-05,
+      "loss": 0.0812,
+      "step": 2340
+    },
+    {
+      "epoch": 0.5932845241100733,
+      "grad_norm": 0.8855767250061035,
+      "learning_rate": 2.2950000000000002e-05,
+      "loss": 0.0694,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5932845241100733,
+      "eval_f1": 0.6101251634597422,
+      "eval_loss": 0.053731031715869904,
+      "eval_runtime": 1147.8424,
+      "eval_samples_per_second": 179.695,
+      "eval_steps_per_second": 2.808,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5958091391062863,
+      "grad_norm": 1.241045594215393,
+      "learning_rate": 2.292e-05,
+      "loss": 0.0646,
+      "step": 2360
+    },
+    {
+      "epoch": 0.5983337541024993,
+      "grad_norm": 2.065401315689087,
+      "learning_rate": 2.289e-05,
+      "loss": 0.0792,
+      "step": 2370
+    },
+    {
+      "epoch": 0.6008583690987125,
+      "grad_norm": 1.0024877786636353,
+      "learning_rate": 2.286e-05,
+      "loss": 0.0751,
+      "step": 2380
+    },
+    {
+      "epoch": 0.6033829840949255,
+      "grad_norm": 0.4943256080150604,
+      "learning_rate": 2.283e-05,
+      "loss": 0.076,
+      "step": 2390
+    },
+    {
+      "epoch": 0.6059075990911386,
+      "grad_norm": 1.0907814502716064,
+      "learning_rate": 2.2800000000000002e-05,
+      "loss": 0.0705,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6059075990911386,
+      "eval_f1": 0.6130196664177247,
+      "eval_loss": 0.06461644172668457,
+      "eval_runtime": 1149.8253,
+      "eval_samples_per_second": 179.386,
+      "eval_steps_per_second": 2.803,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6084322140873517,
+      "grad_norm": 1.1304162740707397,
+      "learning_rate": 2.277e-05,
+      "loss": 0.0548,
+      "step": 2410
+    },
+    {
+      "epoch": 0.6109568290835647,
+      "grad_norm": 1.3394097089767456,
+      "learning_rate": 2.274e-05,
+      "loss": 0.0607,
+      "step": 2420
+    },
+    {
+      "epoch": 0.6134814440797778,
+      "grad_norm": 0.5467960834503174,
+      "learning_rate": 2.271e-05,
+      "loss": 0.0701,
+      "step": 2430
+    },
+    {
+      "epoch": 0.6160060590759909,
+      "grad_norm": 0.5510517954826355,
+      "learning_rate": 2.268e-05,
+      "loss": 0.0725,
+      "step": 2440
+    },
+    {
+      "epoch": 0.618530674072204,
+      "grad_norm": 0.7682734131813049,
+      "learning_rate": 2.265e-05,
+      "loss": 0.0702,
+      "step": 2450
+    },
+    {
+      "epoch": 0.618530674072204,
+      "eval_f1": 0.6124447065762312,
+      "eval_loss": 0.046234920620918274,
+      "eval_runtime": 1146.4615,
+      "eval_samples_per_second": 179.912,
+      "eval_steps_per_second": 2.811,
+      "step": 2450
+    },
+    {
+      "epoch": 0.6210552890684171,
+      "grad_norm": 0.7578818798065186,
+      "learning_rate": 2.262e-05,
+      "loss": 0.0703,
+      "step": 2460
+    },
+    {
+      "epoch": 0.6235799040646302,
+      "grad_norm": 0.7244108319282532,
+      "learning_rate": 2.2590000000000002e-05,
+      "loss": 0.0635,
+      "step": 2470
+    },
+    {
+      "epoch": 0.6261045190608432,
+      "grad_norm": 1.1047908067703247,
+      "learning_rate": 2.256e-05,
+      "loss": 0.0614,
+      "step": 2480
+    },
+    {
+      "epoch": 0.6286291340570563,
+      "grad_norm": 1.0824987888336182,
+      "learning_rate": 2.253e-05,
+      "loss": 0.081,
+      "step": 2490
+    },
+    {
+      "epoch": 0.6311537490532694,
+      "grad_norm": 1.9344598054885864,
+      "learning_rate": 2.25e-05,
+      "loss": 0.0709,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6311537490532694,
+      "eval_f1": 0.6133951445650848,
+      "eval_loss": 0.04044894501566887,
+      "eval_runtime": 1148.0724,
+      "eval_samples_per_second": 179.659,
+      "eval_steps_per_second": 2.807,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6336783640494824,
+      "grad_norm": 1.2797091007232666,
+      "learning_rate": 2.247e-05,
+      "loss": 0.072,
+      "step": 2510
+    },
+    {
+      "epoch": 0.6362029790456956,
+      "grad_norm": 0.7228933572769165,
+      "learning_rate": 2.2440000000000002e-05,
+      "loss": 0.071,
+      "step": 2520
+    },
+    {
+      "epoch": 0.6387275940419086,
+      "grad_norm": 0.9655591249465942,
+      "learning_rate": 2.241e-05,
+      "loss": 0.0611,
+      "step": 2530
+    },
+    {
+      "epoch": 0.6412522090381216,
+      "grad_norm": 0.9924450516700745,
+      "learning_rate": 2.238e-05,
+      "loss": 0.0676,
+      "step": 2540
+    },
+    {
+      "epoch": 0.6437768240343348,
+      "grad_norm": 1.12591552734375,
+      "learning_rate": 2.235e-05,
+      "loss": 0.0804,
+      "step": 2550
+    },
+    {
+      "epoch": 0.6437768240343348,
+      "eval_f1": 0.612305676335696,
+      "eval_loss": 0.04778852313756943,
+      "eval_runtime": 1160.4576,
+      "eval_samples_per_second": 177.742,
+      "eval_steps_per_second": 2.777,
+      "step": 2550
+    },
+    {
+      "epoch": 0.6463014390305478,
+      "grad_norm": 0.7478006482124329,
+      "learning_rate": 2.232e-05,
+      "loss": 0.0638,
+      "step": 2560
+    },
+    {
+      "epoch": 0.648826054026761,
+      "grad_norm": 0.7661213874816895,
+      "learning_rate": 2.2290000000000002e-05,
+      "loss": 0.0632,
+      "step": 2570
+    },
+    {
+      "epoch": 0.651350669022974,
+      "grad_norm": 0.9824168086051941,
+      "learning_rate": 2.226e-05,
+      "loss": 0.0602,
+      "step": 2580
+    },
+    {
+      "epoch": 0.653875284019187,
+      "grad_norm": 1.1700901985168457,
+      "learning_rate": 2.223e-05,
+      "loss": 0.0714,
+      "step": 2590
+    },
+    {
+      "epoch": 0.6563998990154002,
+      "grad_norm": 0.8846214413642883,
+      "learning_rate": 2.22e-05,
+      "loss": 0.0666,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6563998990154002,
+      "eval_f1": 0.6104417670682731,
+      "eval_loss": 0.04546576738357544,
+      "eval_runtime": 1160.1326,
+      "eval_samples_per_second": 177.792,
+      "eval_steps_per_second": 2.778,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6589245140116132,
+      "grad_norm": 0.7641239166259766,
+      "learning_rate": 2.217e-05,
+      "loss": 0.058,
+      "step": 2610
+    },
+    {
+      "epoch": 0.6614491290078263,
+      "grad_norm": 0.5828648209571838,
+      "learning_rate": 2.214e-05,
+      "loss": 0.0686,
+      "step": 2620
+    },
+    {
+      "epoch": 0.6639737440040394,
+      "grad_norm": 0.6906914710998535,
+      "learning_rate": 2.211e-05,
+      "loss": 0.0764,
+      "step": 2630
+    },
+    {
+      "epoch": 0.6664983590002524,
+      "grad_norm": 1.3137489557266235,
+      "learning_rate": 2.208e-05,
+      "loss": 0.0768,
+      "step": 2640
+    },
+    {
+      "epoch": 0.6690229739964655,
+      "grad_norm": 0.863865077495575,
+      "learning_rate": 2.205e-05,
+      "loss": 0.0749,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6690229739964655,
+      "eval_f1": 0.6131900703964431,
+      "eval_loss": 0.04790908098220825,
+      "eval_runtime": 1162.4462,
+      "eval_samples_per_second": 177.438,
+      "eval_steps_per_second": 2.773,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6715475889926786,
+      "grad_norm": 0.9182652235031128,
+      "learning_rate": 2.202e-05,
+      "loss": 0.0625,
+      "step": 2660
+    },
+    {
+      "epoch": 0.6740722039888917,
+      "grad_norm": 1.4961283206939697,
+      "learning_rate": 2.199e-05,
+      "loss": 0.0726,
+      "step": 2670
+    },
+    {
+      "epoch": 0.6765968189851048,
+      "grad_norm": 0.7803681492805481,
+      "learning_rate": 2.196e-05,
+      "loss": 0.0669,
+      "step": 2680
+    },
+    {
+      "epoch": 0.6791214339813179,
+      "grad_norm": 1.0371824502944946,
+      "learning_rate": 2.193e-05,
+      "loss": 0.0566,
+      "step": 2690
+    },
+    {
+      "epoch": 0.6816460489775309,
+      "grad_norm": 1.1832714080810547,
+      "learning_rate": 2.19e-05,
+      "loss": 0.067,
+      "step": 2700
+    },
+    {
+      "epoch": 0.6816460489775309,
+      "eval_f1": 0.6132461161079312,
+      "eval_loss": 0.055793602019548416,
+      "eval_runtime": 1161.8914,
+      "eval_samples_per_second": 177.523,
+      "eval_steps_per_second": 2.774,
+      "step": 2700
+    },
+    {
+      "epoch": 0.684170663973744,
+      "grad_norm": 0.7899573445320129,
+      "learning_rate": 2.187e-05,
+      "loss": 0.0763,
+      "step": 2710
+    },
+    {
+      "epoch": 0.6866952789699571,
+      "grad_norm": 1.4638808965682983,
+      "learning_rate": 2.184e-05,
+      "loss": 0.0768,
+      "step": 2720
+    },
+    {
+      "epoch": 0.6892198939661701,
+      "grad_norm": 0.7547538876533508,
+      "learning_rate": 2.181e-05,
+      "loss": 0.0761,
+      "step": 2730
+    },
+    {
+      "epoch": 0.6917445089623833,
+      "grad_norm": 0.5143932700157166,
+      "learning_rate": 2.178e-05,
+      "loss": 0.0808,
+      "step": 2740
+    },
+    {
+      "epoch": 0.6942691239585963,
+      "grad_norm": 1.011730432510376,
+      "learning_rate": 2.175e-05,
+      "loss": 0.068,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6942691239585963,
+      "eval_f1": 0.6108202443280978,
+      "eval_loss": 0.053855251520872116,
+      "eval_runtime": 1160.3338,
+      "eval_samples_per_second": 177.761,
+      "eval_steps_per_second": 2.778,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6942691239585963,
+      "step": 2750,
+      "total_flos": 1.3639932886745088e+19,
+      "train_loss": 0.019194319985129618,
+      "train_runtime": 18605.0451,
+      "train_samples_per_second": 34.399,
+      "train_steps_per_second": 0.537
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3639932886745088e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null