End of training

Browse files

Files changed (5) hide show

README.md +9 -7
all_results.json +14 -14
eval_results.json +9 -9
train_results.json +5 -5
trainer_state.json +2811 -382

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ library_name: transformers
 license: other
 base_model: nvidia/mit-b0
 tags:
 - generated_from_trainer
 datasets:
 - generator
@@ -16,16 +18,16 @@ should probably proofread and complete it, then remove this comment. -->
 # autocrop-bilder
-This model is a fine-tuned version of [nvidia/mit-b0](https://huggingface.co/nvidia/mit-b0) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0335
-- Mean Iou: 0.4974
-- Mean Accuracy: 0.9949
-- Overall Accuracy: 0.9949
 - Accuracy Background: nan
-- Accuracy Crop: 0.9949
 - Iou Background: 0.0
-- Iou Crop: 0.9949
 ## Model description

 license: other
 base_model: nvidia/mit-b0
 tags:
+- image-segmentation
+- vision
 - generated_from_trainer
 datasets:
 - generator
 # autocrop-bilder
+This model is a fine-tuned version of [nvidia/mit-b0](https://huggingface.co/nvidia/mit-b0) on the /mnt/disk1/autocrop-data/datasets/bilder/ dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0315
+- Mean Iou: 0.4959
+- Mean Accuracy: 0.9918
+- Overall Accuracy: 0.9918
 - Accuracy Background: nan
+- Accuracy Crop: 0.9918
 - Iou Background: 0.0
+- Iou Crop: 0.9918
 ## Model description

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
     "epoch": 31.0,
     "eval_accuracy_background": NaN,
-    "eval_accuracy_crop": 0.9816317254805985,
     "eval_iou_background": 0.0,
-    "eval_iou_crop": 0.9816317254805985,
-    "eval_loss": 0.1087288111448288,
-    "eval_mean_accuracy": 0.9816317254805985,
-    "eval_mean_iou": 0.49081586274029926,
-    "eval_overall_accuracy": 0.9816317254805985,
-    "eval_runtime": 0.6022,
-    "eval_samples_per_second": 16.605,
-    "eval_steps_per_second": 3.321,
-    "total_flos": 2.7711697679548416e+16,
-    "train_loss": 0.13814654548047325,
-    "train_runtime": 56.09,
-    "train_samples_per_second": 45.463,
-    "train_steps_per_second": 6.24
 }

 {
     "epoch": 31.0,
     "eval_accuracy_background": NaN,
+    "eval_accuracy_crop": 0.9917723687601736,
     "eval_iou_background": 0.0,
+    "eval_iou_crop": 0.9917723687601736,
+    "eval_loss": 0.031547412276268005,
+    "eval_mean_accuracy": 0.9917723687601736,
+    "eval_mean_iou": 0.4958861843800868,
+    "eval_overall_accuracy": 0.9917723687601736,
+    "eval_runtime": 3.0359,
+    "eval_samples_per_second": 52.043,
+    "eval_steps_per_second": 6.588,
+    "total_flos": 4.857697593238487e+17,
+    "train_loss": 0.07301220383220416,
+    "train_runtime": 471.8683,
+    "train_samples_per_second": 94.73,
+    "train_steps_per_second": 11.868
 }

eval_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 31.0,
     "eval_accuracy_background": NaN,
-    "eval_accuracy_crop": 0.9816317254805985,
     "eval_iou_background": 0.0,
-    "eval_iou_crop": 0.9816317254805985,
-    "eval_loss": 0.1087288111448288,
-    "eval_mean_accuracy": 0.9816317254805985,
-    "eval_mean_iou": 0.49081586274029926,
-    "eval_overall_accuracy": 0.9816317254805985,
-    "eval_runtime": 0.6022,
-    "eval_samples_per_second": 16.605,
-    "eval_steps_per_second": 3.321
 }

 {
     "epoch": 31.0,
     "eval_accuracy_background": NaN,
+    "eval_accuracy_crop": 0.9917723687601736,
     "eval_iou_background": 0.0,
+    "eval_iou_crop": 0.9917723687601736,
+    "eval_loss": 0.031547412276268005,
+    "eval_mean_accuracy": 0.9917723687601736,
+    "eval_mean_iou": 0.4958861843800868,
+    "eval_overall_accuracy": 0.9917723687601736,
+    "eval_runtime": 3.0359,
+    "eval_samples_per_second": 52.043,
+    "eval_steps_per_second": 6.588
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 31.0,
-    "total_flos": 2.7711697679548416e+16,
-    "train_loss": 0.13814654548047325,
-    "train_runtime": 56.09,
-    "train_samples_per_second": 45.463,
-    "train_steps_per_second": 6.24
 }

 {
     "epoch": 31.0,
+    "total_flos": 4.857697593238487e+17,
+    "train_loss": 0.07301220383220416,
+    "train_runtime": 471.8683,
+    "train_samples_per_second": 94.73,
+    "train_steps_per_second": 11.868
 }

trainer_state.json CHANGED Viewed

@@ -1,491 +1,2920 @@
 {
-  "best_global_step": 196,
-  "best_metric": 0.1087288111448288,
-  "best_model_checkpoint": "trainer_output/checkpoint-196",
   "epoch": 31.0,
   "eval_steps": 500,
-  "global_step": 217,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.6798034240092841,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.6798034240092841,
-      "eval_loss": 0.6694175601005554,
-      "eval_mean_accuracy": 0.6798034240092841,
-      "eval_mean_iou": 0.33990171200464203,
-      "eval_overall_accuracy": 0.6798034240092841,
-      "eval_runtime": 0.9318,
-      "eval_samples_per_second": 10.732,
-      "eval_steps_per_second": 2.146,
-      "step": 7
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9246364650670945,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9246364650670945,
-      "eval_loss": 0.5930418968200684,
-      "eval_mean_accuracy": 0.9246364650670945,
-      "eval_mean_iou": 0.46231823253354726,
-      "eval_overall_accuracy": 0.9246364650670945,
-      "eval_runtime": 0.5622,
-      "eval_samples_per_second": 17.787,
-      "eval_steps_per_second": 3.557,
-      "step": 14
     },
     {
-      "epoch": 3.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9411854547997284,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9411854547997284,
-      "eval_loss": 0.4609629511833191,
-      "eval_mean_accuracy": 0.9411854547997284,
-      "eval_mean_iou": 0.4705927273998642,
-      "eval_overall_accuracy": 0.9411854547997284,
-      "eval_runtime": 0.5875,
-      "eval_samples_per_second": 17.022,
-      "eval_steps_per_second": 3.404,
-      "step": 21
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9410732062778207,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9410732062778207,
-      "eval_loss": 0.3075406551361084,
-      "eval_mean_accuracy": 0.9410732062778207,
-      "eval_mean_iou": 0.4705366031389103,
-      "eval_overall_accuracy": 0.9410732062778207,
-      "eval_runtime": 0.5543,
-      "eval_samples_per_second": 18.04,
-      "eval_steps_per_second": 3.608,
-      "step": 28
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9417221622132219,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9417221622132219,
-      "eval_loss": 0.20374695956707,
-      "eval_mean_accuracy": 0.9417221622132219,
-      "eval_mean_iou": 0.47086108110661096,
-      "eval_overall_accuracy": 0.9417221622132219,
-      "eval_runtime": 0.5695,
-      "eval_samples_per_second": 17.559,
-      "eval_steps_per_second": 3.512,
-      "step": 35
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9323693454807089,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9323693454807089,
-      "eval_loss": 0.16684319078922272,
-      "eval_mean_accuracy": 0.9323693454807089,
-      "eval_mean_iou": 0.46618467274035447,
-      "eval_overall_accuracy": 0.9323693454807089,
-      "eval_runtime": 0.5262,
-      "eval_samples_per_second": 19.005,
-      "eval_steps_per_second": 3.801,
-      "step": 42
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9503174547678327,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9503174547678327,
-      "eval_loss": 0.1420690268278122,
-      "eval_mean_accuracy": 0.9503174547678327,
-      "eval_mean_iou": 0.47515872738391635,
-      "eval_overall_accuracy": 0.9503174547678327,
-      "eval_runtime": 0.5946,
-      "eval_samples_per_second": 16.818,
-      "eval_steps_per_second": 3.364,
-      "step": 49
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9546798126247078,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9546798126247078,
-      "eval_loss": 0.13820314407348633,
-      "eval_mean_accuracy": 0.9546798126247078,
-      "eval_mean_iou": 0.4773399063123539,
-      "eval_overall_accuracy": 0.9546798126247078,
-      "eval_runtime": 0.5971,
-      "eval_samples_per_second": 16.748,
-      "eval_steps_per_second": 3.35,
-      "step": 56
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9473266143698963,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9473266143698963,
-      "eval_loss": 0.15878096222877502,
-      "eval_mean_accuracy": 0.9473266143698963,
-      "eval_mean_iou": 0.47366330718494815,
-      "eval_overall_accuracy": 0.9473266143698963,
-      "eval_runtime": 0.5896,
-      "eval_samples_per_second": 16.962,
-      "eval_steps_per_second": 3.392,
-      "step": 63
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9690187945735507,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9690187945735507,
-      "eval_loss": 0.13168753683567047,
-      "eval_mean_accuracy": 0.9690187945735507,
-      "eval_mean_iou": 0.48450939728677533,
-      "eval_overall_accuracy": 0.9690187945735507,
-      "eval_runtime": 0.5435,
-      "eval_samples_per_second": 18.4,
-      "eval_steps_per_second": 3.68,
-      "step": 70
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9671203837795366,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9671203837795366,
-      "eval_loss": 0.13073985278606415,
-      "eval_mean_accuracy": 0.9671203837795366,
-      "eval_mean_iou": 0.4835601918897683,
-      "eval_overall_accuracy": 0.9671203837795366,
-      "eval_runtime": 0.5417,
-      "eval_samples_per_second": 18.459,
-      "eval_steps_per_second": 3.692,
-      "step": 77
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9797731843801581,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9797731843801581,
-      "eval_loss": 0.13279679417610168,
-      "eval_mean_accuracy": 0.9797731843801581,
-      "eval_mean_iou": 0.4898865921900791,
-      "eval_overall_accuracy": 0.9797731843801581,
-      "eval_runtime": 0.5591,
-      "eval_samples_per_second": 17.887,
-      "eval_steps_per_second": 3.577,
-      "step": 84
     },
     {
-      "epoch": 13.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9725408219658703,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9725408219658703,
-      "eval_loss": 0.12647856771945953,
-      "eval_mean_accuracy": 0.9725408219658703,
-      "eval_mean_iou": 0.48627041098293516,
-      "eval_overall_accuracy": 0.9725408219658703,
-      "eval_runtime": 0.5658,
-      "eval_samples_per_second": 17.675,
-      "eval_steps_per_second": 3.535,
-      "step": 91
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9771607993812224,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9771607993812224,
-      "eval_loss": 0.12825439870357513,
-      "eval_mean_accuracy": 0.9771607993812224,
-      "eval_mean_iou": 0.4885803996906112,
-      "eval_overall_accuracy": 0.9771607993812224,
-      "eval_runtime": 0.5494,
-      "eval_samples_per_second": 18.201,
-      "eval_steps_per_second": 3.64,
-      "step": 98
     },
     {
-      "epoch": 15.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.977466875951889,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.977466875951889,
-      "eval_loss": 0.1286262422800064,
-      "eval_mean_accuracy": 0.977466875951889,
-      "eval_mean_iou": 0.4887334379759445,
-      "eval_overall_accuracy": 0.977466875951889,
-      "eval_runtime": 0.5651,
-      "eval_samples_per_second": 17.697,
-      "eval_steps_per_second": 3.539,
-      "step": 105
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9788175384941892,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9788175384941892,
-      "eval_loss": 0.12346808612346649,
-      "eval_mean_accuracy": 0.9788175384941892,
-      "eval_mean_iou": 0.4894087692470946,
-      "eval_overall_accuracy": 0.9788175384941892,
-      "eval_runtime": 0.5641,
-      "eval_samples_per_second": 17.727,
-      "eval_steps_per_second": 3.545,
-      "step": 112
     },
     {
-      "epoch": 17.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9795486873363426,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9795486873363426,
-      "eval_loss": 0.12134357541799545,
-      "eval_mean_accuracy": 0.9795486873363426,
-      "eval_mean_iou": 0.4897743436681713,
-      "eval_overall_accuracy": 0.9795486873363426,
-      "eval_runtime": 0.5708,
-      "eval_samples_per_second": 17.52,
-      "eval_steps_per_second": 3.504,
-      "step": 119
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9820856266074387,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9820856266074387,
-      "eval_loss": 0.1223326101899147,
-      "eval_mean_accuracy": 0.9820856266074387,
-      "eval_mean_iou": 0.49104281330371935,
-      "eval_overall_accuracy": 0.9820856266074387,
-      "eval_runtime": 0.5809,
-      "eval_samples_per_second": 17.214,
-      "eval_steps_per_second": 3.443,
-      "step": 126
     },
     {
-      "epoch": 19.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9763290562352828,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9763290562352828,
-      "eval_loss": 0.11792740970849991,
-      "eval_mean_accuracy": 0.9763290562352828,
-      "eval_mean_iou": 0.4881645281176414,
-      "eval_overall_accuracy": 0.9763290562352828,
-      "eval_runtime": 0.5496,
-      "eval_samples_per_second": 18.195,
-      "eval_steps_per_second": 3.639,
-      "step": 133
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9828934479372341,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9828934479372341,
-      "eval_loss": 0.11694834381341934,
-      "eval_mean_accuracy": 0.9828934479372341,
-      "eval_mean_iou": 0.49144672396861705,
-      "eval_overall_accuracy": 0.9828934479372341,
-      "eval_runtime": 0.5655,
-      "eval_samples_per_second": 17.684,
-      "eval_steps_per_second": 3.537,
-      "step": 140
     },
     {
-      "epoch": 21.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9816378592796099,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9816378592796099,
-      "eval_loss": 0.11534647643566132,
-      "eval_mean_accuracy": 0.9816378592796099,
-      "eval_mean_iou": 0.49081892963980495,
-      "eval_overall_accuracy": 0.9816378592796099,
-      "eval_runtime": 0.5715,
-      "eval_samples_per_second": 17.497,
-      "eval_steps_per_second": 3.499,
-      "step": 147
     },
     {
-      "epoch": 22.0,
-      "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9803834973817879,
-      "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9803834973817879,
-      "eval_loss": 0.11552004516124725,
-      "eval_mean_accuracy": 0.9803834973817879,
-      "eval_mean_iou": 0.49019174869089394,
-      "eval_overall_accuracy": 0.9803834973817879,
-      "eval_runtime": 0.5635,
-      "eval_samples_per_second": 17.745,
-      "eval_steps_per_second": 3.549,
-      "step": 154
     },
     {
       "epoch": 23.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9838576811418189,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9838576811418189,
-      "eval_loss": 0.11426303535699844,
-      "eval_mean_accuracy": 0.9838576811418189,
-      "eval_mean_iou": 0.49192884057090946,
-      "eval_overall_accuracy": 0.9838576811418189,
-      "eval_runtime": 0.5699,
-      "eval_samples_per_second": 17.546,
-      "eval_steps_per_second": 3.509,
-      "step": 161
     },
     {
       "epoch": 24.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9825499551925982,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9825499551925982,
-      "eval_loss": 0.11150294542312622,
-      "eval_mean_accuracy": 0.9825499551925982,
-      "eval_mean_iou": 0.4912749775962991,
-      "eval_overall_accuracy": 0.9825499551925982,
-      "eval_runtime": 0.5714,
-      "eval_samples_per_second": 17.502,
-      "eval_steps_per_second": 3.5,
-      "step": 168
     },
     {
       "epoch": 25.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9840711373474141,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9840711373474141,
-      "eval_loss": 0.11130404472351074,
-      "eval_mean_accuracy": 0.9840711373474141,
-      "eval_mean_iou": 0.49203556867370707,
-      "eval_overall_accuracy": 0.9840711373474141,
-      "eval_runtime": 0.571,
-      "eval_samples_per_second": 17.514,
-      "eval_steps_per_second": 3.503,
-      "step": 175
     },
     {
       "epoch": 26.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.984569201827136,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.984569201827136,
-      "eval_loss": 0.11055157333612442,
-      "eval_mean_accuracy": 0.984569201827136,
-      "eval_mean_iou": 0.492284600913568,
-      "eval_overall_accuracy": 0.984569201827136,
-      "eval_runtime": 0.5673,
-      "eval_samples_per_second": 17.626,
-      "eval_steps_per_second": 3.525,
-      "step": 182
     },
     {
       "epoch": 27.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9813649052236045,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9813649052236045,
-      "eval_loss": 0.10974361002445221,
-      "eval_mean_accuracy": 0.9813649052236045,
-      "eval_mean_iou": 0.49068245261180227,
-      "eval_overall_accuracy": 0.9813649052236045,
-      "eval_runtime": 0.5718,
-      "eval_samples_per_second": 17.49,
-      "eval_steps_per_second": 3.498,
-      "step": 189
     },
     {
       "epoch": 28.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9816317254805985,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9816317254805985,
-      "eval_loss": 0.1087288111448288,
-      "eval_mean_accuracy": 0.9816317254805985,
-      "eval_mean_iou": 0.49081586274029926,
-      "eval_overall_accuracy": 0.9816317254805985,
-      "eval_runtime": 0.5686,
-      "eval_samples_per_second": 17.588,
-      "eval_steps_per_second": 3.518,
-      "step": 196
     },
     {
       "epoch": 29.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9839582754456052,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9839582754456052,
-      "eval_loss": 0.10943397134542465,
-      "eval_mean_accuracy": 0.9839582754456052,
-      "eval_mean_iou": 0.4919791377228026,
-      "eval_overall_accuracy": 0.9839582754456052,
-      "eval_runtime": 0.5769,
-      "eval_samples_per_second": 17.334,
-      "eval_steps_per_second": 3.467,
-      "step": 203
     },
     {
       "epoch": 30.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9821169089823966,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9821169089823966,
-      "eval_loss": 0.10927335917949677,
-      "eval_mean_accuracy": 0.9821169089823966,
-      "eval_mean_iou": 0.4910584544911983,
-      "eval_overall_accuracy": 0.9821169089823966,
-      "eval_runtime": 0.5836,
-      "eval_samples_per_second": 17.134,
-      "eval_steps_per_second": 3.427,
-      "step": 210
     },
     {
       "epoch": 31.0,
       "eval_accuracy_background": NaN,
-      "eval_accuracy_crop": 0.9813661319834068,
       "eval_iou_background": 0.0,
-      "eval_iou_crop": 0.9813661319834068,
-      "eval_loss": 0.10906684398651123,
-      "eval_mean_accuracy": 0.9813661319834068,
-      "eval_mean_iou": 0.4906830659917034,
-      "eval_overall_accuracy": 0.9813661319834068,
-      "eval_runtime": 0.5612,
-      "eval_samples_per_second": 17.82,
-      "eval_steps_per_second": 3.564,
-      "step": 217
     },
     {
       "epoch": 31.0,
-      "step": 217,
-      "total_flos": 2.7711697679548416e+16,
-      "train_loss": 0.13814654548047325,
-      "train_runtime": 56.09,
-      "train_samples_per_second": 45.463,
-      "train_steps_per_second": 6.24
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 350,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
@@ -510,7 +2939,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7711697679548416e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 3136,
+  "best_metric": 0.031547412276268005,
+  "best_model_checkpoint": "trainer_output/checkpoint-3136",
   "epoch": 31.0,
   "eval_steps": 500,
+  "global_step": 3472,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.08928571428571429,
+      "grad_norm": 3.8557379245758057,
+      "learning_rate": 9.642857142857142e-07,
+      "loss": 0.6816142559051513,
+      "step": 10
+    },
+    {
+      "epoch": 0.17857142857142858,
+      "grad_norm": 3.225581645965576,
+      "learning_rate": 2.0357142857142854e-06,
+      "loss": 0.6753284454345703,
+      "step": 20
+    },
+    {
+      "epoch": 0.26785714285714285,
+      "grad_norm": 3.3916752338409424,
+      "learning_rate": 3.1071428571428574e-06,
+      "loss": 0.6572294235229492,
+      "step": 30
+    },
+    {
+      "epoch": 0.35714285714285715,
+      "grad_norm": 3.1908140182495117,
+      "learning_rate": 4.178571428571429e-06,
+      "loss": 0.6294420719146728,
+      "step": 40
+    },
+    {
+      "epoch": 0.44642857142857145,
+      "grad_norm": 3.2528390884399414,
+      "learning_rate": 5.25e-06,
+      "loss": 0.599831485748291,
+      "step": 50
+    },
+    {
+      "epoch": 0.5357142857142857,
+      "grad_norm": 3.5302326679229736,
+      "learning_rate": 6.321428571428571e-06,
+      "loss": 0.5708974838256836,
+      "step": 60
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 2.79587721824646,
+      "learning_rate": 7.392857142857144e-06,
+      "loss": 0.5135871887207031,
+      "step": 70
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 4.858798503875732,
+      "learning_rate": 8.464285714285714e-06,
+      "loss": 0.4814042091369629,
+      "step": 80
+    },
+    {
+      "epoch": 0.8035714285714286,
+      "grad_norm": 4.471372604370117,
+      "learning_rate": 9.535714285714285e-06,
+      "loss": 0.42376141548156737,
+      "step": 90
+    },
+    {
+      "epoch": 0.8928571428571429,
+      "grad_norm": 8.309593200683594,
+      "learning_rate": 1.0607142857142858e-05,
+      "loss": 0.38182663917541504,
+      "step": 100
+    },
+    {
+      "epoch": 0.9821428571428571,
+      "grad_norm": 3.653787851333618,
+      "learning_rate": 1.1678571428571428e-05,
+      "loss": 0.34406089782714844,
+      "step": 110
+    },
     {
       "epoch": 1.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9075536616025544,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9075536616025544,
+      "eval_loss": 0.3192317485809326,
+      "eval_mean_accuracy": 0.9075536616025544,
+      "eval_mean_iou": 0.4537768308012772,
+      "eval_overall_accuracy": 0.9075536616025544,
+      "eval_runtime": 2.9743,
+      "eval_samples_per_second": 53.121,
+      "eval_steps_per_second": 6.724,
+      "step": 112
+    },
+    {
+      "epoch": 1.0714285714285714,
+      "grad_norm": 2.3636298179626465,
+      "learning_rate": 1.275e-05,
+      "loss": 0.30661606788635254,
+      "step": 120
+    },
+    {
+      "epoch": 1.1607142857142858,
+      "grad_norm": 3.038577079772949,
+      "learning_rate": 1.3821428571428571e-05,
+      "loss": 0.28165109157562257,
+      "step": 130
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 3.8546829223632812,
+      "learning_rate": 1.4892857142857143e-05,
+      "loss": 0.25907297134399415,
+      "step": 140
+    },
+    {
+      "epoch": 1.3392857142857144,
+      "grad_norm": 9.457808494567871,
+      "learning_rate": 1.5964285714285715e-05,
+      "loss": 0.26601552963256836,
+      "step": 150
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 2.295485019683838,
+      "learning_rate": 1.7035714285714285e-05,
+      "loss": 0.2244504690170288,
+      "step": 160
+    },
+    {
+      "epoch": 1.5178571428571428,
+      "grad_norm": 6.717440128326416,
+      "learning_rate": 1.8107142857142858e-05,
+      "loss": 0.219054913520813,
+      "step": 170
+    },
+    {
+      "epoch": 1.6071428571428572,
+      "grad_norm": 4.504434108734131,
+      "learning_rate": 1.9178571428571428e-05,
+      "loss": 0.24574971199035645,
+      "step": 180
+    },
+    {
+      "epoch": 1.6964285714285714,
+      "grad_norm": 1.1810071468353271,
+      "learning_rate": 2.025e-05,
+      "loss": 0.21467392444610595,
+      "step": 190
+    },
+    {
+      "epoch": 1.7857142857142856,
+      "grad_norm": 1.1352955102920532,
+      "learning_rate": 2.1321428571428574e-05,
+      "loss": 0.2217036247253418,
+      "step": 200
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 1.265731930732727,
+      "learning_rate": 2.2392857142857144e-05,
+      "loss": 0.20138239860534668,
+      "step": 210
+    },
+    {
+      "epoch": 1.9642857142857144,
+      "grad_norm": 0.939220666885376,
+      "learning_rate": 2.3464285714285714e-05,
+      "loss": 0.1931793808937073,
+      "step": 220
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.953296767534817,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.953296767534817,
+      "eval_loss": 0.16540610790252686,
+      "eval_mean_accuracy": 0.953296767534817,
+      "eval_mean_iou": 0.4766483837674085,
+      "eval_overall_accuracy": 0.953296767534817,
+      "eval_runtime": 2.8317,
+      "eval_samples_per_second": 55.796,
+      "eval_steps_per_second": 7.063,
+      "step": 224
+    },
+    {
+      "epoch": 2.0535714285714284,
+      "grad_norm": 1.0644772052764893,
+      "learning_rate": 2.4535714285714287e-05,
+      "loss": 0.17932461500167846,
+      "step": 230
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 0.8396012187004089,
+      "learning_rate": 2.5607142857142857e-05,
+      "loss": 0.16240129470825196,
+      "step": 240
+    },
+    {
+      "epoch": 2.232142857142857,
+      "grad_norm": 1.3166414499282837,
+      "learning_rate": 2.6678571428571427e-05,
+      "loss": 0.16019959449768068,
+      "step": 250
+    },
+    {
+      "epoch": 2.3214285714285716,
+      "grad_norm": 3.3798294067382812,
+      "learning_rate": 2.7750000000000004e-05,
+      "loss": 0.17656837701797484,
+      "step": 260
+    },
+    {
+      "epoch": 2.4107142857142856,
+      "grad_norm": 5.347901821136475,
+      "learning_rate": 2.8821428571428574e-05,
+      "loss": 0.15246973037719727,
+      "step": 270
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.5275861024856567,
+      "learning_rate": 2.9892857142857143e-05,
+      "loss": 0.14279049634933472,
+      "step": 280
+    },
+    {
+      "epoch": 2.5892857142857144,
+      "grad_norm": 0.8905676603317261,
+      "learning_rate": 3.096428571428572e-05,
+      "loss": 0.14321218729019164,
+      "step": 290
+    },
+    {
+      "epoch": 2.678571428571429,
+      "grad_norm": 2.4979491233825684,
+      "learning_rate": 3.203571428571428e-05,
+      "loss": 0.1593823790550232,
+      "step": 300
+    },
+    {
+      "epoch": 2.767857142857143,
+      "grad_norm": 1.2453701496124268,
+      "learning_rate": 3.310714285714286e-05,
+      "loss": 0.1700187087059021,
+      "step": 310
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 1.2972664833068848,
+      "learning_rate": 3.417857142857143e-05,
+      "loss": 0.1301148295402527,
+      "step": 320
+    },
+    {
+      "epoch": 2.946428571428571,
+      "grad_norm": 1.0101618766784668,
+      "learning_rate": 3.525e-05,
+      "loss": 0.1221439003944397,
+      "step": 330
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9833679632032486,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9833679632032486,
+      "eval_loss": 0.10871721804141998,
+      "eval_mean_accuracy": 0.9833679632032486,
+      "eval_mean_iou": 0.4916839816016243,
+      "eval_overall_accuracy": 0.9833679632032486,
+      "eval_runtime": 2.9142,
+      "eval_samples_per_second": 54.218,
+      "eval_steps_per_second": 6.863,
+      "step": 336
+    },
+    {
+      "epoch": 3.0357142857142856,
+      "grad_norm": 1.796439528465271,
+      "learning_rate": 3.632142857142857e-05,
+      "loss": 0.137176251411438,
+      "step": 340
+    },
+    {
+      "epoch": 3.125,
+      "grad_norm": 0.8457680344581604,
+      "learning_rate": 3.739285714285714e-05,
+      "loss": 0.1158107876777649,
+      "step": 350
+    },
+    {
+      "epoch": 3.2142857142857144,
+      "grad_norm": 2.8401572704315186,
+      "learning_rate": 3.8464285714285716e-05,
+      "loss": 0.12093857526779175,
+      "step": 360
+    },
+    {
+      "epoch": 3.3035714285714284,
+      "grad_norm": 1.013384222984314,
+      "learning_rate": 3.953571428571429e-05,
+      "loss": 0.12637978792190552,
+      "step": 370
+    },
+    {
+      "epoch": 3.392857142857143,
+      "grad_norm": 0.5370813012123108,
+      "learning_rate": 4.060714285714286e-05,
+      "loss": 0.10660592317581177,
+      "step": 380
+    },
+    {
+      "epoch": 3.482142857142857,
+      "grad_norm": 1.2472691535949707,
+      "learning_rate": 4.167857142857143e-05,
+      "loss": 0.10735454559326171,
+      "step": 390
+    },
+    {
+      "epoch": 3.571428571428571,
+      "grad_norm": 1.1539782285690308,
+      "learning_rate": 4.275e-05,
+      "loss": 0.11610960960388184,
+      "step": 400
+    },
+    {
+      "epoch": 3.6607142857142856,
+      "grad_norm": 1.8085603713989258,
+      "learning_rate": 4.382142857142857e-05,
+      "loss": 0.10526725053787231,
+      "step": 410
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.9223119020462036,
+      "learning_rate": 4.489285714285714e-05,
+      "loss": 0.11005645990371704,
+      "step": 420
+    },
+    {
+      "epoch": 3.8392857142857144,
+      "grad_norm": 1.5103366374969482,
+      "learning_rate": 4.5964285714285715e-05,
+      "loss": 0.11329139471054077,
+      "step": 430
+    },
+    {
+      "epoch": 3.928571428571429,
+      "grad_norm": 0.6292778253555298,
+      "learning_rate": 4.703571428571429e-05,
+      "loss": 0.09105957746505737,
+      "step": 440
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9876855281238043,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9876855281238043,
+      "eval_loss": 0.07901168614625931,
+      "eval_mean_accuracy": 0.9876855281238043,
+      "eval_mean_iou": 0.49384276406190214,
+      "eval_overall_accuracy": 0.9876855281238043,
+      "eval_runtime": 2.7125,
+      "eval_samples_per_second": 58.25,
+      "eval_steps_per_second": 7.373,
+      "step": 448
+    },
+    {
+      "epoch": 4.017857142857143,
+      "grad_norm": 0.6558821797370911,
+      "learning_rate": 4.810714285714286e-05,
+      "loss": 0.09133996367454529,
+      "step": 450
+    },
+    {
+      "epoch": 4.107142857142857,
+      "grad_norm": 1.6711905002593994,
+      "learning_rate": 4.917857142857143e-05,
+      "loss": 0.10174686908721924,
+      "step": 460
+    },
+    {
+      "epoch": 4.196428571428571,
+      "grad_norm": 2.018960952758789,
+      "learning_rate": 5.025e-05,
+      "loss": 0.09205585718154907,
+      "step": 470
+    },
+    {
+      "epoch": 4.285714285714286,
+      "grad_norm": 50.46000671386719,
+      "learning_rate": 5.132142857142857e-05,
+      "loss": 0.10888168811798096,
+      "step": 480
+    },
+    {
+      "epoch": 4.375,
+      "grad_norm": 0.9871691465377808,
+      "learning_rate": 5.239285714285714e-05,
+      "loss": 0.08378286361694336,
+      "step": 490
+    },
+    {
+      "epoch": 4.464285714285714,
+      "grad_norm": 0.6257286667823792,
+      "learning_rate": 5.346428571428572e-05,
+      "loss": 0.0913639485836029,
+      "step": 500
+    },
+    {
+      "epoch": 4.553571428571429,
+      "grad_norm": 0.8016375303268433,
+      "learning_rate": 5.453571428571429e-05,
+      "loss": 0.07999799847602844,
+      "step": 510
+    },
+    {
+      "epoch": 4.642857142857143,
+      "grad_norm": 0.5836676955223083,
+      "learning_rate": 5.560714285714286e-05,
+      "loss": 0.08125409483909607,
+      "step": 520
+    },
+    {
+      "epoch": 4.732142857142857,
+      "grad_norm": 1.2597649097442627,
+      "learning_rate": 5.667857142857143e-05,
+      "loss": 0.08039544224739074,
+      "step": 530
+    },
+    {
+      "epoch": 4.821428571428571,
+      "grad_norm": 1.2847788333892822,
+      "learning_rate": 5.775e-05,
+      "loss": 0.08916983604431153,
+      "step": 540
+    },
+    {
+      "epoch": 4.910714285714286,
+      "grad_norm": 0.9415516257286072,
+      "learning_rate": 5.882142857142857e-05,
+      "loss": 0.10429003238677978,
+      "step": 550
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5063335299491882,
+      "learning_rate": 5.989285714285715e-05,
+      "loss": 0.08186570405960084,
+      "step": 560
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9878814396568312,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9878814396568312,
+      "eval_loss": 0.06904104351997375,
+      "eval_mean_accuracy": 0.9878814396568312,
+      "eval_mean_iou": 0.4939407198284156,
+      "eval_overall_accuracy": 0.9878814396568312,
+      "eval_runtime": 3.0003,
+      "eval_samples_per_second": 52.661,
+      "eval_steps_per_second": 6.666,
+      "step": 560
+    },
+    {
+      "epoch": 5.089285714285714,
+      "grad_norm": 0.5373165011405945,
+      "learning_rate": 5.999952792194596e-05,
+      "loss": 0.07785224318504333,
+      "step": 570
+    },
+    {
+      "epoch": 5.178571428571429,
+      "grad_norm": 0.9510135650634766,
+      "learning_rate": 5.999789606626562e-05,
+      "loss": 0.07345688343048096,
+      "step": 580
+    },
+    {
+      "epoch": 5.267857142857143,
+      "grad_norm": 1.5279783010482788,
+      "learning_rate": 5.99950986682241e-05,
+      "loss": 0.06729179620742798,
+      "step": 590
+    },
+    {
+      "epoch": 5.357142857142857,
+      "grad_norm": 1.3529927730560303,
+      "learning_rate": 5.999113583651189e-05,
+      "loss": 0.08162168264389039,
+      "step": 600
+    },
+    {
+      "epoch": 5.446428571428571,
+      "grad_norm": 1.327254295349121,
+      "learning_rate": 5.9986007725101386e-05,
+      "loss": 0.07359797358512879,
+      "step": 610
+    },
+    {
+      "epoch": 5.535714285714286,
+      "grad_norm": 0.4966494143009186,
+      "learning_rate": 5.997971453324095e-05,
+      "loss": 0.0773106873035431,
+      "step": 620
+    },
+    {
+      "epoch": 5.625,
+      "grad_norm": 0.6446207165718079,
+      "learning_rate": 5.99722565054471e-05,
+      "loss": 0.07839320302009582,
+      "step": 630
+    },
+    {
+      "epoch": 5.714285714285714,
+      "grad_norm": 0.7610587477684021,
+      "learning_rate": 5.996363393149509e-05,
+      "loss": 0.07593210339546204,
+      "step": 640
+    },
+    {
+      "epoch": 5.803571428571429,
+      "grad_norm": 1.1272836923599243,
+      "learning_rate": 5.995384714640757e-05,
+      "loss": 0.06654571890830993,
+      "step": 650
+    },
+    {
+      "epoch": 5.892857142857143,
+      "grad_norm": 0.5042524933815002,
+      "learning_rate": 5.994289653044164e-05,
+      "loss": 0.07975571155548096,
+      "step": 660
+    },
+    {
+      "epoch": 5.982142857142857,
+      "grad_norm": 4.140240669250488,
+      "learning_rate": 5.993078250907403e-05,
+      "loss": 0.07666034698486328,
+      "step": 670
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9830093526774664,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9830093526774664,
+      "eval_loss": 0.061506424099206924,
+      "eval_mean_accuracy": 0.9830093526774664,
+      "eval_mean_iou": 0.4915046763387332,
+      "eval_overall_accuracy": 0.9830093526774664,
+      "eval_runtime": 2.944,
+      "eval_samples_per_second": 53.668,
+      "eval_steps_per_second": 6.793,
+      "step": 672
+    },
+    {
+      "epoch": 6.071428571428571,
+      "grad_norm": 0.7206098437309265,
+      "learning_rate": 5.9917505552984576e-05,
+      "loss": 0.06902013421058655,
+      "step": 680
+    },
+    {
+      "epoch": 6.160714285714286,
+      "grad_norm": 1.2351000308990479,
+      "learning_rate": 5.990306617803795e-05,
+      "loss": 0.05894383192062378,
+      "step": 690
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 1.1752738952636719,
+      "learning_rate": 5.9887464945263616e-05,
+      "loss": 0.07300442457199097,
+      "step": 700
+    },
+    {
+      "epoch": 6.339285714285714,
+      "grad_norm": 0.981683611869812,
+      "learning_rate": 5.9870702460833996e-05,
+      "loss": 0.059693056344985965,
+      "step": 710
+    },
+    {
+      "epoch": 6.428571428571429,
+      "grad_norm": 0.7436693906784058,
+      "learning_rate": 5.985277937604096e-05,
+      "loss": 0.06866340637207032,
+      "step": 720
+    },
+    {
+      "epoch": 6.517857142857143,
+      "grad_norm": 1.3434826135635376,
+      "learning_rate": 5.98336963872705e-05,
+      "loss": 0.06829560995101928,
+      "step": 730
+    },
+    {
+      "epoch": 6.607142857142857,
+      "grad_norm": 1.620650291442871,
+      "learning_rate": 5.981345423597567e-05,
+      "loss": 0.07153741121292115,
+      "step": 740
+    },
+    {
+      "epoch": 6.696428571428571,
+      "grad_norm": 0.7191495895385742,
+      "learning_rate": 5.979205370864779e-05,
+      "loss": 0.06963455677032471,
+      "step": 750
+    },
+    {
+      "epoch": 6.785714285714286,
+      "grad_norm": 0.7973631620407104,
+      "learning_rate": 5.976949563678588e-05,
+      "loss": 0.06027047634124756,
+      "step": 760
+    },
+    {
+      "epoch": 6.875,
+      "grad_norm": 0.5273134708404541,
+      "learning_rate": 5.9745780896864355e-05,
+      "loss": 0.0732675313949585,
+      "step": 770
+    },
+    {
+      "epoch": 6.964285714285714,
+      "grad_norm": 0.604656457901001,
+      "learning_rate": 5.972091041029896e-05,
+      "loss": 0.05868455767631531,
+      "step": 780
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9931271595499084,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9931271595499084,
+      "eval_loss": 0.05674833059310913,
+      "eval_mean_accuracy": 0.9931271595499084,
+      "eval_mean_iou": 0.4965635797749542,
+      "eval_overall_accuracy": 0.9931271595499084,
+      "eval_runtime": 3.0117,
+      "eval_samples_per_second": 52.462,
+      "eval_steps_per_second": 6.641,
+      "step": 784
+    },
+    {
+      "epoch": 7.053571428571429,
+      "grad_norm": 0.8307970762252808,
+      "learning_rate": 5.969488514341099e-05,
+      "loss": 0.07459422945976257,
+      "step": 790
+    },
+    {
+      "epoch": 7.142857142857143,
+      "grad_norm": 1.0853644609451294,
+      "learning_rate": 5.966770610738974e-05,
+      "loss": 0.0645011305809021,
+      "step": 800
+    },
+    {
+      "epoch": 7.232142857142857,
+      "grad_norm": 0.9244274497032166,
+      "learning_rate": 5.963937435825317e-05,
+      "loss": 0.06278223395347596,
+      "step": 810
+    },
+    {
+      "epoch": 7.321428571428571,
+      "grad_norm": 0.41975638270378113,
+      "learning_rate": 5.960989099680696e-05,
+      "loss": 0.07071143388748169,
+      "step": 820
+    },
+    {
+      "epoch": 7.410714285714286,
+      "grad_norm": 6.377021789550781,
+      "learning_rate": 5.957925716860167e-05,
+      "loss": 0.07925635576248169,
+      "step": 830
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.6722206473350525,
+      "learning_rate": 5.954747406388824e-05,
+      "loss": 0.05784087181091309,
+      "step": 840
+    },
+    {
+      "epoch": 7.589285714285714,
+      "grad_norm": 0.7599735260009766,
+      "learning_rate": 5.951454291757181e-05,
+      "loss": 0.057936865091323855,
+      "step": 850
+    },
+    {
+      "epoch": 7.678571428571429,
+      "grad_norm": 3.0815391540527344,
+      "learning_rate": 5.948046500916361e-05,
+      "loss": 0.058241802453994754,
+      "step": 860
+    },
+    {
+      "epoch": 7.767857142857143,
+      "grad_norm": 0.495260626077652,
+      "learning_rate": 5.944524166273137e-05,
+      "loss": 0.06497417092323303,
+      "step": 870
+    },
+    {
+      "epoch": 7.857142857142857,
+      "grad_norm": 6.794797897338867,
+      "learning_rate": 5.940887424684782e-05,
+      "loss": 0.056178700923919675,
+      "step": 880
+    },
+    {
+      "epoch": 7.946428571428571,
+      "grad_norm": 6.307322025299072,
+      "learning_rate": 5.9371364174537516e-05,
+      "loss": 0.0702320694923401,
+      "step": 890
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9901745745169878,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9901745745169878,
+      "eval_loss": 0.05280046910047531,
+      "eval_mean_accuracy": 0.9901745745169878,
+      "eval_mean_iou": 0.4950872872584939,
+      "eval_overall_accuracy": 0.9901745745169878,
+      "eval_runtime": 2.9179,
+      "eval_samples_per_second": 54.148,
+      "eval_steps_per_second": 6.854,
+      "step": 896
+    },
+    {
+      "epoch": 8.035714285714286,
+      "grad_norm": 0.7515340447425842,
+      "learning_rate": 5.933271290322194e-05,
+      "loss": 0.052397555112838744,
+      "step": 900
+    },
+    {
+      "epoch": 8.125,
+      "grad_norm": 0.42601311206817627,
+      "learning_rate": 5.929292193466289e-05,
+      "loss": 0.05717085599899292,
+      "step": 910
+    },
+    {
+      "epoch": 8.214285714285714,
+      "grad_norm": 0.6402925252914429,
+      "learning_rate": 5.925199281490409e-05,
+      "loss": 0.058747094869613645,
+      "step": 920
+    },
+    {
+      "epoch": 8.303571428571429,
+      "grad_norm": 0.26283153891563416,
+      "learning_rate": 5.920992713421118e-05,
+      "loss": 0.05485116243362427,
+      "step": 930
+    },
+    {
+      "epoch": 8.392857142857142,
+      "grad_norm": 0.46475255489349365,
+      "learning_rate": 5.916672652700986e-05,
+      "loss": 0.05063185691833496,
+      "step": 940
+    },
+    {
+      "epoch": 8.482142857142858,
+      "grad_norm": 2.200343370437622,
+      "learning_rate": 5.9122392671822454e-05,
+      "loss": 0.08081663846969604,
+      "step": 950
+    },
+    {
+      "epoch": 8.571428571428571,
+      "grad_norm": 0.5008881092071533,
+      "learning_rate": 5.907692729120263e-05,
+      "loss": 0.05672701597213745,
+      "step": 960
+    },
+    {
+      "epoch": 8.660714285714286,
+      "grad_norm": 2.292283296585083,
+      "learning_rate": 5.903033215166852e-05,
+      "loss": 0.06471546292304993,
+      "step": 970
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.533957839012146,
+      "learning_rate": 5.898260906363405e-05,
+      "loss": 0.05705397725105286,
+      "step": 980
+    },
+    {
+      "epoch": 8.839285714285714,
+      "grad_norm": 0.5940226316452026,
+      "learning_rate": 5.8933759881338625e-05,
+      "loss": 0.05398256182670593,
+      "step": 990
+    },
+    {
+      "epoch": 8.928571428571429,
+      "grad_norm": 0.5625632405281067,
+      "learning_rate": 5.888378650277505e-05,
+      "loss": 0.07205897569656372,
+      "step": 1000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9925509530006958,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9925509530006958,
+      "eval_loss": 0.04721115529537201,
+      "eval_mean_accuracy": 0.9925509530006958,
+      "eval_mean_iou": 0.4962754765003479,
+      "eval_overall_accuracy": 0.9925509530006958,
+      "eval_runtime": 2.7374,
+      "eval_samples_per_second": 57.719,
+      "eval_steps_per_second": 7.306,
+      "step": 1008
+    },
+    {
+      "epoch": 9.017857142857142,
+      "grad_norm": 0.6849817037582397,
+      "learning_rate": 5.8832690869615824e-05,
+      "loss": 0.06163639426231384,
+      "step": 1010
+    },
+    {
+      "epoch": 9.107142857142858,
+      "grad_norm": 2.6270132064819336,
+      "learning_rate": 5.878047496713768e-05,
+      "loss": 0.062458640336990355,
+      "step": 1020
+    },
+    {
+      "epoch": 9.196428571428571,
+      "grad_norm": 0.5848487615585327,
+      "learning_rate": 5.8727140824144435e-05,
+      "loss": 0.050140655040740965,
+      "step": 1030
+    },
+    {
+      "epoch": 9.285714285714286,
+      "grad_norm": 0.5881223082542419,
+      "learning_rate": 5.8672690512888185e-05,
+      "loss": 0.04872486293315888,
+      "step": 1040
+    },
+    {
+      "epoch": 9.375,
+      "grad_norm": 0.5175314545631409,
+      "learning_rate": 5.8617126148988775e-05,
+      "loss": 0.05393059253692627,
+      "step": 1050
+    },
+    {
+      "epoch": 9.464285714285714,
+      "grad_norm": 0.5388718247413635,
+      "learning_rate": 5.856044989135162e-05,
+      "loss": 0.05378509163856506,
+      "step": 1060
+    },
+    {
+      "epoch": 9.553571428571429,
+      "grad_norm": 0.7882017493247986,
+      "learning_rate": 5.850266394208378e-05,
+      "loss": 0.05508067011833191,
+      "step": 1070
+    },
+    {
+      "epoch": 9.642857142857142,
+      "grad_norm": 0.5831130146980286,
+      "learning_rate": 5.844377054640846e-05,
+      "loss": 0.058400028944015504,
+      "step": 1080
+    },
+    {
+      "epoch": 9.732142857142858,
+      "grad_norm": 0.5646218061447144,
+      "learning_rate": 5.83837719925777e-05,
+      "loss": 0.057682907581329344,
+      "step": 1090
+    },
+    {
+      "epoch": 9.821428571428571,
+      "grad_norm": 0.5052318572998047,
+      "learning_rate": 5.8322670611783533e-05,
+      "loss": 0.05281335711479187,
+      "step": 1100
+    },
+    {
+      "epoch": 9.910714285714286,
+      "grad_norm": 2.669673442840576,
+      "learning_rate": 5.826046877806737e-05,
+      "loss": 0.06983570456504821,
+      "step": 1110
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8678598403930664,
+      "learning_rate": 5.819716890822778e-05,
+      "loss": 0.05837845802307129,
+      "step": 1120
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9885634887262204,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9885634887262204,
+      "eval_loss": 0.04555648937821388,
+      "eval_mean_accuracy": 0.9885634887262204,
+      "eval_mean_iou": 0.4942817443631102,
+      "eval_overall_accuracy": 0.9885634887262204,
+      "eval_runtime": 3.0054,
+      "eval_samples_per_second": 52.572,
+      "eval_steps_per_second": 6.655,
+      "step": 1120
+    },
+    {
+      "epoch": 10.089285714285714,
+      "grad_norm": 0.37110546231269836,
+      "learning_rate": 5.813277346172658e-05,
+      "loss": 0.051103079319000246,
+      "step": 1130
+    },
+    {
+      "epoch": 10.178571428571429,
+      "grad_norm": 0.5912280082702637,
+      "learning_rate": 5.806728494059325e-05,
+      "loss": 0.05452332496643066,
+      "step": 1140
+    },
+    {
+      "epoch": 10.267857142857142,
+      "grad_norm": 0.5489232540130615,
+      "learning_rate": 5.8000705889327764e-05,
+      "loss": 0.04994096159934998,
+      "step": 1150
+    },
+    {
+      "epoch": 10.357142857142858,
+      "grad_norm": 0.6008930802345276,
+      "learning_rate": 5.79330388948017e-05,
+      "loss": 0.05052735209465027,
+      "step": 1160
+    },
+    {
+      "epoch": 10.446428571428571,
+      "grad_norm": 1.840732216835022,
+      "learning_rate": 5.7864286586157726e-05,
+      "loss": 0.06240517497062683,
+      "step": 1170
+    },
+    {
+      "epoch": 10.535714285714286,
+      "grad_norm": 1.470214605331421,
+      "learning_rate": 5.779445163470746e-05,
+      "loss": 0.0592936098575592,
+      "step": 1180
+    },
+    {
+      "epoch": 10.625,
+      "grad_norm": 0.6500412225723267,
+      "learning_rate": 5.772353675382766e-05,
+      "loss": 0.05937170386314392,
+      "step": 1190
+    },
+    {
+      "epoch": 10.714285714285714,
+      "grad_norm": 0.5075401067733765,
+      "learning_rate": 5.765154469885482e-05,
+      "loss": 0.05477588176727295,
+      "step": 1200
+    },
+    {
+      "epoch": 10.803571428571429,
+      "grad_norm": 0.4489869475364685,
+      "learning_rate": 5.75784782669781e-05,
+      "loss": 0.052497631311416625,
+      "step": 1210
+    },
+    {
+      "epoch": 10.892857142857142,
+      "grad_norm": 0.36442920565605164,
+      "learning_rate": 5.7504340297130654e-05,
+      "loss": 0.04916231036186218,
+      "step": 1220
+    },
+    {
+      "epoch": 10.982142857142858,
+      "grad_norm": 0.6849750280380249,
+      "learning_rate": 5.742913366987931e-05,
+      "loss": 0.049684223532676694,
+      "step": 1230
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9846125027285229,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9846125027285229,
+      "eval_loss": 0.046123143285512924,
+      "eval_mean_accuracy": 0.9846125027285229,
+      "eval_mean_iou": 0.4923062513642614,
+      "eval_overall_accuracy": 0.9846125027285229,
+      "eval_runtime": 3.0223,
+      "eval_samples_per_second": 52.277,
+      "eval_steps_per_second": 6.617,
+      "step": 1232
+    },
+    {
+      "epoch": 11.071428571428571,
+      "grad_norm": 0.8517962694168091,
+      "learning_rate": 5.735286130731266e-05,
+      "loss": 0.05337802767753601,
+      "step": 1240
+    },
+    {
+      "epoch": 11.160714285714286,
+      "grad_norm": 0.6715455651283264,
+      "learning_rate": 5.7275526172927524e-05,
+      "loss": 0.048662295937538146,
+      "step": 1250
+    },
+    {
+      "epoch": 11.25,
+      "grad_norm": 0.3921019434928894,
+      "learning_rate": 5.71971312715138e-05,
+      "loss": 0.04557131230831146,
+      "step": 1260
+    },
+    {
+      "epoch": 11.339285714285714,
+      "grad_norm": 0.483750581741333,
+      "learning_rate": 5.711767964903773e-05,
+      "loss": 0.04757522642612457,
+      "step": 1270
+    },
+    {
+      "epoch": 11.428571428571429,
+      "grad_norm": 0.7710545659065247,
+      "learning_rate": 5.7037174392523523e-05,
+      "loss": 0.047087058424949646,
+      "step": 1280
+    },
+    {
+      "epoch": 11.517857142857142,
+      "grad_norm": 0.37820592522621155,
+      "learning_rate": 5.695561862993344e-05,
+      "loss": 0.048029109835624695,
+      "step": 1290
+    },
+    {
+      "epoch": 11.607142857142858,
+      "grad_norm": 0.6186622381210327,
+      "learning_rate": 5.687301553004625e-05,
+      "loss": 0.047535371780395505,
+      "step": 1300
+    },
+    {
+      "epoch": 11.696428571428571,
+      "grad_norm": 0.5598060488700867,
+      "learning_rate": 5.6789368302334114e-05,
+      "loss": 0.05121754407882691,
+      "step": 1310
+    },
+    {
+      "epoch": 11.785714285714286,
+      "grad_norm": 0.561314046382904,
+      "learning_rate": 5.670468019683786e-05,
+      "loss": 0.05645138621330261,
+      "step": 1320
+    },
+    {
+      "epoch": 11.875,
+      "grad_norm": 0.6395533084869385,
+      "learning_rate": 5.661895450404073e-05,
+      "loss": 0.0467525452375412,
+      "step": 1330
+    },
+    {
+      "epoch": 11.964285714285714,
+      "grad_norm": 0.5530456900596619,
+      "learning_rate": 5.653219455474054e-05,
+      "loss": 0.045705351233482364,
+      "step": 1340
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.989719690078993,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.989719690078993,
+      "eval_loss": 0.04115651547908783,
+      "eval_mean_accuracy": 0.989719690078993,
+      "eval_mean_iou": 0.4948598450394965,
+      "eval_overall_accuracy": 0.989719690078993,
+      "eval_runtime": 3.0939,
+      "eval_samples_per_second": 51.068,
+      "eval_steps_per_second": 6.464,
+      "step": 1344
+    },
+    {
+      "epoch": 12.053571428571429,
+      "grad_norm": 1.8075008392333984,
+      "learning_rate": 5.6444403719920244e-05,
+      "loss": 0.052634036540985106,
+      "step": 1350
+    },
+    {
+      "epoch": 12.142857142857142,
+      "grad_norm": 0.48487862944602966,
+      "learning_rate": 5.6355585410616946e-05,
+      "loss": 0.049199795722961424,
+      "step": 1360
+    },
+    {
+      "epoch": 12.232142857142858,
+      "grad_norm": 0.39370134472846985,
+      "learning_rate": 5.62657430777894e-05,
+      "loss": 0.04954089820384979,
+      "step": 1370
+    },
+    {
+      "epoch": 12.321428571428571,
+      "grad_norm": 0.506334125995636,
+      "learning_rate": 5.617488021218392e-05,
+      "loss": 0.04321627914905548,
+      "step": 1380
+    },
+    {
+      "epoch": 12.410714285714286,
+      "grad_norm": 5.954123497009277,
+      "learning_rate": 5.608300034419871e-05,
+      "loss": 0.04836023449897766,
+      "step": 1390
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 1.2410942316055298,
+      "learning_rate": 5.599010704374675e-05,
+      "loss": 0.05898294448852539,
+      "step": 1400
+    },
+    {
+      "epoch": 12.589285714285714,
+      "grad_norm": 0.4779500663280487,
+      "learning_rate": 5.589620392011705e-05,
+      "loss": 0.05050513744354248,
+      "step": 1410
+    },
+    {
+      "epoch": 12.678571428571429,
+      "grad_norm": 0.5010945200920105,
+      "learning_rate": 5.580129462183444e-05,
+      "loss": 0.04861049056053161,
+      "step": 1420
+    },
+    {
+      "epoch": 12.767857142857142,
+      "grad_norm": 0.48076826333999634,
+      "learning_rate": 5.570538283651778e-05,
+      "loss": 0.04385300576686859,
+      "step": 1430
+    },
+    {
+      "epoch": 12.857142857142858,
+      "grad_norm": 1.7484421730041504,
+      "learning_rate": 5.560847229073673e-05,
+      "loss": 0.045589962601661684,
+      "step": 1440
+    },
+    {
+      "epoch": 12.946428571428571,
+      "grad_norm": 0.427366703748703,
+      "learning_rate": 5.551056674986689e-05,
+      "loss": 0.043353271484375,
+      "step": 1450
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9826174642966825,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9826174642966825,
+      "eval_loss": 0.043881695717573166,
+      "eval_mean_accuracy": 0.9826174642966825,
+      "eval_mean_iou": 0.49130873214834125,
+      "eval_overall_accuracy": 0.9826174642966825,
+      "eval_runtime": 2.9379,
+      "eval_samples_per_second": 53.781,
+      "eval_steps_per_second": 6.808,
+      "step": 1456
+    },
+    {
+      "epoch": 13.035714285714286,
+      "grad_norm": 0.42547234892845154,
+      "learning_rate": 5.541167001794355e-05,
+      "loss": 0.04653339684009552,
+      "step": 1460
+    },
+    {
+      "epoch": 13.125,
+      "grad_norm": 1.528548240661621,
+      "learning_rate": 5.5311785937513874e-05,
+      "loss": 0.05608900785446167,
+      "step": 1470
+    },
+    {
+      "epoch": 13.214285714285714,
+      "grad_norm": 0.4457738697528839,
+      "learning_rate": 5.52109183894876e-05,
+      "loss": 0.059543901681900026,
+      "step": 1480
+    },
+    {
+      "epoch": 13.303571428571429,
+      "grad_norm": 0.49768733978271484,
+      "learning_rate": 5.5109071292986255e-05,
+      "loss": 0.04307846426963806,
+      "step": 1490
+    },
+    {
+      "epoch": 13.392857142857142,
+      "grad_norm": 0.7957088947296143,
+      "learning_rate": 5.5006248605190865e-05,
+      "loss": 0.044287821650505065,
+      "step": 1500
+    },
+    {
+      "epoch": 13.482142857142858,
+      "grad_norm": 1.2183270454406738,
+      "learning_rate": 5.4902454321188225e-05,
+      "loss": 0.051915484666824344,
+      "step": 1510
+    },
+    {
+      "epoch": 13.571428571428571,
+      "grad_norm": 0.6293231844902039,
+      "learning_rate": 5.479769247381566e-05,
+      "loss": 0.04854446053504944,
+      "step": 1520
+    },
+    {
+      "epoch": 13.660714285714286,
+      "grad_norm": 1.2755926847457886,
+      "learning_rate": 5.4691967133504326e-05,
+      "loss": 0.04123209118843078,
+      "step": 1530
+    },
+    {
+      "epoch": 13.75,
+      "grad_norm": 2.51806902885437,
+      "learning_rate": 5.458528240812107e-05,
+      "loss": 0.03861163854598999,
+      "step": 1540
+    },
+    {
+      "epoch": 13.839285714285714,
+      "grad_norm": 0.8342931866645813,
+      "learning_rate": 5.447764244280884e-05,
+      "loss": 0.040318438410758974,
+      "step": 1550
+    },
+    {
+      "epoch": 13.928571428571429,
+      "grad_norm": 0.8169878721237183,
+      "learning_rate": 5.436905141982555e-05,
+      "loss": 0.04462582468986511,
+      "step": 1560
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9911679135901796,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9911679135901796,
+      "eval_loss": 0.039208244532346725,
+      "eval_mean_accuracy": 0.9911679135901796,
+      "eval_mean_iou": 0.4955839567950898,
+      "eval_overall_accuracy": 0.9911679135901796,
+      "eval_runtime": 3.0531,
+      "eval_samples_per_second": 51.75,
+      "eval_steps_per_second": 6.551,
+      "step": 1568
+    },
+    {
+      "epoch": 14.017857142857142,
+      "grad_norm": 0.7766092419624329,
+      "learning_rate": 5.425951355838171e-05,
+      "loss": 0.04226122498512268,
+      "step": 1570
+    },
+    {
+      "epoch": 14.107142857142858,
+      "grad_norm": 0.4140777289867401,
+      "learning_rate": 5.4149033114476364e-05,
+      "loss": 0.04467975795269012,
+      "step": 1580
+    },
+    {
+      "epoch": 14.196428571428571,
+      "grad_norm": 0.3999497890472412,
+      "learning_rate": 5.403761438073182e-05,
+      "loss": 0.04339445829391479,
+      "step": 1590
+    },
+    {
+      "epoch": 14.285714285714286,
+      "grad_norm": 0.8008416295051575,
+      "learning_rate": 5.3925261686226815e-05,
+      "loss": 0.05217031836509704,
+      "step": 1600
+    },
+    {
+      "epoch": 14.375,
+      "grad_norm": 2.7172493934631348,
+      "learning_rate": 5.381197939632832e-05,
+      "loss": 0.04263331294059754,
+      "step": 1610
+    },
+    {
+      "epoch": 14.464285714285714,
+      "grad_norm": 0.6547873020172119,
+      "learning_rate": 5.369777191252192e-05,
+      "loss": 0.05247880220413208,
+      "step": 1620
+    },
+    {
+      "epoch": 14.553571428571429,
+      "grad_norm": 0.6842551231384277,
+      "learning_rate": 5.358264367224087e-05,
+      "loss": 0.05042397975921631,
+      "step": 1630
+    },
+    {
+      "epoch": 14.642857142857142,
+      "grad_norm": 1.2150946855545044,
+      "learning_rate": 5.3466599148693555e-05,
+      "loss": 0.04526909589767456,
+      "step": 1640
+    },
+    {
+      "epoch": 14.732142857142858,
+      "grad_norm": 0.5076019167900085,
+      "learning_rate": 5.334964285068978e-05,
+      "loss": 0.03987755477428436,
+      "step": 1650
+    },
+    {
+      "epoch": 14.821428571428571,
+      "grad_norm": 0.6672298312187195,
+      "learning_rate": 5.323177932246557e-05,
+      "loss": 0.04106619358062744,
+      "step": 1660
+    },
+    {
+      "epoch": 14.910714285714286,
+      "grad_norm": 0.3978811800479889,
+      "learning_rate": 5.3113013143506585e-05,
+      "loss": 0.04549790918827057,
+      "step": 1670
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.47571638226509094,
+      "learning_rate": 5.2993348928370205e-05,
+      "loss": 0.038185352087020875,
+      "step": 1680
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.990131728054022,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.990131728054022,
+      "eval_loss": 0.03857123851776123,
+      "eval_mean_accuracy": 0.990131728054022,
+      "eval_mean_iou": 0.495065864027011,
+      "eval_overall_accuracy": 0.990131728054022,
+      "eval_runtime": 3.0612,
+      "eval_samples_per_second": 51.614,
+      "eval_steps_per_second": 6.533,
+      "step": 1680
+    },
+    {
+      "epoch": 15.089285714285714,
+      "grad_norm": 0.2717653810977936,
+      "learning_rate": 5.287279132650623e-05,
+      "loss": 0.04243052005767822,
+      "step": 1690
+    },
+    {
+      "epoch": 15.178571428571429,
+      "grad_norm": 0.3326401114463806,
+      "learning_rate": 5.2751345022076234e-05,
+      "loss": 0.04564810693264008,
+      "step": 1700
+    },
+    {
+      "epoch": 15.267857142857142,
+      "grad_norm": 0.6448010206222534,
+      "learning_rate": 5.2629014733771556e-05,
+      "loss": 0.0418038010597229,
+      "step": 1710
+    },
+    {
+      "epoch": 15.357142857142858,
+      "grad_norm": 0.7541269063949585,
+      "learning_rate": 5.2505805214629965e-05,
+      "loss": 0.04016555547714233,
+      "step": 1720
+    },
+    {
+      "epoch": 15.446428571428571,
+      "grad_norm": 0.7917662858963013,
+      "learning_rate": 5.238172125185099e-05,
+      "loss": 0.04471434354782104,
+      "step": 1730
+    },
+    {
+      "epoch": 15.535714285714286,
+      "grad_norm": 0.6210289597511292,
+      "learning_rate": 5.225676766660991e-05,
+      "loss": 0.055022013187408444,
+      "step": 1740
+    },
+    {
+      "epoch": 15.625,
+      "grad_norm": 2.337747573852539,
+      "learning_rate": 5.213094931387043e-05,
+      "loss": 0.04332290589809418,
+      "step": 1750
+    },
+    {
+      "epoch": 15.714285714285714,
+      "grad_norm": 0.42642977833747864,
+      "learning_rate": 5.2004271082196064e-05,
+      "loss": 0.045270109176635744,
+      "step": 1760
+    },
+    {
+      "epoch": 15.803571428571429,
+      "grad_norm": 0.7099291086196899,
+      "learning_rate": 5.187673789356017e-05,
+      "loss": 0.04130145311355591,
+      "step": 1770
+    },
+    {
+      "epoch": 15.892857142857142,
+      "grad_norm": 1.1658573150634766,
+      "learning_rate": 5.1748354703154706e-05,
+      "loss": 0.04182874262332916,
+      "step": 1780
+    },
+    {
+      "epoch": 15.982142857142858,
+      "grad_norm": 0.7343374490737915,
+      "learning_rate": 5.1619126499197756e-05,
+      "loss": 0.050484257936477664,
+      "step": 1790
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9876005863172694,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9876005863172694,
+      "eval_loss": 0.03842361643910408,
+      "eval_mean_accuracy": 0.9876005863172694,
+      "eval_mean_iou": 0.4938002931586347,
+      "eval_overall_accuracy": 0.9876005863172694,
+      "eval_runtime": 3.0712,
+      "eval_samples_per_second": 51.445,
+      "eval_steps_per_second": 6.512,
+      "step": 1792
+    },
+    {
+      "epoch": 16.071428571428573,
+      "grad_norm": 0.5877286195755005,
+      "learning_rate": 5.148905830273964e-05,
+      "loss": 0.041926702857017516,
+      "step": 1800
+    },
+    {
+      "epoch": 16.160714285714285,
+      "grad_norm": 0.48742395639419556,
+      "learning_rate": 5.1358155167467856e-05,
+      "loss": 0.03949595093727112,
+      "step": 1810
+    },
+    {
+      "epoch": 16.25,
+      "grad_norm": 1.2525714635849,
+      "learning_rate": 5.1226422179510766e-05,
+      "loss": 0.04167908430099487,
+      "step": 1820
+    },
+    {
+      "epoch": 16.339285714285715,
+      "grad_norm": 0.5192835330963135,
+      "learning_rate": 5.1093864457239915e-05,
+      "loss": 0.033201786875724795,
+      "step": 1830
+    },
+    {
+      "epoch": 16.428571428571427,
+      "grad_norm": 0.9939844012260437,
+      "learning_rate": 5.09604871510712e-05,
+      "loss": 0.03947860598564148,
+      "step": 1840
+    },
+    {
+      "epoch": 16.517857142857142,
+      "grad_norm": 1.5072020292282104,
+      "learning_rate": 5.082629544326473e-05,
+      "loss": 0.05528724193572998,
+      "step": 1850
+    },
+    {
+      "epoch": 16.607142857142858,
+      "grad_norm": 0.7365301847457886,
+      "learning_rate": 5.06912945477235e-05,
+      "loss": 0.043210464715957644,
+      "step": 1860
+    },
+    {
+      "epoch": 16.696428571428573,
+      "grad_norm": 0.8447665572166443,
+      "learning_rate": 5.055548970979077e-05,
+      "loss": 0.04215908646583557,
+      "step": 1870
+    },
+    {
+      "epoch": 16.785714285714285,
+      "grad_norm": 0.3448689877986908,
+      "learning_rate": 5.041888620604634e-05,
+      "loss": 0.03883134722709656,
+      "step": 1880
+    },
+    {
+      "epoch": 16.875,
+      "grad_norm": 0.6089737415313721,
+      "learning_rate": 5.0281489344101436e-05,
+      "loss": 0.03787195086479187,
+      "step": 1890
+    },
+    {
+      "epoch": 16.964285714285715,
+      "grad_norm": 0.6740463376045227,
+      "learning_rate": 5.014330446239254e-05,
+      "loss": 0.04284785091876984,
+      "step": 1900
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9915463471365565,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9915463471365565,
+      "eval_loss": 0.037589624524116516,
+      "eval_mean_accuracy": 0.9915463471365565,
+      "eval_mean_iou": 0.49577317356827827,
+      "eval_overall_accuracy": 0.9915463471365565,
+      "eval_runtime": 3.0245,
+      "eval_samples_per_second": 52.24,
+      "eval_steps_per_second": 6.613,
+      "step": 1904
+    },
+    {
+      "epoch": 17.053571428571427,
+      "grad_norm": 0.7509936690330505,
+      "learning_rate": 5.0004336929973956e-05,
+      "loss": 0.041979506611824036,
+      "step": 1910
+    },
+    {
+      "epoch": 17.142857142857142,
+      "grad_norm": 0.32039907574653625,
+      "learning_rate": 4.9864592146309236e-05,
+      "loss": 0.037435659766197206,
+      "step": 1920
+    },
+    {
+      "epoch": 17.232142857142858,
+      "grad_norm": 0.3956466019153595,
+      "learning_rate": 4.972407554106134e-05,
+      "loss": 0.03932808339595795,
+      "step": 1930
+    },
+    {
+      "epoch": 17.321428571428573,
+      "grad_norm": 1.3979250192642212,
+      "learning_rate": 4.9582792573881675e-05,
+      "loss": 0.03790992498397827,
+      "step": 1940
+    },
+    {
+      "epoch": 17.410714285714285,
+      "grad_norm": 0.6395172476768494,
+      "learning_rate": 4.9440748734197995e-05,
+      "loss": 0.040737342834472653,
+      "step": 1950
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 0.6578762531280518,
+      "learning_rate": 4.929794954100111e-05,
+      "loss": 0.05057079792022705,
+      "step": 1960
+    },
+    {
+      "epoch": 17.589285714285715,
+      "grad_norm": 0.4035310447216034,
+      "learning_rate": 4.9154400542630405e-05,
+      "loss": 0.0387555181980133,
+      "step": 1970
+    },
+    {
+      "epoch": 17.678571428571427,
+      "grad_norm": 0.7770476937294006,
+      "learning_rate": 4.901010731655833e-05,
+      "loss": 0.05004802942276001,
+      "step": 1980
+    },
+    {
+      "epoch": 17.767857142857142,
+      "grad_norm": 0.33488115668296814,
+      "learning_rate": 4.886507546917364e-05,
+      "loss": 0.03468941748142242,
+      "step": 1990
+    },
+    {
+      "epoch": 17.857142857142858,
+      "grad_norm": 1.043879747390747,
+      "learning_rate": 4.871931063556361e-05,
+      "loss": 0.03456276059150696,
+      "step": 2000
+    },
+    {
+      "epoch": 17.946428571428573,
+      "grad_norm": 0.5629176497459412,
+      "learning_rate": 4.857281847929503e-05,
+      "loss": 0.03992201685905457,
+      "step": 2010
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9935051685505394,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9935051685505394,
+      "eval_loss": 0.03782728314399719,
+      "eval_mean_accuracy": 0.9935051685505394,
+      "eval_mean_iou": 0.4967525842752697,
+      "eval_overall_accuracy": 0.9935051685505394,
+      "eval_runtime": 3.0535,
+      "eval_samples_per_second": 51.743,
+      "eval_steps_per_second": 6.55,
+      "step": 2016
+    },
+    {
+      "epoch": 18.035714285714285,
+      "grad_norm": 0.49745577573776245,
+      "learning_rate": 4.842560469219418e-05,
+      "loss": 0.03500471413135529,
+      "step": 2020
+    },
+    {
+      "epoch": 18.125,
+      "grad_norm": 0.3892662823200226,
+      "learning_rate": 4.827767499412573e-05,
+      "loss": 0.04509434998035431,
+      "step": 2030
+    },
+    {
+      "epoch": 18.214285714285715,
+      "grad_norm": 0.5340210795402527,
+      "learning_rate": 4.8129035132770424e-05,
+      "loss": 0.037505635619163515,
+      "step": 2040
+    },
+    {
+      "epoch": 18.303571428571427,
+      "grad_norm": 0.7810007929801941,
+      "learning_rate": 4.797969088340177e-05,
+      "loss": 0.03453816473484039,
+      "step": 2050
+    },
+    {
+      "epoch": 18.392857142857142,
+      "grad_norm": 0.40375658869743347,
+      "learning_rate": 4.782964804866168e-05,
+      "loss": 0.034946095943450925,
+      "step": 2060
+    },
+    {
+      "epoch": 18.482142857142858,
+      "grad_norm": 0.9247459173202515,
+      "learning_rate": 4.7678912458335025e-05,
+      "loss": 0.042270198464393616,
+      "step": 2070
+    },
+    {
+      "epoch": 18.571428571428573,
+      "grad_norm": 0.5613836646080017,
+      "learning_rate": 4.7527489969123035e-05,
+      "loss": 0.046764728426933286,
+      "step": 2080
+    },
+    {
+      "epoch": 18.660714285714285,
+      "grad_norm": 0.7595559358596802,
+      "learning_rate": 4.737538646441587e-05,
+      "loss": 0.03731357157230377,
+      "step": 2090
+    },
+    {
+      "epoch": 18.75,
+      "grad_norm": 0.5450816750526428,
+      "learning_rate": 4.722260785406391e-05,
+      "loss": 0.033361345529556274,
+      "step": 2100
+    },
+    {
+      "epoch": 18.839285714285715,
+      "grad_norm": 0.7502261996269226,
+      "learning_rate": 4.706916007414821e-05,
+      "loss": 0.03699990510940552,
+      "step": 2110
+    },
+    {
+      "epoch": 18.928571428571427,
+      "grad_norm": 0.5962216258049011,
+      "learning_rate": 4.691504908674982e-05,
+      "loss": 0.04114469587802887,
+      "step": 2120
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9930615509034921,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9930615509034921,
+      "eval_loss": 0.03624404966831207,
+      "eval_mean_accuracy": 0.9930615509034921,
+      "eval_mean_iou": 0.49653077545174606,
+      "eval_overall_accuracy": 0.9930615509034921,
+      "eval_runtime": 3.0255,
+      "eval_samples_per_second": 52.222,
+      "eval_steps_per_second": 6.61,
+      "step": 2128
+    },
+    {
+      "epoch": 19.017857142857142,
+      "grad_norm": 0.5726694464683533,
+      "learning_rate": 4.6760280879718145e-05,
+      "loss": 0.0424151748418808,
+      "step": 2130
+    },
+    {
+      "epoch": 19.107142857142858,
+      "grad_norm": 0.427231103181839,
+      "learning_rate": 4.660486146643829e-05,
+      "loss": 0.03596234023571014,
+      "step": 2140
+    },
+    {
+      "epoch": 19.196428571428573,
+      "grad_norm": 0.8328455090522766,
+      "learning_rate": 4.644879688559742e-05,
+      "loss": 0.03744333386421204,
+      "step": 2150
+    },
+    {
+      "epoch": 19.285714285714285,
+      "grad_norm": 1.5539644956588745,
+      "learning_rate": 4.629209320095013e-05,
+      "loss": 0.0406249076128006,
+      "step": 2160
+    },
+    {
+      "epoch": 19.375,
+      "grad_norm": 0.6361938118934631,
+      "learning_rate": 4.613475650108284e-05,
+      "loss": 0.031757774949073794,
+      "step": 2170
+    },
+    {
+      "epoch": 19.464285714285715,
+      "grad_norm": 0.8525363206863403,
+      "learning_rate": 4.5976792899177225e-05,
+      "loss": 0.03693184554576874,
+      "step": 2180
+    },
+    {
+      "epoch": 19.553571428571427,
+      "grad_norm": 0.7391433119773865,
+      "learning_rate": 4.58182085327727e-05,
+      "loss": 0.04330868422985077,
+      "step": 2190
+    },
+    {
+      "epoch": 19.642857142857142,
+      "grad_norm": 0.6096112728118896,
+      "learning_rate": 4.5659009563527966e-05,
+      "loss": 0.03502139449119568,
+      "step": 2200
+    },
+    {
+      "epoch": 19.732142857142858,
+      "grad_norm": 0.3869408667087555,
+      "learning_rate": 4.549920217698156e-05,
+      "loss": 0.03480882942676544,
+      "step": 2210
+    },
+    {
+      "epoch": 19.821428571428573,
+      "grad_norm": 0.3466554582118988,
+      "learning_rate": 4.533879258231156e-05,
+      "loss": 0.03397489786148071,
+      "step": 2220
+    },
+    {
+      "epoch": 19.910714285714285,
+      "grad_norm": 0.36381736397743225,
+      "learning_rate": 4.5177787012094334e-05,
+      "loss": 0.03915996253490448,
+      "step": 2230
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.7442002296447754,
+      "learning_rate": 4.5016191722062336e-05,
+      "loss": 0.03927949965000153,
+      "step": 2240
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9904135937719009,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9904135937719009,
+      "eval_loss": 0.03683866560459137,
+      "eval_mean_accuracy": 0.9904135937719009,
+      "eval_mean_iou": 0.49520679688595043,
+      "eval_overall_accuracy": 0.9904135937719009,
+      "eval_runtime": 3.0653,
+      "eval_samples_per_second": 51.545,
+      "eval_steps_per_second": 6.525,
+      "step": 2240
+    },
+    {
+      "epoch": 20.089285714285715,
+      "grad_norm": 0.4780272841453552,
+      "learning_rate": 4.48540129908611e-05,
+      "loss": 0.03244779407978058,
+      "step": 2250
+    },
+    {
+      "epoch": 20.178571428571427,
+      "grad_norm": 0.3333284854888916,
+      "learning_rate": 4.469125711980525e-05,
+      "loss": 0.029617232084274293,
+      "step": 2260
+    },
+    {
+      "epoch": 20.267857142857142,
+      "grad_norm": 0.9565725326538086,
+      "learning_rate": 4.452793043263369e-05,
+      "loss": 0.035322767496109006,
+      "step": 2270
+    },
+    {
+      "epoch": 20.357142857142858,
+      "grad_norm": 1.396414875984192,
+      "learning_rate": 4.4364039275263886e-05,
+      "loss": 0.03092261254787445,
+      "step": 2280
+    },
+    {
+      "epoch": 20.446428571428573,
+      "grad_norm": 0.6259887218475342,
+      "learning_rate": 4.4199590015545306e-05,
+      "loss": 0.04374733865261078,
+      "step": 2290
+    },
+    {
+      "epoch": 20.535714285714285,
+      "grad_norm": 0.5274598598480225,
+      "learning_rate": 4.4034589043012e-05,
+      "loss": 0.042896625399589536,
+      "step": 2300
+    },
+    {
+      "epoch": 20.625,
+      "grad_norm": 0.8070155382156372,
+      "learning_rate": 4.386904276863435e-05,
+      "loss": 0.036900374293327334,
+      "step": 2310
+    },
+    {
+      "epoch": 20.714285714285715,
+      "grad_norm": 0.32271480560302734,
+      "learning_rate": 4.370295762456997e-05,
+      "loss": 0.034705376625061034,
+      "step": 2320
+    },
+    {
+      "epoch": 20.803571428571427,
+      "grad_norm": 0.42657965421676636,
+      "learning_rate": 4.3536340063913794e-05,
+      "loss": 0.03347883522510529,
+      "step": 2330
+    },
+    {
+      "epoch": 20.892857142857142,
+      "grad_norm": 0.6625396609306335,
+      "learning_rate": 4.336919656044731e-05,
+      "loss": 0.03414628803730011,
+      "step": 2340
     },
     {
+      "epoch": 20.982142857142858,
+      "grad_norm": 0.7365996837615967,
+      "learning_rate": 4.320153360838713e-05,
+      "loss": 0.03635193109512329,
+      "step": 2350
     },
     {
+      "epoch": 21.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9936250537376942,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9936250537376942,
+      "eval_loss": 0.03571523725986481,
+      "eval_mean_accuracy": 0.9936250537376942,
+      "eval_mean_iou": 0.4968125268688471,
+      "eval_overall_accuracy": 0.9936250537376942,
+      "eval_runtime": 3.0922,
+      "eval_samples_per_second": 51.096,
+      "eval_steps_per_second": 6.468,
+      "step": 2352
     },
     {
+      "epoch": 21.071428571428573,
+      "grad_norm": 1.009909987449646,
+      "learning_rate": 4.3033357722132514e-05,
+      "loss": 0.04263188242912293,
+      "step": 2360
     },
     {
+      "epoch": 21.160714285714285,
+      "grad_norm": 0.5389165282249451,
+      "learning_rate": 4.28646754360124e-05,
+      "loss": 0.03032357692718506,
+      "step": 2370
     },
     {
+      "epoch": 21.25,
+      "grad_norm": 0.32984256744384766,
+      "learning_rate": 4.26954933040314e-05,
+      "loss": 0.03485119640827179,
+      "step": 2380
     },
     {
+      "epoch": 21.339285714285715,
+      "grad_norm": 3.0285375118255615,
+      "learning_rate": 4.252581789961527e-05,
+      "loss": 0.03367615640163422,
+      "step": 2390
     },
     {
+      "epoch": 21.428571428571427,
+      "grad_norm": 1.3137059211730957,
+      "learning_rate": 4.235565581535539e-05,
+      "loss": 0.03547206521034241,
+      "step": 2400
     },
     {
+      "epoch": 21.517857142857142,
+      "grad_norm": 1.0333430767059326,
+      "learning_rate": 4.218501366275267e-05,
+      "loss": 0.03673919439315796,
+      "step": 2410
     },
     {
+      "epoch": 21.607142857142858,
+      "grad_norm": 0.5486104488372803,
+      "learning_rate": 4.2013898071960676e-05,
+      "loss": 0.036415266990661624,
+      "step": 2420
     },
     {
+      "epoch": 21.696428571428573,
+      "grad_norm": 0.5636530518531799,
+      "learning_rate": 4.184231569152802e-05,
+      "loss": 0.03527542352676392,
+      "step": 2430
     },
     {
+      "epoch": 21.785714285714285,
+      "grad_norm": 0.45224371552467346,
+      "learning_rate": 4.167027318813999e-05,
+      "loss": 0.032622921466827395,
+      "step": 2440
     },
     {
+      "epoch": 21.875,
+      "grad_norm": 0.5232675671577454,
+      "learning_rate": 4.149777724635957e-05,
+      "loss": 0.03635273277759552,
+      "step": 2450
     },
     {
+      "epoch": 21.964285714285715,
+      "grad_norm": 0.5893685221672058,
+      "learning_rate": 4.132483456836771e-05,
+      "loss": 0.038178229331970216,
+      "step": 2460
     },
     {
+      "epoch": 22.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9925993512157226,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9925993512157226,
+      "eval_loss": 0.03667757660150528,
+      "eval_mean_accuracy": 0.9925993512157226,
+      "eval_mean_iou": 0.4962996756078613,
+      "eval_overall_accuracy": 0.9925993512157226,
+      "eval_runtime": 3.036,
+      "eval_samples_per_second": 52.043,
+      "eval_steps_per_second": 6.588,
+      "step": 2464
     },
     {
+      "epoch": 22.053571428571427,
+      "grad_norm": 0.7853555083274841,
+      "learning_rate": 4.1151451873702884e-05,
+      "loss": 0.03218898773193359,
+      "step": 2470
     },
     {
+      "epoch": 22.142857142857142,
+      "grad_norm": 0.46727901697158813,
+      "learning_rate": 4.0977635899000066e-05,
+      "loss": 0.03461584746837616,
+      "step": 2480
     },
     {
+      "epoch": 22.232142857142858,
+      "grad_norm": 0.4075970947742462,
+      "learning_rate": 4.080339339772893e-05,
+      "loss": 0.033443108201026917,
+      "step": 2490
     },
     {
+      "epoch": 22.321428571428573,
+      "grad_norm": 0.5186834335327148,
+      "learning_rate": 4.0628731139931474e-05,
+      "loss": 0.0286944180727005,
+      "step": 2500
     },
     {
+      "epoch": 22.410714285714285,
+      "grad_norm": 0.7780371308326721,
+      "learning_rate": 4.045365591195899e-05,
+      "loss": 0.028618958592414857,
+      "step": 2510
     },
     {
+      "epoch": 22.5,
+      "grad_norm": 0.545845627784729,
+      "learning_rate": 4.027817451620835e-05,
+      "loss": 0.0339008629322052,
+      "step": 2520
     },
     {
+      "epoch": 22.589285714285715,
+      "grad_norm": 0.5229445099830627,
+      "learning_rate": 4.0102293770857734e-05,
+      "loss": 0.03570116758346557,
+      "step": 2530
+    },
+    {
+      "epoch": 22.678571428571427,
+      "grad_norm": 0.7890927195549011,
+      "learning_rate": 3.99260205096017e-05,
+      "loss": 0.03446927964687348,
+      "step": 2540
+    },
+    {
+      "epoch": 22.767857142857142,
+      "grad_norm": 0.8772736191749573,
+      "learning_rate": 3.974936158138568e-05,
+      "loss": 0.033494478464126586,
+      "step": 2550
+    },
+    {
+      "epoch": 22.857142857142858,
+      "grad_norm": 0.5029119849205017,
+      "learning_rate": 3.957232385013986e-05,
+      "loss": 0.03657737970352173,
+      "step": 2560
+    },
+    {
+      "epoch": 22.946428571428573,
+      "grad_norm": 0.8548499941825867,
+      "learning_rate": 3.9394914194512486e-05,
+      "loss": 0.039660537242889406,
+      "step": 2570
     },
     {
       "epoch": 23.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.994375389357435,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.994375389357435,
+      "eval_loss": 0.03532075881958008,
+      "eval_mean_accuracy": 0.994375389357435,
+      "eval_mean_iou": 0.4971876946787175,
+      "eval_overall_accuracy": 0.994375389357435,
+      "eval_runtime": 3.0685,
+      "eval_samples_per_second": 51.49,
+      "eval_steps_per_second": 6.518,
+      "step": 2576
+    },
+    {
+      "epoch": 23.035714285714285,
+      "grad_norm": 0.4568343162536621,
+      "learning_rate": 3.9217139507602614e-05,
+      "loss": 0.033500772714614865,
+      "step": 2580
+    },
+    {
+      "epoch": 23.125,
+      "grad_norm": 0.40298378467559814,
+      "learning_rate": 3.9039006696692276e-05,
+      "loss": 0.04028587341308594,
+      "step": 2590
+    },
+    {
+      "epoch": 23.214285714285715,
+      "grad_norm": 0.6036239266395569,
+      "learning_rate": 3.886052268297809e-05,
+      "loss": 0.03715096414089203,
+      "step": 2600
+    },
+    {
+      "epoch": 23.303571428571427,
+      "grad_norm": 0.44514405727386475,
+      "learning_rate": 3.868169440130236e-05,
+      "loss": 0.0286317378282547,
+      "step": 2610
+    },
+    {
+      "epoch": 23.392857142857142,
+      "grad_norm": 0.3682555556297302,
+      "learning_rate": 3.850252879988364e-05,
+      "loss": 0.032077109813690184,
+      "step": 2620
+    },
+    {
+      "epoch": 23.482142857142858,
+      "grad_norm": 0.8754259347915649,
+      "learning_rate": 3.8323032840046734e-05,
+      "loss": 0.04343713521957397,
+      "step": 2630
+    },
+    {
+      "epoch": 23.571428571428573,
+      "grad_norm": 0.29388266801834106,
+      "learning_rate": 3.8143213495952224e-05,
+      "loss": 0.03414378762245178,
+      "step": 2640
+    },
+    {
+      "epoch": 23.660714285714285,
+      "grad_norm": 1.1659319400787354,
+      "learning_rate": 3.7963077754325563e-05,
+      "loss": 0.036558321118354796,
+      "step": 2650
+    },
+    {
+      "epoch": 23.75,
+      "grad_norm": 0.4986475706100464,
+      "learning_rate": 3.7782632614185495e-05,
+      "loss": 0.03073296844959259,
+      "step": 2660
+    },
+    {
+      "epoch": 23.839285714285715,
+      "grad_norm": 0.593500554561615,
+      "learning_rate": 3.760188508657221e-05,
+      "loss": 0.03155725598335266,
+      "step": 2670
+    },
+    {
+      "epoch": 23.928571428571427,
+      "grad_norm": 0.6584156155586243,
+      "learning_rate": 3.742084219427489e-05,
+      "loss": 0.03568584620952606,
+      "step": 2680
     },
     {
       "epoch": 24.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9916289049554416,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9916289049554416,
+      "eval_loss": 0.03309335559606552,
+      "eval_mean_accuracy": 0.9916289049554416,
+      "eval_mean_iou": 0.4958144524777208,
+      "eval_overall_accuracy": 0.9916289049554416,
+      "eval_runtime": 2.732,
+      "eval_samples_per_second": 57.833,
+      "eval_steps_per_second": 7.321,
+      "step": 2688
+    },
+    {
+      "epoch": 24.017857142857142,
+      "grad_norm": 0.6060870289802551,
+      "learning_rate": 3.7239510971558875e-05,
+      "loss": 0.032761800289154056,
+      "step": 2690
+    },
+    {
+      "epoch": 24.107142857142858,
+      "grad_norm": 0.5710151195526123,
+      "learning_rate": 3.705789846389231e-05,
+      "loss": 0.034759172797203065,
+      "step": 2700
+    },
+    {
+      "epoch": 24.196428571428573,
+      "grad_norm": 0.6277956962585449,
+      "learning_rate": 3.687601172767243e-05,
+      "loss": 0.031375229358673096,
+      "step": 2710
+    },
+    {
+      "epoch": 24.285714285714285,
+      "grad_norm": 0.3479461669921875,
+      "learning_rate": 3.6693857829951396e-05,
+      "loss": 0.03187570571899414,
+      "step": 2720
+    },
+    {
+      "epoch": 24.375,
+      "grad_norm": 0.7725711464881897,
+      "learning_rate": 3.6511443848161685e-05,
+      "loss": 0.030967468023300172,
+      "step": 2730
+    },
+    {
+      "epoch": 24.464285714285715,
+      "grad_norm": 0.3748839199542999,
+      "learning_rate": 3.632877686984114e-05,
+      "loss": 0.03596632182598114,
+      "step": 2740
+    },
+    {
+      "epoch": 24.553571428571427,
+      "grad_norm": 0.6618359088897705,
+      "learning_rate": 3.6145863992357524e-05,
+      "loss": 0.03417036831378937,
+      "step": 2750
+    },
+    {
+      "epoch": 24.642857142857142,
+      "grad_norm": 1.1266916990280151,
+      "learning_rate": 3.5962712322632844e-05,
+      "loss": 0.03659347891807556,
+      "step": 2760
+    },
+    {
+      "epoch": 24.732142857142858,
+      "grad_norm": 0.7710285782814026,
+      "learning_rate": 3.577932897686714e-05,
+      "loss": 0.0307744562625885,
+      "step": 2770
+    },
+    {
+      "epoch": 24.821428571428573,
+      "grad_norm": 0.8718984723091125,
+      "learning_rate": 3.559572108026204e-05,
+      "loss": 0.03322732150554657,
+      "step": 2780
+    },
+    {
+      "epoch": 24.910714285714285,
+      "grad_norm": 0.5319318175315857,
+      "learning_rate": 3.541189576674391e-05,
+      "loss": 0.04207642078399658,
+      "step": 2790
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.4538725018501282,
+      "learning_rate": 3.522786017868663e-05,
+      "loss": 0.04333705008029938,
+      "step": 2800
     },
     {
       "epoch": 25.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9914196365601031,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9914196365601031,
+      "eval_loss": 0.033219970762729645,
+      "eval_mean_accuracy": 0.9914196365601031,
+      "eval_mean_iou": 0.49570981828005156,
+      "eval_overall_accuracy": 0.9914196365601031,
+      "eval_runtime": 3.1122,
+      "eval_samples_per_second": 50.768,
+      "eval_steps_per_second": 6.426,
+      "step": 2800
+    },
+    {
+      "epoch": 25.089285714285715,
+      "grad_norm": 0.5923066139221191,
+      "learning_rate": 3.504362146663416e-05,
+      "loss": 0.032575929164886476,
+      "step": 2810
+    },
+    {
+      "epoch": 25.178571428571427,
+      "grad_norm": 0.5123811960220337,
+      "learning_rate": 3.485918678902263e-05,
+      "loss": 0.0281497985124588,
+      "step": 2820
+    },
+    {
+      "epoch": 25.267857142857142,
+      "grad_norm": 0.40942662954330444,
+      "learning_rate": 3.4674563311902265e-05,
+      "loss": 0.028442206978797912,
+      "step": 2830
+    },
+    {
+      "epoch": 25.357142857142858,
+      "grad_norm": 0.8756884336471558,
+      "learning_rate": 3.448975820865892e-05,
+      "loss": 0.030506229400634764,
+      "step": 2840
+    },
+    {
+      "epoch": 25.446428571428573,
+      "grad_norm": 0.5606912970542908,
+      "learning_rate": 3.430477865973538e-05,
+      "loss": 0.03150984942913056,
+      "step": 2850
+    },
+    {
+      "epoch": 25.535714285714285,
+      "grad_norm": 0.44976678490638733,
+      "learning_rate": 3.411963185235238e-05,
+      "loss": 0.04342520236968994,
+      "step": 2860
+    },
+    {
+      "epoch": 25.625,
+      "grad_norm": 1.2209604978561401,
+      "learning_rate": 3.39343249802293e-05,
+      "loss": 0.04580383598804474,
+      "step": 2870
+    },
+    {
+      "epoch": 25.714285714285715,
+      "grad_norm": 0.29239585995674133,
+      "learning_rate": 3.374886524330474e-05,
+      "loss": 0.034171491861343384,
+      "step": 2880
+    },
+    {
+      "epoch": 25.803571428571427,
+      "grad_norm": 0.54944908618927,
+      "learning_rate": 3.3563259847456706e-05,
+      "loss": 0.030352166295051573,
+      "step": 2890
+    },
+    {
+      "epoch": 25.892857142857142,
+      "grad_norm": 0.5237885117530823,
+      "learning_rate": 3.337751600422267e-05,
+      "loss": 0.0373788446187973,
+      "step": 2900
+    },
+    {
+      "epoch": 25.982142857142858,
+      "grad_norm": 0.4797593355178833,
+      "learning_rate": 3.319164093051934e-05,
+      "loss": 0.040397238731384275,
+      "step": 2910
     },
     {
       "epoch": 26.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9924254180893848,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9924254180893848,
+      "eval_loss": 0.0354851633310318,
+      "eval_mean_accuracy": 0.9924254180893848,
+      "eval_mean_iou": 0.4962127090446924,
+      "eval_overall_accuracy": 0.9924254180893848,
+      "eval_runtime": 3.0841,
+      "eval_samples_per_second": 51.231,
+      "eval_steps_per_second": 6.485,
+      "step": 2912
+    },
+    {
+      "epoch": 26.071428571428573,
+      "grad_norm": 1.3695160150527954,
+      "learning_rate": 3.300564184836229e-05,
+      "loss": 0.03410325050354004,
+      "step": 2920
+    },
+    {
+      "epoch": 26.160714285714285,
+      "grad_norm": 1.6297566890716553,
+      "learning_rate": 3.281952598458532e-05,
+      "loss": 0.029873809218406676,
+      "step": 2930
+    },
+    {
+      "epoch": 26.25,
+      "grad_norm": 0.8955344557762146,
+      "learning_rate": 3.263330057055968e-05,
+      "loss": 0.02988564074039459,
+      "step": 2940
+    },
+    {
+      "epoch": 26.339285714285715,
+      "grad_norm": 0.4443126618862152,
+      "learning_rate": 3.244697284191312e-05,
+      "loss": 0.028489592671394347,
+      "step": 2950
+    },
+    {
+      "epoch": 26.428571428571427,
+      "grad_norm": 0.7363114953041077,
+      "learning_rate": 3.2260550038248705e-05,
+      "loss": 0.03290682733058929,
+      "step": 2960
+    },
+    {
+      "epoch": 26.517857142857142,
+      "grad_norm": 0.5589322447776794,
+      "learning_rate": 3.207403940286358e-05,
+      "loss": 0.029693979024887084,
+      "step": 2970
+    },
+    {
+      "epoch": 26.607142857142858,
+      "grad_norm": 0.44776883721351624,
+      "learning_rate": 3.188744818246751e-05,
+      "loss": 0.029062193632125855,
+      "step": 2980
+    },
+    {
+      "epoch": 26.696428571428573,
+      "grad_norm": 0.7318775653839111,
+      "learning_rate": 3.170078362690133e-05,
+      "loss": 0.03234577178955078,
+      "step": 2990
+    },
+    {
+      "epoch": 26.785714285714285,
+      "grad_norm": 0.5860442519187927,
+      "learning_rate": 3.1514052988855223e-05,
+      "loss": 0.0328553706407547,
+      "step": 3000
+    },
+    {
+      "epoch": 26.875,
+      "grad_norm": 0.4635106921195984,
+      "learning_rate": 3.1327263523586985e-05,
+      "loss": 0.03930963575839996,
+      "step": 3010
+    },
+    {
+      "epoch": 26.964285714285715,
+      "grad_norm": 0.4752277135848999,
+      "learning_rate": 3.114042248864007e-05,
+      "loss": 0.030829423666000368,
+      "step": 3020
     },
     {
       "epoch": 27.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9925471320889833,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9925471320889833,
+      "eval_loss": 0.03285687789320946,
+      "eval_mean_accuracy": 0.9925471320889833,
+      "eval_mean_iou": 0.49627356604449163,
+      "eval_overall_accuracy": 0.9925471320889833,
+      "eval_runtime": 3.038,
+      "eval_samples_per_second": 52.008,
+      "eval_steps_per_second": 6.583,
+      "step": 3024
+    },
+    {
+      "epoch": 27.053571428571427,
+      "grad_norm": 0.7310205101966858,
+      "learning_rate": 3.0953537143561624e-05,
+      "loss": 0.030692169070243837,
+      "step": 3030
+    },
+    {
+      "epoch": 27.142857142857142,
+      "grad_norm": 0.6455206274986267,
+      "learning_rate": 3.076661474962045e-05,
+      "loss": 0.031942149996757506,
+      "step": 3040
+    },
+    {
+      "epoch": 27.232142857142858,
+      "grad_norm": 0.4655891954898834,
+      "learning_rate": 3.057966256952481e-05,
+      "loss": 0.029044491052627564,
+      "step": 3050
+    },
+    {
+      "epoch": 27.321428571428573,
+      "grad_norm": 0.36327067017555237,
+      "learning_rate": 3.0392687867140333e-05,
+      "loss": 0.025822624564170837,
+      "step": 3060
+    },
+    {
+      "epoch": 27.410714285714285,
+      "grad_norm": 0.4989587962627411,
+      "learning_rate": 3.0205697907207702e-05,
+      "loss": 0.05004531145095825,
+      "step": 3070
+    },
+    {
+      "epoch": 27.5,
+      "grad_norm": 1.2270469665527344,
+      "learning_rate": 3.0018699955060417e-05,
+      "loss": 0.034348291158676145,
+      "step": 3080
+    },
+    {
+      "epoch": 27.589285714285715,
+      "grad_norm": 0.5079036355018616,
+      "learning_rate": 2.9831701276342514e-05,
+      "loss": 0.030654704570770262,
+      "step": 3090
+    },
+    {
+      "epoch": 27.678571428571427,
+      "grad_norm": 3.1755542755126953,
+      "learning_rate": 2.9644709136726268e-05,
+      "loss": 0.0338600367307663,
+      "step": 3100
+    },
+    {
+      "epoch": 27.767857142857142,
+      "grad_norm": 0.6202217936515808,
+      "learning_rate": 2.9457730801629877e-05,
+      "loss": 0.028236088156700135,
+      "step": 3110
+    },
+    {
+      "epoch": 27.857142857142858,
+      "grad_norm": 0.5683168768882751,
+      "learning_rate": 2.927077353593516e-05,
+      "loss": 0.03989450037479401,
+      "step": 3120
+    },
+    {
+      "epoch": 27.946428571428573,
+      "grad_norm": 5.44518518447876,
+      "learning_rate": 2.9083844603705326e-05,
+      "loss": 0.03910101354122162,
+      "step": 3130
     },
     {
       "epoch": 28.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9917723687601736,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9917723687601736,
+      "eval_loss": 0.031547412276268005,
+      "eval_mean_accuracy": 0.9917723687601736,
+      "eval_mean_iou": 0.4958861843800868,
+      "eval_overall_accuracy": 0.9917723687601736,
+      "eval_runtime": 3.1131,
+      "eval_samples_per_second": 50.754,
+      "eval_steps_per_second": 6.425,
+      "step": 3136
+    },
+    {
+      "epoch": 28.035714285714285,
+      "grad_norm": 3.1347599029541016,
+      "learning_rate": 2.8896951267902705e-05,
+      "loss": 0.03177991509437561,
+      "step": 3140
+    },
+    {
+      "epoch": 28.125,
+      "grad_norm": 1.4487873315811157,
+      "learning_rate": 2.8710100790106555e-05,
+      "loss": 0.03737530708312988,
+      "step": 3150
+    },
+    {
+      "epoch": 28.214285714285715,
+      "grad_norm": 0.8962753415107727,
+      "learning_rate": 2.8523300430230912e-05,
+      "loss": 0.03027704656124115,
+      "step": 3160
+    },
+    {
+      "epoch": 28.303571428571427,
+      "grad_norm": 0.4061380922794342,
+      "learning_rate": 2.833655744624256e-05,
+      "loss": 0.02618521749973297,
+      "step": 3170
+    },
+    {
+      "epoch": 28.392857142857142,
+      "grad_norm": 0.729543149471283,
+      "learning_rate": 2.8149879093878954e-05,
+      "loss": 0.029603210091590882,
+      "step": 3180
+    },
+    {
+      "epoch": 28.482142857142858,
+      "grad_norm": 0.6882901787757874,
+      "learning_rate": 2.7963272626366367e-05,
+      "loss": 0.036348775029182434,
+      "step": 3190
+    },
+    {
+      "epoch": 28.571428571428573,
+      "grad_norm": 0.5272622108459473,
+      "learning_rate": 2.7776745294138023e-05,
+      "loss": 0.030189669132232665,
+      "step": 3200
+    },
+    {
+      "epoch": 28.660714285714285,
+      "grad_norm": 2.3594179153442383,
+      "learning_rate": 2.759030434455244e-05,
+      "loss": 0.03147277235984802,
+      "step": 3210
+    },
+    {
+      "epoch": 28.75,
+      "grad_norm": 0.8328260183334351,
+      "learning_rate": 2.7403957021611794e-05,
+      "loss": 0.028407952189445494,
+      "step": 3220
+    },
+    {
+      "epoch": 28.839285714285715,
+      "grad_norm": 0.4401385486125946,
+      "learning_rate": 2.7217710565680494e-05,
+      "loss": 0.03167880475521088,
+      "step": 3230
+    },
+    {
+      "epoch": 28.928571428571427,
+      "grad_norm": 0.6927857995033264,
+      "learning_rate": 2.7031572213203838e-05,
+      "loss": 0.0320546954870224,
+      "step": 3240
     },
     {
       "epoch": 29.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9935557874663907,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9935557874663907,
+      "eval_loss": 0.031658101826906204,
+      "eval_mean_accuracy": 0.9935557874663907,
+      "eval_mean_iou": 0.49677789373319536,
+      "eval_overall_accuracy": 0.9935557874663907,
+      "eval_runtime": 2.9666,
+      "eval_samples_per_second": 53.259,
+      "eval_steps_per_second": 6.742,
+      "step": 3248
+    },
+    {
+      "epoch": 29.017857142857142,
+      "grad_norm": 0.7985917925834656,
+      "learning_rate": 2.6845549196426856e-05,
+      "loss": 0.029624807834625243,
+      "step": 3250
+    },
+    {
+      "epoch": 29.107142857142858,
+      "grad_norm": 0.3682114779949188,
+      "learning_rate": 2.665964874311331e-05,
+      "loss": 0.027858784794807433,
+      "step": 3260
+    },
+    {
+      "epoch": 29.196428571428573,
+      "grad_norm": 0.4574880301952362,
+      "learning_rate": 2.6473878076264875e-05,
+      "loss": 0.029273048043251038,
+      "step": 3270
+    },
+    {
+      "epoch": 29.285714285714285,
+      "grad_norm": 0.8865300416946411,
+      "learning_rate": 2.6288244413840478e-05,
+      "loss": 0.029073789715766907,
+      "step": 3280
+    },
+    {
+      "epoch": 29.375,
+      "grad_norm": 0.6251811385154724,
+      "learning_rate": 2.6102754968475846e-05,
+      "loss": 0.03387551307678223,
+      "step": 3290
+    },
+    {
+      "epoch": 29.464285714285715,
+      "grad_norm": 0.5488691329956055,
+      "learning_rate": 2.5917416947203298e-05,
+      "loss": 0.049561575055122375,
+      "step": 3300
+    },
+    {
+      "epoch": 29.553571428571427,
+      "grad_norm": 0.30105119943618774,
+      "learning_rate": 2.5732237551171683e-05,
+      "loss": 0.029812681674957275,
+      "step": 3310
+    },
+    {
+      "epoch": 29.642857142857142,
+      "grad_norm": 0.7394400238990784,
+      "learning_rate": 2.5547223975366605e-05,
+      "loss": 0.029591622948646545,
+      "step": 3320
+    },
+    {
+      "epoch": 29.732142857142858,
+      "grad_norm": 0.26817116141319275,
+      "learning_rate": 2.5362383408330884e-05,
+      "loss": 0.02955836057662964,
+      "step": 3330
+    },
+    {
+      "epoch": 29.821428571428573,
+      "grad_norm": 0.33070439100265503,
+      "learning_rate": 2.5177723031885214e-05,
+      "loss": 0.03228087425231933,
+      "step": 3340
+    },
+    {
+      "epoch": 29.910714285714285,
+      "grad_norm": 0.8092528581619263,
+      "learning_rate": 2.499325002084915e-05,
+      "loss": 0.03023201823234558,
+      "step": 3350
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.35872745513916016,
+      "learning_rate": 2.480897154276232e-05,
+      "loss": 0.029187554121017457,
+      "step": 3360
     },
     {
       "epoch": 30.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.994477345651169,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.994477345651169,
+      "eval_loss": 0.03322525694966316,
+      "eval_mean_accuracy": 0.994477345651169,
+      "eval_mean_iou": 0.4972386728255845,
+      "eval_overall_accuracy": 0.994477345651169,
+      "eval_runtime": 3.0595,
+      "eval_samples_per_second": 51.642,
+      "eval_steps_per_second": 6.537,
+      "step": 3360
+    },
+    {
+      "epoch": 30.089285714285715,
+      "grad_norm": 0.39924347400665283,
+      "learning_rate": 2.4624894757605942e-05,
+      "loss": 0.028081393241882323,
+      "step": 3370
+    },
+    {
+      "epoch": 30.178571428571427,
+      "grad_norm": 0.6552838087081909,
+      "learning_rate": 2.4441026817524623e-05,
+      "loss": 0.028267490863800048,
+      "step": 3380
+    },
+    {
+      "epoch": 30.267857142857142,
+      "grad_norm": 0.4551210403442383,
+      "learning_rate": 2.4257374866548496e-05,
+      "loss": 0.029539895057678223,
+      "step": 3390
+    },
+    {
+      "epoch": 30.357142857142858,
+      "grad_norm": 0.4295955300331116,
+      "learning_rate": 2.40739460403156e-05,
+      "loss": 0.026964202523231506,
+      "step": 3400
+    },
+    {
+      "epoch": 30.446428571428573,
+      "grad_norm": 0.6522055268287659,
+      "learning_rate": 2.389074746579468e-05,
+      "loss": 0.03150617182254791,
+      "step": 3410
+    },
+    {
+      "epoch": 30.535714285714285,
+      "grad_norm": 0.548977255821228,
+      "learning_rate": 2.3707786261008217e-05,
+      "loss": 0.02989962100982666,
+      "step": 3420
+    },
+    {
+      "epoch": 30.625,
+      "grad_norm": 0.9423609375953674,
+      "learning_rate": 2.3525069534755923e-05,
+      "loss": 0.03012169599533081,
+      "step": 3430
+    },
+    {
+      "epoch": 30.714285714285715,
+      "grad_norm": 0.7378695011138916,
+      "learning_rate": 2.3342604386338497e-05,
+      "loss": 0.028344947099685668,
+      "step": 3440
+    },
+    {
+      "epoch": 30.803571428571427,
+      "grad_norm": 0.5040833353996277,
+      "learning_rate": 2.31603979052818e-05,
+      "loss": 0.027642324566841125,
+      "step": 3450
+    },
+    {
+      "epoch": 30.892857142857142,
+      "grad_norm": 0.9136592745780945,
+      "learning_rate": 2.2978457171061393e-05,
+      "loss": 0.036267369985580444,
+      "step": 3460
+    },
+    {
+      "epoch": 30.982142857142858,
+      "grad_norm": 0.2883710563182831,
+      "learning_rate": 2.2796789252827475e-05,
+      "loss": 0.02582719922065735,
+      "step": 3470
     },
     {
       "epoch": 31.0,
       "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9948894162835631,
       "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9948894162835631,
+      "eval_loss": 0.03353121131658554,
+      "eval_mean_accuracy": 0.9948894162835631,
+      "eval_mean_iou": 0.49744470814178154,
+      "eval_overall_accuracy": 0.9948894162835631,
+      "eval_runtime": 2.9662,
+      "eval_samples_per_second": 53.267,
+      "eval_steps_per_second": 6.743,
+      "step": 3472
     },
     {
       "epoch": 31.0,
+      "step": 3472,
+      "total_flos": 4.857697593238487e+17,
+      "train_loss": 0.07301220383220416,
+      "train_runtime": 471.8683,
+      "train_samples_per_second": 94.73,
+      "train_steps_per_second": 11.868
     }
   ],
+  "logging_steps": 10,
+  "max_steps": 5600,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 50,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.857697593238487e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null