Training in progress, epoch 1

Browse files

Files changed (9) hide show

README.md +95 -0
all_results.json +19 -0
config.json +78 -0
eval_results.json +14 -0
model.safetensors +3 -0
preprocessor_config.json +24 -0
train_results.json +8 -0
trainer_state.json +644 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,95 @@

+---
+library_name: transformers
+license: other
+base_model: nvidia/mit-b0
+tags:
+- image-segmentation
+- vision
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: autocrop-test
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# autocrop-test
+This model is a fine-tuned version of [nvidia/mit-b0](https://huggingface.co/nvidia/mit-b0) on the /mnt/disk1/autocrop-data/datasets/tekst/ dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0196
+- Mean Iou: 0.4964
+- Mean Accuracy: 0.9928
+- Overall Accuracy: 0.9928
+- Accuracy Background: nan
+- Accuracy Crop: 0.9928
+- Iou Background: 0.0
+- Iou Crop: 0.9928
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 6e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 0.1
+- num_epochs: 50.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mean Iou | Mean Accuracy | Overall Accuracy | Accuracy Background | Accuracy Crop | Iou Background | Iou Crop |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:-------------:|:----------------:|:-------------------:|:-------------:|:--------------:|:--------:|
+| 0.4334        | 1.0   | 625   | 0.1014          | 0.4884   | 0.9768        | 0.9768           | nan                 | 0.9768        | 0.0            | 0.9768   |
+| 0.1136        | 2.0   | 1250  | 0.0503          | 0.4942   | 0.9883        | 0.9883           | nan                 | 0.9883        | 0.0            | 0.9883   |
+| 0.0626        | 3.0   | 1875  | 0.0365          | 0.4952   | 0.9903        | 0.9903           | nan                 | 0.9903        | 0.0            | 0.9903   |
+| 0.0376        | 4.0   | 2500  | 0.0304          | 0.4957   | 0.9913        | 0.9913           | nan                 | 0.9913        | 0.0            | 0.9913   |
+| 0.0331        | 5.0   | 3125  | 0.0277          | 0.4945   | 0.9890        | 0.9890           | nan                 | 0.9890        | 0.0            | 0.9890   |
+| 0.0312        | 6.0   | 3750  | 0.0258          | 0.4961   | 0.9922        | 0.9922           | nan                 | 0.9922        | 0.0            | 0.9922   |
+| 0.0290        | 7.0   | 4375  | 0.0252          | 0.4970   | 0.9941        | 0.9941           | nan                 | 0.9941        | 0.0            | 0.9941   |
+| 0.0272        | 8.0   | 5000  | 0.0247          | 0.4950   | 0.9900        | 0.9900           | nan                 | 0.9900        | 0.0            | 0.9900   |
+| 0.0264        | 9.0   | 5625  | 0.0232          | 0.4963   | 0.9925        | 0.9925           | nan                 | 0.9925        | 0.0            | 0.9925   |
+| 0.0260        | 10.0  | 6250  | 0.0230          | 0.4964   | 0.9927        | 0.9927           | nan                 | 0.9927        | 0.0            | 0.9927   |
+| 0.0257        | 11.0  | 6875  | 0.0223          | 0.4969   | 0.9937        | 0.9937           | nan                 | 0.9937        | 0.0            | 0.9937   |
+| 0.0244        | 12.0  | 7500  | 0.0217          | 0.4966   | 0.9932        | 0.9932           | nan                 | 0.9932        | 0.0            | 0.9932   |
+| 0.0240        | 13.0  | 8125  | 0.0223          | 0.4960   | 0.9920        | 0.9920           | nan                 | 0.9920        | 0.0            | 0.9920   |
+| 0.0230        | 14.0  | 8750  | 0.0220          | 0.4972   | 0.9943        | 0.9943           | nan                 | 0.9943        | 0.0            | 0.9943   |
+| 0.0230        | 15.0  | 9375  | 0.0213          | 0.4963   | 0.9926        | 0.9926           | nan                 | 0.9926        | 0.0            | 0.9926   |
+| 0.0228        | 16.0  | 10000 | 0.0208          | 0.4964   | 0.9928        | 0.9928           | nan                 | 0.9928        | 0.0            | 0.9928   |
+| 0.0220        | 17.0  | 10625 | 0.0206          | 0.4965   | 0.9930        | 0.9930           | nan                 | 0.9930        | 0.0            | 0.9930   |
+| 0.0217        | 18.0  | 11250 | 0.0205          | 0.4960   | 0.9921        | 0.9921           | nan                 | 0.9921        | 0.0            | 0.9921   |
+| 0.0212        | 19.0  | 11875 | 0.0207          | 0.4958   | 0.9915        | 0.9915           | nan                 | 0.9915        | 0.0            | 0.9915   |
+| 0.0209        | 20.0  | 12500 | 0.0204          | 0.4973   | 0.9946        | 0.9946           | nan                 | 0.9946        | 0.0            | 0.9946   |
+| 0.0203        | 21.0  | 13125 | 0.0198          | 0.4969   | 0.9937        | 0.9937           | nan                 | 0.9937        | 0.0            | 0.9937   |
+| 0.0202        | 22.0  | 13750 | 0.0196          | 0.4964   | 0.9928        | 0.9928           | nan                 | 0.9928        | 0.0            | 0.9928   |
+| 0.0202        | 23.0  | 14375 | 0.0203          | 0.4971   | 0.9942        | 0.9942           | nan                 | 0.9942        | 0.0            | 0.9942   |
+| 0.0198        | 24.0  | 15000 | 0.0196          | 0.4966   | 0.9932        | 0.9932           | nan                 | 0.9932        | 0.0            | 0.9932   |
+| 0.0194        | 25.0  | 15625 | 0.0197          | 0.4966   | 0.9932        | 0.9932           | nan                 | 0.9932        | 0.0            | 0.9932   |
+### Framework versions
+- Transformers 5.8.0
+- Pytorch 2.11.0+cu130
+- Datasets 4.8.5
+- Tokenizers 0.22.2

all_results.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+    "epoch": 25.0,
+    "eval_accuracy_background": NaN,
+    "eval_accuracy_crop": 0.9927992276007593,
+    "eval_iou_background": 0.0,
+    "eval_iou_crop": 0.9927992276007593,
+    "eval_loss": 0.01961207203567028,
+    "eval_mean_accuracy": 0.9927992276007593,
+    "eval_mean_iou": 0.49639961380037967,
+    "eval_overall_accuracy": 0.9927992276007593,
+    "eval_runtime": 14.9481,
+    "eval_samples_per_second": 59.004,
+    "eval_steps_per_second": 7.426,
+    "total_flos": 2.1901180424159232e+18,
+    "train_loss": 0.0420909201965332,
+    "train_runtime": 1897.2835,
+    "train_samples_per_second": 131.715,
+    "train_steps_per_second": 16.471
+}

config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "architectures": [
+    "SegformerForSemanticSegmentation"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "classifier_dropout_prob": 0.1,
+  "decoder_hidden_size": 256,
+  "depths": [
+    2,
+    2,
+    2,
+    2
+  ],
+  "downsampling_rates": [
+    1,
+    4,
+    8,
+    16
+  ],
+  "drop_path_rate": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_sizes": [
+    32,
+    64,
+    160,
+    256
+  ],
+  "id2label": {
+    "0": "background",
+    "1": "crop"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "background": "0",
+    "crop": "1"
+  },
+  "layer_norm_eps": 1e-06,
+  "mlp_ratios": [
+    4,
+    4,
+    4,
+    4
+  ],
+  "model_type": "segformer",
+  "num_attention_heads": [
+    1,
+    2,
+    5,
+    8
+  ],
+  "num_channels": 3,
+  "num_encoder_blocks": 4,
+  "patch_sizes": [
+    7,
+    3,
+    3,
+    3
+  ],
+  "reshape_last_stage": true,
+  "semantic_loss_ignore_index": 255,
+  "sr_ratios": [
+    8,
+    4,
+    2,
+    1
+  ],
+  "strides": [
+    4,
+    2,
+    2,
+    2
+  ],
+  "transformers_version": "5.8.0",
+  "use_cache": false
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 25.0,
+    "eval_accuracy_background": NaN,
+    "eval_accuracy_crop": 0.9927992276007593,
+    "eval_iou_background": 0.0,
+    "eval_iou_crop": 0.9927992276007593,
+    "eval_loss": 0.01961207203567028,
+    "eval_mean_accuracy": 0.9927992276007593,
+    "eval_mean_iou": 0.49639961380037967,
+    "eval_overall_accuracy": 0.9927992276007593,
+    "eval_runtime": 14.9481,
+    "eval_samples_per_second": 59.004,
+    "eval_steps_per_second": 7.426
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:473d2385ca7d9427c1d16561c1e568474a8f44be033485d987c7599eb9cc6190
+size 14884776

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "do_normalize": true,
+  "do_reduce_labels": false,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "SegformerImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "reduce_labels": false,
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 512,
+    "width": 512
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 25.0,
+    "total_flos": 2.1901180424159232e+18,
+    "train_loss": 0.0420909201965332,
+    "train_runtime": 1897.2835,
+    "train_samples_per_second": 131.715,
+    "train_steps_per_second": 16.471
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,644 @@

+{
+  "best_global_step": 13750,
+  "best_metric": 0.01961207203567028,
+  "best_model_checkpoint": "trainer_output/checkpoint-13750",
+  "epoch": 25.0,
+  "eval_steps": 500,
+  "global_step": 15625,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1524319648742676,
+      "learning_rate": 9.5808e-06,
+      "loss": 0.43339532470703124,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9768196565895517,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9768196565895517,
+      "eval_loss": 0.10140044242143631,
+      "eval_mean_accuracy": 0.9768196565895517,
+      "eval_mean_iou": 0.48840982829477586,
+      "eval_overall_accuracy": 0.9768196565895517,
+      "eval_runtime": 16.2848,
+      "eval_samples_per_second": 54.161,
+      "eval_steps_per_second": 6.816,
+      "step": 625
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.8539880514144897,
+      "learning_rate": 1.91808e-05,
+      "loss": 0.11356404113769532,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.988345679319867,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.988345679319867,
+      "eval_loss": 0.05029028654098511,
+      "eval_mean_accuracy": 0.988345679319867,
+      "eval_mean_iou": 0.4941728396599335,
+      "eval_overall_accuracy": 0.988345679319867,
+      "eval_runtime": 14.8084,
+      "eval_samples_per_second": 59.561,
+      "eval_steps_per_second": 7.496,
+      "step": 1250
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.45036041736602783,
+      "learning_rate": 2.87808e-05,
+      "loss": 0.06263476181030274,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9903214677470595,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9903214677470595,
+      "eval_loss": 0.03654526174068451,
+      "eval_mean_accuracy": 0.9903214677470595,
+      "eval_mean_iou": 0.49516073387352977,
+      "eval_overall_accuracy": 0.9903214677470595,
+      "eval_runtime": 15.7287,
+      "eval_samples_per_second": 56.076,
+      "eval_steps_per_second": 7.057,
+      "step": 1875
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.3090341091156006,
+      "learning_rate": 3.8380800000000004e-05,
+      "loss": 0.04462788009643555,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.24643999338150024,
+      "learning_rate": 4.79808e-05,
+      "loss": 0.03756232452392578,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9913295270743318,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9913295270743318,
+      "eval_loss": 0.030365047976374626,
+      "eval_mean_accuracy": 0.9913295270743318,
+      "eval_mean_iou": 0.4956647635371659,
+      "eval_overall_accuracy": 0.9913295270743318,
+      "eval_runtime": 13.4769,
+      "eval_samples_per_second": 65.445,
+      "eval_steps_per_second": 8.236,
+      "step": 2500
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.5337187647819519,
+      "learning_rate": 5.75808e-05,
+      "loss": 0.03314236831665039,
+      "step": 3000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9890027583743638,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9890027583743638,
+      "eval_loss": 0.027659796178340912,
+      "eval_mean_accuracy": 0.9890027583743638,
+      "eval_mean_iou": 0.4945013791871819,
+      "eval_overall_accuracy": 0.9890027583743638,
+      "eval_runtime": 14.1791,
+      "eval_samples_per_second": 62.204,
+      "eval_steps_per_second": 7.828,
+      "step": 3125
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.49186381697654724,
+      "learning_rate": 5.9973825042635214e-05,
+      "loss": 0.031177324295043947,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9922120865322441,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9922120865322441,
+      "eval_loss": 0.02575760707259178,
+      "eval_mean_accuracy": 0.9922120865322441,
+      "eval_mean_iou": 0.49610604326612207,
+      "eval_overall_accuracy": 0.9922120865322441,
+      "eval_runtime": 15.0604,
+      "eval_samples_per_second": 58.564,
+      "eval_steps_per_second": 7.37,
+      "step": 3750
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.26261016726493835,
+      "learning_rate": 5.985714881662627e-05,
+      "loss": 0.028994924545288087,
+      "step": 4000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.994066035736691,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.994066035736691,
+      "eval_loss": 0.025171734392642975,
+      "eval_mean_accuracy": 0.994066035736691,
+      "eval_mean_iou": 0.4970330178683455,
+      "eval_overall_accuracy": 0.994066035736691,
+      "eval_runtime": 13.3769,
+      "eval_samples_per_second": 65.935,
+      "eval_steps_per_second": 8.298,
+      "step": 4375
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.3545992374420166,
+      "learning_rate": 5.9647363918899715e-05,
+      "loss": 0.028564287185668946,
+      "step": 4500
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.3758007884025574,
+      "learning_rate": 5.9345124557708774e-05,
+      "loss": 0.027177539825439453,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9899967291210848,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9899967291210848,
+      "eval_loss": 0.024666031822562218,
+      "eval_mean_accuracy": 0.9899967291210848,
+      "eval_mean_iou": 0.4949983645605424,
+      "eval_overall_accuracy": 0.9899967291210848,
+      "eval_runtime": 12.936,
+      "eval_samples_per_second": 68.182,
+      "eval_steps_per_second": 8.581,
+      "step": 5000
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 0.22928953170776367,
+      "learning_rate": 5.895137325792861e-05,
+      "loss": 0.026362817764282228,
+      "step": 5500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9925482629257046,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9925482629257046,
+      "eval_loss": 0.023219820111989975,
+      "eval_mean_accuracy": 0.9925482629257046,
+      "eval_mean_iou": 0.4962741314628523,
+      "eval_overall_accuracy": 0.9925482629257046,
+      "eval_runtime": 12.8673,
+      "eval_samples_per_second": 68.546,
+      "eval_steps_per_second": 8.627,
+      "step": 5625
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.3915350139141083,
+      "learning_rate": 5.846733792181926e-05,
+      "loss": 0.02600261688232422,
+      "step": 6000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9927480206245599,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9927480206245599,
+      "eval_loss": 0.02302992343902588,
+      "eval_mean_accuracy": 0.9927480206245599,
+      "eval_mean_iou": 0.49637401031227996,
+      "eval_overall_accuracy": 0.9927480206245599,
+      "eval_runtime": 14.5996,
+      "eval_samples_per_second": 60.412,
+      "eval_steps_per_second": 7.603,
+      "step": 6250
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 0.26642245054244995,
+      "learning_rate": 5.78945279998472e-05,
+      "loss": 0.025672937393188478,
+      "step": 6500
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9937102307036272,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9937102307036272,
+      "eval_loss": 0.022344686090946198,
+      "eval_mean_accuracy": 0.9937102307036272,
+      "eval_mean_iou": 0.4968551153518136,
+      "eval_overall_accuracy": 0.9937102307036272,
+      "eval_runtime": 14.6595,
+      "eval_samples_per_second": 60.166,
+      "eval_steps_per_second": 7.572,
+      "step": 6875
+    },
+    {
+      "epoch": 11.2,
+      "grad_norm": 0.5744491815567017,
+      "learning_rate": 5.723472978350694e-05,
+      "loss": 0.024709026336669923,
+      "step": 7000
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.16804039478302002,
+      "learning_rate": 5.649000083482167e-05,
+      "loss": 0.024350887298583986,
+      "step": 7500
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9931893459362804,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9931893459362804,
+      "eval_loss": 0.021655429154634476,
+      "eval_mean_accuracy": 0.9931893459362804,
+      "eval_mean_iou": 0.4965946729681402,
+      "eval_overall_accuracy": 0.9931893459362804,
+      "eval_runtime": 14.9256,
+      "eval_samples_per_second": 59.093,
+      "eval_steps_per_second": 7.437,
+      "step": 7500
+    },
+    {
+      "epoch": 12.8,
+      "grad_norm": 0.2182096242904663,
+      "learning_rate": 5.566266356989437e-05,
+      "loss": 0.02396395683288574,
+      "step": 8000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9920321818804473,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9920321818804473,
+      "eval_loss": 0.022262275218963623,
+      "eval_mean_accuracy": 0.9920321818804473,
+      "eval_mean_iou": 0.49601609094022364,
+      "eval_overall_accuracy": 0.9920321818804473,
+      "eval_runtime": 14.7545,
+      "eval_samples_per_second": 59.778,
+      "eval_steps_per_second": 7.523,
+      "step": 8125
+    },
+    {
+      "epoch": 13.6,
+      "grad_norm": 0.2837521731853485,
+      "learning_rate": 5.4755298016519184e-05,
+      "loss": 0.023011560440063476,
+      "step": 8500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9943180523216922,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9943180523216922,
+      "eval_loss": 0.022013485431671143,
+      "eval_mean_accuracy": 0.9943180523216922,
+      "eval_mean_iou": 0.4971590261608461,
+      "eval_overall_accuracy": 0.9943180523216922,
+      "eval_runtime": 14.3463,
+      "eval_samples_per_second": 61.479,
+      "eval_steps_per_second": 7.737,
+      "step": 8750
+    },
+    {
+      "epoch": 14.4,
+      "grad_norm": 0.2068459540605545,
+      "learning_rate": 5.3770733768437804e-05,
+      "loss": 0.022984485626220703,
+      "step": 9000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9925804513700699,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9925804513700699,
+      "eval_loss": 0.021278690546751022,
+      "eval_mean_accuracy": 0.9925804513700699,
+      "eval_mean_iou": 0.49629022568503495,
+      "eval_overall_accuracy": 0.9925804513700699,
+      "eval_runtime": 15.0289,
+      "eval_samples_per_second": 58.687,
+      "eval_steps_per_second": 7.386,
+      "step": 9375
+    },
+    {
+      "epoch": 15.2,
+      "grad_norm": 0.28135085105895996,
+      "learning_rate": 5.271204116133174e-05,
+      "loss": 0.022900413513183594,
+      "step": 9500
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.3188186287879944,
+      "learning_rate": 5.158252169806754e-05,
+      "loss": 0.02281988716125488,
+      "step": 10000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9927684136520576,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9927684136520576,
+      "eval_loss": 0.02082865871489048,
+      "eval_mean_accuracy": 0.9927684136520576,
+      "eval_mean_iou": 0.4963842068260288,
+      "eval_overall_accuracy": 0.9927684136520576,
+      "eval_runtime": 14.8833,
+      "eval_samples_per_second": 59.261,
+      "eval_steps_per_second": 7.458,
+      "step": 10000
+    },
+    {
+      "epoch": 16.8,
+      "grad_norm": 0.2763194143772125,
+      "learning_rate": 5.038569775305373e-05,
+      "loss": 0.02196409034729004,
+      "step": 10500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.993036650688435,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.993036650688435,
+      "eval_loss": 0.020577579736709595,
+      "eval_mean_accuracy": 0.993036650688435,
+      "eval_mean_iou": 0.4965183253442175,
+      "eval_overall_accuracy": 0.993036650688435,
+      "eval_runtime": 14.9738,
+      "eval_samples_per_second": 58.903,
+      "eval_steps_per_second": 7.413,
+      "step": 10625
+    },
+    {
+      "epoch": 17.6,
+      "grad_norm": 0.20888900756835938,
+      "learning_rate": 4.912530158781619e-05,
+      "loss": 0.02165799331665039,
+      "step": 11000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9920524486787513,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9920524486787513,
+      "eval_loss": 0.020513063296675682,
+      "eval_mean_accuracy": 0.9920524486787513,
+      "eval_mean_iou": 0.49602622433937565,
+      "eval_overall_accuracy": 0.9920524486787513,
+      "eval_runtime": 14.9673,
+      "eval_samples_per_second": 58.929,
+      "eval_steps_per_second": 7.416,
+      "step": 11250
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 0.23501233756542206,
+      "learning_rate": 4.780526371204638e-05,
+      "loss": 0.021172378540039064,
+      "step": 11500
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9915265427945928,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9915265427945928,
+      "eval_loss": 0.020704658702015877,
+      "eval_mean_accuracy": 0.9915265427945928,
+      "eval_mean_iou": 0.4957632713972964,
+      "eval_overall_accuracy": 0.9915265427945928,
+      "eval_runtime": 14.982,
+      "eval_samples_per_second": 58.871,
+      "eval_steps_per_second": 7.409,
+      "step": 11875
+    },
+    {
+      "epoch": 19.2,
+      "grad_norm": 1.4721801280975342,
+      "learning_rate": 4.642970062641836e-05,
+      "loss": 0.02130653762817383,
+      "step": 12000
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.5824402570724487,
+      "learning_rate": 4.5002901985398264e-05,
+      "loss": 0.02092706298828125,
+      "step": 12500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9945885825217533,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9945885825217533,
+      "eval_loss": 0.02044781483709812,
+      "eval_mean_accuracy": 0.9945885825217533,
+      "eval_mean_iou": 0.49729429126087665,
+      "eval_overall_accuracy": 0.9945885825217533,
+      "eval_runtime": 14.9609,
+      "eval_samples_per_second": 58.954,
+      "eval_steps_per_second": 7.419,
+      "step": 12500
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 0.17007386684417725,
+      "learning_rate": 4.3529317220078455e-05,
+      "loss": 0.020286674499511718,
+      "step": 13000
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9937273277466255,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9937273277466255,
+      "eval_loss": 0.019753679633140564,
+      "eval_mean_accuracy": 0.9937273277466255,
+      "eval_mean_iou": 0.49686366387331277,
+      "eval_overall_accuracy": 0.9937273277466255,
+      "eval_runtime": 14.9415,
+      "eval_samples_per_second": 59.03,
+      "eval_steps_per_second": 7.429,
+      "step": 13125
+    },
+    {
+      "epoch": 21.6,
+      "grad_norm": 0.4324241876602173,
+      "learning_rate": 4.2013541662752865e-05,
+      "loss": 0.020156242370605468,
+      "step": 13500
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9927992276007593,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9927992276007593,
+      "eval_loss": 0.01961207203567028,
+      "eval_mean_accuracy": 0.9927992276007593,
+      "eval_mean_iou": 0.49639961380037967,
+      "eval_overall_accuracy": 0.9927992276007593,
+      "eval_runtime": 15.1325,
+      "eval_samples_per_second": 58.285,
+      "eval_steps_per_second": 7.335,
+      "step": 13750
+    },
+    {
+      "epoch": 22.4,
+      "grad_norm": 0.1799526959657669,
+      "learning_rate": 4.0460302216503615e-05,
+      "loss": 0.020241693496704103,
+      "step": 14000
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9942146776248755,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9942146776248755,
+      "eval_loss": 0.020346596837043762,
+      "eval_mean_accuracy": 0.9942146776248755,
+      "eval_mean_iou": 0.49710733881243774,
+      "eval_overall_accuracy": 0.9942146776248755,
+      "eval_runtime": 15.1085,
+      "eval_samples_per_second": 58.378,
+      "eval_steps_per_second": 7.347,
+      "step": 14375
+    },
+    {
+      "epoch": 23.2,
+      "grad_norm": 0.19619110226631165,
+      "learning_rate": 3.887444261448782e-05,
+      "loss": 0.019864578247070313,
+      "step": 14500
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.24014325439929962,
+      "learning_rate": 3.726090831489309e-05,
+      "loss": 0.01975071907043457,
+      "step": 15000
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9932115552616192,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9932115552616192,
+      "eval_loss": 0.01964355632662773,
+      "eval_mean_accuracy": 0.9932115552616192,
+      "eval_mean_iou": 0.4966057776308096,
+      "eval_overall_accuracy": 0.9932115552616192,
+      "eval_runtime": 14.9831,
+      "eval_samples_per_second": 58.866,
+      "eval_steps_per_second": 7.408,
+      "step": 15000
+    },
+    {
+      "epoch": 24.8,
+      "grad_norm": 0.17266370356082916,
+      "learning_rate": 3.5624731078666494e-05,
+      "loss": 0.01938687515258789,
+      "step": 15500
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy_background": NaN,
+      "eval_accuracy_crop": 0.9932365837056147,
+      "eval_iou_background": 0.0,
+      "eval_iou_crop": 0.9932365837056147,
+      "eval_loss": 0.019678112119436264,
+      "eval_mean_accuracy": 0.9932365837056147,
+      "eval_mean_iou": 0.49661829185280737,
+      "eval_overall_accuracy": 0.9932365837056147,
+      "eval_runtime": 15.0672,
+      "eval_samples_per_second": 58.538,
+      "eval_steps_per_second": 7.367,
+      "step": 15625
+    },
+    {
+      "epoch": 25.0,
+      "step": 15625,
+      "total_flos": 2.1901180424159232e+18,
+      "train_loss": 0.0420909201965332,
+      "train_runtime": 1897.2835,
+      "train_samples_per_second": 131.715,
+      "train_steps_per_second": 16.471
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 31250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1901180424159232e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f90cac500d7f39f5a5166c24c0652bb66ac9ab0b7692e80bab038d7b46f8fd6
+size 5329