Docty commited on Sep 20, 2025

Commit

d28cee0

verified ·

1 Parent(s): 545909d

End of training

Browse files

Files changed (27) hide show

.gitattributes +4 -0
README.md +25 -41
all_results.json +11 -11
checkpoint-170/model.safetensors +1 -1
checkpoint-170/optimizer.pt +1 -1
checkpoint-170/scheduler.pt +1 -1
checkpoint-170/trainer_state.json +60 -60
checkpoint-170/training_args.bin +1 -1
checkpoint-340/config.json +46 -0
checkpoint-340/model.safetensors +3 -0
checkpoint-340/optimizer.pt +3 -0
checkpoint-340/preprocessor_config.json +23 -0
checkpoint-340/rng_state.pth +3 -0
checkpoint-340/scheduler.pt +3 -0
checkpoint-340/trainer_state.json +290 -0
checkpoint-340/training_args.bin +3 -0
eval_results.json +6 -6
image_0.png +2 -2
image_1.png +2 -2
image_2.png +2 -2
image_3.png +2 -2
image_4.png +3 -0
image_5.png +3 -0
image_6.png +3 -0
image_7.png +3 -0
train_results.json +6 -6
trainer_state.json +199 -71

.gitattributes CHANGED Viewed

@@ -37,3 +37,7 @@ image_0.png filter=lfs diff=lfs merge=lfs -text
 image_1.png filter=lfs diff=lfs merge=lfs -text
 image_2.png filter=lfs diff=lfs merge=lfs -text
 image_3.png filter=lfs diff=lfs merge=lfs -text

 image_1.png filter=lfs diff=lfs merge=lfs -text
 image_2.png filter=lfs diff=lfs merge=lfs -text
 image_3.png filter=lfs diff=lfs merge=lfs -text
+image_4.png filter=lfs diff=lfs merge=lfs -text
+image_5.png filter=lfs diff=lfs merge=lfs -text
+image_6.png filter=lfs diff=lfs merge=lfs -text
+image_7.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,62 +1,46 @@
 ---
-library_name: transformers
-license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
-- generated_from_trainer
-metrics:
-- accuracy
-model-index:
-- name: mangoes
-  results: []
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# mangoes
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.7385
-- Accuracy: 0.9792
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 1337
-- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: linear
-- num_epochs: 2.0
-### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 1.0281        | 1.0   | 170  | 1.0490          | 0.9583   |
-| 0.7454        | 2.0   | 340  | 0.7385          | 0.9792   |
-### Framework versions
-- Transformers 4.56.1
-- Pytorch 2.8.0+cu126
-- Datasets 4.0.0
-- Tokenizers 0.22.0

 ---
 base_model: google/vit-base-patch16-224-in21k
+library_name: transformers
+license: creativeml-openrail-m
+inference: true
 tags:
+- image-classification
 ---
+<!-- This model card has been generated automatically according to the information the training script had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Image Classification
+This model is a fine-tuned version of google/vit-base-patch16-224-in21k on the Docty/Mangovariety dataset.
+You can find some example images in the following.
+![img_0](./image_0.png)
+![img_1](./image_1.png)
+![img_2](./image_2.png)
+![img_3](./image_3.png)
+![img_4](./image_4.png)
+![img_5](./image_5.png)
+![img_6](./image_6.png)
+![img_7](./image_7.png)
+## Intended uses & limitations
+#### How to use
+```python
+# TODO: add an example code snippet for running this diffusion pipeline
+```
+#### Limitations and bias
+[TODO: provide examples of latent issues and potential remediations]
+## Training details
+[TODO: describe the data used to train the model]

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.925,
-    "eval_loss": 1.3396402597427368,
-    "eval_runtime": 4.0715,
-    "eval_samples_per_second": 58.946,
-    "eval_steps_per_second": 7.368,
-    "total_flos": 1.0539477329117184e+17,
-    "train_loss": 1.6162697343265309,
-    "train_runtime": 67.3955,
-    "train_samples_per_second": 20.179,
-    "train_steps_per_second": 2.522
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9791666666666666,
+    "eval_loss": 0.7385169267654419,
+    "eval_runtime": 4.5071,
+    "eval_samples_per_second": 53.249,
+    "eval_steps_per_second": 6.656,
+    "total_flos": 2.1078954658234368e+17,
+    "train_loss": 1.1879772003959208,
+    "train_runtime": 144.3943,
+    "train_samples_per_second": 18.837,
+    "train_steps_per_second": 2.355
 }

checkpoint-170/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c400d5ae11b7befb7cfc65d363d46ed164c34af774aab4f4604d03e3c5c0f1d
 size 343242432

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ab69531c641f042913217e8f611cc8af2ad491b9472fd164700a7b7c9a63bcb
 size 343242432

checkpoint-170/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cadfbd449ff36f3ea169dce8a96f1e6ad6c7b610cbf342866dc0aa99763da6db
 size 686608971

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c149235ca004d00f0368794e443c054747de8b2e63e0c61434315a24a95fbf5
 size 686608971

checkpoint-170/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d0b8f847c4abee6cbf37f74529475bcc76504fb647877758e521590108eadde
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:88fbf6c00ad9453b86326498cdabcc19864275d1be005c45025374c29581a749
 size 1465

checkpoint-170/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 170,
-  "best_metric": 1.3396402597427368,
   "best_model_checkpoint": "./mangoes/checkpoint-170",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,137 +11,137 @@
   "log_history": [
     {
       "epoch": 0.058823529411764705,
-      "grad_norm": 1.9543970823287964,
-      "learning_rate": 1.8941176470588238e-05,
-      "loss": 2.0442,
       "step": 10
     },
     {
       "epoch": 0.11764705882352941,
-      "grad_norm": 3.168637275695801,
-      "learning_rate": 1.776470588235294e-05,
-      "loss": 2.0181,
       "step": 20
     },
     {
       "epoch": 0.17647058823529413,
-      "grad_norm": 3.1181507110595703,
-      "learning_rate": 1.658823529411765e-05,
-      "loss": 1.9073,
       "step": 30
     },
     {
       "epoch": 0.23529411764705882,
-      "grad_norm": 2.7099850177764893,
-      "learning_rate": 1.5411764705882356e-05,
-      "loss": 1.8321,
       "step": 40
     },
     {
       "epoch": 0.29411764705882354,
-      "grad_norm": 3.0820131301879883,
-      "learning_rate": 1.423529411764706e-05,
-      "loss": 1.7744,
       "step": 50
     },
     {
       "epoch": 0.35294117647058826,
-      "grad_norm": 3.182910442352295,
-      "learning_rate": 1.3058823529411766e-05,
-      "loss": 1.7882,
       "step": 60
     },
     {
       "epoch": 0.4117647058823529,
-      "grad_norm": 2.999581813812256,
-      "learning_rate": 1.1882352941176472e-05,
-      "loss": 1.6671,
       "step": 70
     },
     {
       "epoch": 0.47058823529411764,
-      "grad_norm": 3.62984299659729,
-      "learning_rate": 1.0705882352941178e-05,
-      "loss": 1.6369,
       "step": 80
     },
     {
       "epoch": 0.5294117647058824,
-      "grad_norm": 3.2714788913726807,
-      "learning_rate": 9.529411764705882e-06,
-      "loss": 1.5923,
       "step": 90
     },
     {
       "epoch": 0.5882352941176471,
-      "grad_norm": 3.1325395107269287,
-      "learning_rate": 8.35294117647059e-06,
-      "loss": 1.4627,
       "step": 100
     },
     {
       "epoch": 0.6470588235294118,
-      "grad_norm": 3.435844898223877,
-      "learning_rate": 7.176470588235295e-06,
-      "loss": 1.5063,
       "step": 110
     },
     {
       "epoch": 0.7058823529411765,
-      "grad_norm": 3.5805537700653076,
-      "learning_rate": 6e-06,
-      "loss": 1.4239,
       "step": 120
     },
     {
       "epoch": 0.7647058823529411,
-      "grad_norm": 3.2065505981445312,
-      "learning_rate": 4.823529411764706e-06,
-      "loss": 1.4303,
       "step": 130
     },
     {
       "epoch": 0.8235294117647058,
-      "grad_norm": 3.3940041065216064,
-      "learning_rate": 3.6470588235294117e-06,
-      "loss": 1.3697,
       "step": 140
     },
     {
       "epoch": 0.8823529411764706,
-      "grad_norm": 2.9482526779174805,
-      "learning_rate": 2.470588235294118e-06,
-      "loss": 1.3706,
       "step": 150
     },
     {
       "epoch": 0.9411764705882353,
-      "grad_norm": 3.306838035583496,
-      "learning_rate": 1.2941176470588237e-06,
-      "loss": 1.3454,
       "step": 160
     },
     {
       "epoch": 1.0,
-      "grad_norm": 3.1316869258880615,
-      "learning_rate": 1.1764705882352942e-07,
-      "loss": 1.3072,
       "step": 170
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 1.3396402597427368,
-      "eval_runtime": 3.5845,
-      "eval_samples_per_second": 66.955,
-      "eval_steps_per_second": 8.369,
       "step": 170
     }
   ],
   "logging_steps": 10,
-  "max_steps": 170,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -150,7 +150,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

 {
   "best_global_step": 170,
+  "best_metric": 1.0490069389343262,
   "best_model_checkpoint": "./mangoes/checkpoint-170",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.058823529411764705,
+      "grad_norm": 1.9217854738235474,
+      "learning_rate": 1.9470588235294118e-05,
+      "loss": 2.044,
       "step": 10
     },
     {
       "epoch": 0.11764705882352941,
+      "grad_norm": 3.201918363571167,
+      "learning_rate": 1.888235294117647e-05,
+      "loss": 2.0161,
       "step": 20
     },
     {
       "epoch": 0.17647058823529413,
+      "grad_norm": 3.1314334869384766,
+      "learning_rate": 1.8294117647058824e-05,
+      "loss": 1.9021,
       "step": 30
     },
     {
       "epoch": 0.23529411764705882,
+      "grad_norm": 2.9427032470703125,
+      "learning_rate": 1.7705882352941177e-05,
+      "loss": 1.8208,
       "step": 40
     },
     {
       "epoch": 0.29411764705882354,
+      "grad_norm": 3.096381425857544,
+      "learning_rate": 1.711764705882353e-05,
+      "loss": 1.7553,
       "step": 50
     },
     {
       "epoch": 0.35294117647058826,
+      "grad_norm": 3.1433303356170654,
+      "learning_rate": 1.6529411764705883e-05,
+      "loss": 1.7674,
       "step": 60
     },
     {
       "epoch": 0.4117647058823529,
+      "grad_norm": 3.0195441246032715,
+      "learning_rate": 1.594117647058824e-05,
+      "loss": 1.6242,
       "step": 70
     },
     {
       "epoch": 0.47058823529411764,
+      "grad_norm": 3.748368740081787,
+      "learning_rate": 1.535294117647059e-05,
+      "loss": 1.5804,
       "step": 80
     },
     {
       "epoch": 0.5294117647058824,
+      "grad_norm": 2.8905935287475586,
+      "learning_rate": 1.4764705882352944e-05,
+      "loss": 1.5126,
       "step": 90
     },
     {
       "epoch": 0.5882352941176471,
+      "grad_norm": 3.1870696544647217,
+      "learning_rate": 1.4176470588235297e-05,
+      "loss": 1.3781,
       "step": 100
     },
     {
       "epoch": 0.6470588235294118,
+      "grad_norm": 3.208005428314209,
+      "learning_rate": 1.3588235294117648e-05,
+      "loss": 1.4037,
       "step": 110
     },
     {
       "epoch": 0.7058823529411765,
+      "grad_norm": 4.6087236404418945,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.2771,
       "step": 120
     },
     {
       "epoch": 0.7647058823529411,
+      "grad_norm": 3.6908063888549805,
+      "learning_rate": 1.2411764705882354e-05,
+      "loss": 1.2711,
       "step": 130
     },
     {
       "epoch": 0.8235294117647058,
+      "grad_norm": 3.6166765689849854,
+      "learning_rate": 1.1823529411764707e-05,
+      "loss": 1.192,
       "step": 140
     },
     {
       "epoch": 0.8823529411764706,
+      "grad_norm": 3.6934988498687744,
+      "learning_rate": 1.123529411764706e-05,
+      "loss": 1.1566,
       "step": 150
     },
     {
       "epoch": 0.9411764705882353,
+      "grad_norm": 3.789727210998535,
+      "learning_rate": 1.0647058823529413e-05,
+      "loss": 1.1063,
       "step": 160
     },
     {
       "epoch": 1.0,
+      "grad_norm": 3.842630386352539,
+      "learning_rate": 1.0058823529411766e-05,
+      "loss": 1.0281,
       "step": 170
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9583333333333334,
+      "eval_loss": 1.0490069389343262,
+      "eval_runtime": 6.306,
+      "eval_samples_per_second": 38.059,
+      "eval_steps_per_second": 4.757,
       "step": 170
     }
   ],
   "logging_steps": 10,
+  "max_steps": 340,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

checkpoint-170/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:893ca9b2102cd9b45b14bed6a9a6e70a0788bcd8b2b3081bfc3f818b64ed24e0
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:6254db31a7a2ebc2b5442f55a1856e38f567ff87f688b6fada24c5e7ff0ac863
 size 5777

checkpoint-340/config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "dtype": "float32",
+  "encoder_stride": 16,
+  "finetuning_task": "image-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Dosehri",
+    "1": "Sindhri",
+    "2": "Fajri",
+    "3": "Anwar Ratool",
+    "4": "Chaunsa (White)",
+    "5": "Langra",
+    "6": "Chaunsa (Black)",
+    "7": "Chaunsa (Summer Bahisht)"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Anwar Ratool": "3",
+    "Chaunsa (Black)": "6",
+    "Chaunsa (Summer Bahisht)": "7",
+    "Chaunsa (White)": "4",
+    "Dosehri": "0",
+    "Fajri": "2",
+    "Langra": "5",
+    "Sindhri": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "pooler_act": "tanh",
+  "pooler_output_size": 768,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "transformers_version": "4.56.1"
+}

checkpoint-340/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fb1fa9e80bf4eab83cc18c0c74bba63792386caef2b2130f2b5d423f7175e6c
+size 343242432

checkpoint-340/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:59b16c886c04057328c26eb6f50af8894e0a5f4abd74c1d246d97a20fac0e932
+size 686608971

checkpoint-340/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-340/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f404e05f6f5caffea0dc19f6a0ca097e8fa9410c78b5bb911b30fe514e69efb
+size 14709

checkpoint-340/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76435d73fd4ee716fd8f4c37788fb374f3e2219f1c374082298b0111fccbbcd
+size 1465

checkpoint-340/trainer_state.json ADDED Viewed

	@@ -0,0 +1,290 @@

+{
+  "best_global_step": 340,
+  "best_metric": 0.7385169267654419,
+  "best_model_checkpoint": "./mangoes/checkpoint-340",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 340,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 1.9217854738235474,
+      "learning_rate": 1.9470588235294118e-05,
+      "loss": 2.044,
+      "step": 10
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 3.201918363571167,
+      "learning_rate": 1.888235294117647e-05,
+      "loss": 2.0161,
+      "step": 20
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 3.1314334869384766,
+      "learning_rate": 1.8294117647058824e-05,
+      "loss": 1.9021,
+      "step": 30
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 2.9427032470703125,
+      "learning_rate": 1.7705882352941177e-05,
+      "loss": 1.8208,
+      "step": 40
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 3.096381425857544,
+      "learning_rate": 1.711764705882353e-05,
+      "loss": 1.7553,
+      "step": 50
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 3.1433303356170654,
+      "learning_rate": 1.6529411764705883e-05,
+      "loss": 1.7674,
+      "step": 60
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 3.0195441246032715,
+      "learning_rate": 1.594117647058824e-05,
+      "loss": 1.6242,
+      "step": 70
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 3.748368740081787,
+      "learning_rate": 1.535294117647059e-05,
+      "loss": 1.5804,
+      "step": 80
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 2.8905935287475586,
+      "learning_rate": 1.4764705882352944e-05,
+      "loss": 1.5126,
+      "step": 90
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 3.1870696544647217,
+      "learning_rate": 1.4176470588235297e-05,
+      "loss": 1.3781,
+      "step": 100
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 3.208005428314209,
+      "learning_rate": 1.3588235294117648e-05,
+      "loss": 1.4037,
+      "step": 110
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 4.6087236404418945,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.2771,
+      "step": 120
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 3.6908063888549805,
+      "learning_rate": 1.2411764705882354e-05,
+      "loss": 1.2711,
+      "step": 130
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 3.6166765689849854,
+      "learning_rate": 1.1823529411764707e-05,
+      "loss": 1.192,
+      "step": 140
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 3.6934988498687744,
+      "learning_rate": 1.123529411764706e-05,
+      "loss": 1.1566,
+      "step": 150
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 3.789727210998535,
+      "learning_rate": 1.0647058823529413e-05,
+      "loss": 1.1063,
+      "step": 160
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.842630386352539,
+      "learning_rate": 1.0058823529411766e-05,
+      "loss": 1.0281,
+      "step": 170
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9583333333333334,
+      "eval_loss": 1.0490069389343262,
+      "eval_runtime": 6.306,
+      "eval_samples_per_second": 38.059,
+      "eval_steps_per_second": 4.757,
+      "step": 170
+    },
+    {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 3.8409788608551025,
+      "learning_rate": 9.470588235294119e-06,
+      "loss": 1.0169,
+      "step": 180
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 2.461111068725586,
+      "learning_rate": 8.88235294117647e-06,
+      "loss": 0.9592,
+      "step": 190
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 3.7472541332244873,
+      "learning_rate": 8.294117647058825e-06,
+      "loss": 1.014,
+      "step": 200
+    },
+    {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 4.744520664215088,
+      "learning_rate": 7.705882352941178e-06,
+      "loss": 0.9485,
+      "step": 210
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 2.4809184074401855,
+      "learning_rate": 7.11764705882353e-06,
+      "loss": 0.956,
+      "step": 220
+    },
+    {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 6.709966659545898,
+      "learning_rate": 6.529411764705883e-06,
+      "loss": 0.9707,
+      "step": 230
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 4.961846828460693,
+      "learning_rate": 5.941176470588236e-06,
+      "loss": 0.8539,
+      "step": 240
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 5.209068298339844,
+      "learning_rate": 5.352941176470589e-06,
+      "loss": 0.8284,
+      "step": 250
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 3.826070547103882,
+      "learning_rate": 4.764705882352941e-06,
+      "loss": 0.8226,
+      "step": 260
+    },
+    {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 2.8872721195220947,
+      "learning_rate": 4.176470588235295e-06,
+      "loss": 0.7727,
+      "step": 270
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 3.0581214427948,
+      "learning_rate": 3.5882352941176475e-06,
+      "loss": 0.7841,
+      "step": 280
+    },
+    {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 4.626227855682373,
+      "learning_rate": 3e-06,
+      "loss": 0.7934,
+      "step": 290
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 2.622793436050415,
+      "learning_rate": 2.411764705882353e-06,
+      "loss": 0.7713,
+      "step": 300
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 2.549530267715454,
+      "learning_rate": 1.8235294117647058e-06,
+      "loss": 0.7459,
+      "step": 310
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 3.626901149749756,
+      "learning_rate": 1.235294117647059e-06,
+      "loss": 0.8056,
+      "step": 320
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 2.356318950653076,
+      "learning_rate": 6.470588235294118e-07,
+      "loss": 0.7665,
+      "step": 330
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 4.176856517791748,
+      "learning_rate": 5.882352941176471e-08,
+      "loss": 0.7454,
+      "step": 340
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_loss": 0.7385169267654419,
+      "eval_runtime": 3.873,
+      "eval_samples_per_second": 61.967,
+      "eval_steps_per_second": 7.746,
+      "step": 340
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 340,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.1078954658234368e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-340/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6254db31a7a2ebc2b5442f55a1856e38f567ff87f688b6fada24c5e7ff0ac863
+size 5777

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.925,
-    "eval_loss": 1.3396402597427368,
-    "eval_runtime": 4.0715,
-    "eval_samples_per_second": 58.946,
-    "eval_steps_per_second": 7.368
 }

 {
+    "epoch": 2.0,
+    "eval_accuracy": 0.9791666666666666,
+    "eval_loss": 0.7385169267654419,
+    "eval_runtime": 4.5071,
+    "eval_samples_per_second": 53.249,
+    "eval_steps_per_second": 6.656
 }

image_0.png CHANGED Viewed

Git LFS Details

SHA256: 0be8f58b4b6d41413d300543ee67f999305c7b14354f87e6f8231b5ed4f4c4c2
Pointer size: 131 Bytes
Size of remote file: 244 kB

Git LFS Details

SHA256: 8a9e167d0297ccafbd8ad85d623d75766a6bcb0c3887ce9cb06f2c50360e860e
Pointer size: 131 Bytes
Size of remote file: 324 kB

image_1.png CHANGED Viewed

Git LFS Details

SHA256: cac2905641f3a12b78857dbd6c9911bf4353f43626460809c402e68cdda9da39
Pointer size: 131 Bytes
Size of remote file: 300 kB

Git LFS Details

SHA256: 0be8f58b4b6d41413d300543ee67f999305c7b14354f87e6f8231b5ed4f4c4c2
Pointer size: 131 Bytes
Size of remote file: 244 kB

image_2.png CHANGED Viewed

Git LFS Details

SHA256: 8a9e167d0297ccafbd8ad85d623d75766a6bcb0c3887ce9cb06f2c50360e860e
Pointer size: 131 Bytes
Size of remote file: 324 kB

Git LFS Details

SHA256: 73d259138a0ec2a08db25248423c25f1ad1eae52d68af8d971b70da4a4da5532
Pointer size: 131 Bytes
Size of remote file: 227 kB

image_3.png CHANGED Viewed

Git LFS Details

SHA256: 73d259138a0ec2a08db25248423c25f1ad1eae52d68af8d971b70da4a4da5532
Pointer size: 131 Bytes
Size of remote file: 227 kB

Git LFS Details

SHA256: 22f98d05c4c88283bdeacf07b9b3b4db9af66be688a423beab90550f3f4cbdf5
Pointer size: 131 Bytes
Size of remote file: 252 kB

image_4.png ADDED Viewed

Git LFS Details

SHA256: cac2905641f3a12b78857dbd6c9911bf4353f43626460809c402e68cdda9da39
Pointer size: 131 Bytes
Size of remote file: 300 kB

image_5.png ADDED Viewed

Git LFS Details

SHA256: dbc7b24ed5d7a89bd53371c1a53d21a53725f84e779411dbea500bea9ae38d80
Pointer size: 131 Bytes
Size of remote file: 247 kB

image_6.png ADDED Viewed

Git LFS Details

SHA256: a9c3d3600a8e6f10f1c34f137732a81e7b7a9734e4b7e0512c84f48351682267
Pointer size: 131 Bytes
Size of remote file: 220 kB

image_7.png ADDED Viewed

Git LFS Details

SHA256: a99f844e8943ef41a29a7dbc6747e78e6cd68c3ad618c7c879d3ce71b3760ded
Pointer size: 131 Bytes
Size of remote file: 338 kB

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "total_flos": 1.0539477329117184e+17,
-    "train_loss": 1.6162697343265309,
-    "train_runtime": 67.3955,
-    "train_samples_per_second": 20.179,
-    "train_steps_per_second": 2.522
 }

 {
+    "epoch": 2.0,
+    "total_flos": 2.1078954658234368e+17,
+    "train_loss": 1.1879772003959208,
+    "train_runtime": 144.3943,
+    "train_samples_per_second": 18.837,
+    "train_steps_per_second": 2.355
 }

trainer_state.json CHANGED Viewed

@@ -1,156 +1,284 @@
 {
-  "best_global_step": 170,
-  "best_metric": 1.3396402597427368,
-  "best_model_checkpoint": "./mangoes/checkpoint-170",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.058823529411764705,
-      "grad_norm": 1.9543970823287964,
-      "learning_rate": 1.8941176470588238e-05,
-      "loss": 2.0442,
       "step": 10
     },
     {
       "epoch": 0.11764705882352941,
-      "grad_norm": 3.168637275695801,
-      "learning_rate": 1.776470588235294e-05,
-      "loss": 2.0181,
       "step": 20
     },
     {
       "epoch": 0.17647058823529413,
-      "grad_norm": 3.1181507110595703,
-      "learning_rate": 1.658823529411765e-05,
-      "loss": 1.9073,
       "step": 30
     },
     {
       "epoch": 0.23529411764705882,
-      "grad_norm": 2.7099850177764893,
-      "learning_rate": 1.5411764705882356e-05,
-      "loss": 1.8321,
       "step": 40
     },
     {
       "epoch": 0.29411764705882354,
-      "grad_norm": 3.0820131301879883,
-      "learning_rate": 1.423529411764706e-05,
-      "loss": 1.7744,
       "step": 50
     },
     {
       "epoch": 0.35294117647058826,
-      "grad_norm": 3.182910442352295,
-      "learning_rate": 1.3058823529411766e-05,
-      "loss": 1.7882,
       "step": 60
     },
     {
       "epoch": 0.4117647058823529,
-      "grad_norm": 2.999581813812256,
-      "learning_rate": 1.1882352941176472e-05,
-      "loss": 1.6671,
       "step": 70
     },
     {
       "epoch": 0.47058823529411764,
-      "grad_norm": 3.62984299659729,
-      "learning_rate": 1.0705882352941178e-05,
-      "loss": 1.6369,
       "step": 80
     },
     {
       "epoch": 0.5294117647058824,
-      "grad_norm": 3.2714788913726807,
-      "learning_rate": 9.529411764705882e-06,
-      "loss": 1.5923,
       "step": 90
     },
     {
       "epoch": 0.5882352941176471,
-      "grad_norm": 3.1325395107269287,
-      "learning_rate": 8.35294117647059e-06,
-      "loss": 1.4627,
       "step": 100
     },
     {
       "epoch": 0.6470588235294118,
-      "grad_norm": 3.435844898223877,
-      "learning_rate": 7.176470588235295e-06,
-      "loss": 1.5063,
       "step": 110
     },
     {
       "epoch": 0.7058823529411765,
-      "grad_norm": 3.5805537700653076,
-      "learning_rate": 6e-06,
-      "loss": 1.4239,
       "step": 120
     },
     {
       "epoch": 0.7647058823529411,
-      "grad_norm": 3.2065505981445312,
-      "learning_rate": 4.823529411764706e-06,
-      "loss": 1.4303,
       "step": 130
     },
     {
       "epoch": 0.8235294117647058,
-      "grad_norm": 3.3940041065216064,
-      "learning_rate": 3.6470588235294117e-06,
-      "loss": 1.3697,
       "step": 140
     },
     {
       "epoch": 0.8823529411764706,
-      "grad_norm": 2.9482526779174805,
-      "learning_rate": 2.470588235294118e-06,
-      "loss": 1.3706,
       "step": 150
     },
     {
       "epoch": 0.9411764705882353,
-      "grad_norm": 3.306838035583496,
-      "learning_rate": 1.2941176470588237e-06,
-      "loss": 1.3454,
       "step": 160
     },
     {
       "epoch": 1.0,
-      "grad_norm": 3.1316869258880615,
-      "learning_rate": 1.1764705882352942e-07,
-      "loss": 1.3072,
       "step": 170
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.925,
-      "eval_loss": 1.3396402597427368,
-      "eval_runtime": 3.5845,
-      "eval_samples_per_second": 66.955,
-      "eval_steps_per_second": 8.369,
       "step": 170
     },
     {
-      "epoch": 1.0,
-      "step": 170,
-      "total_flos": 1.0539477329117184e+17,
-      "train_loss": 1.6162697343265309,
-      "train_runtime": 67.3955,
-      "train_samples_per_second": 20.179,
-      "train_steps_per_second": 2.522
     }
   ],
   "logging_steps": 10,
-  "max_steps": 170,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -164,7 +292,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0539477329117184e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 340,
+  "best_metric": 0.7385169267654419,
+  "best_model_checkpoint": "./mangoes/checkpoint-340",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.058823529411764705,
+      "grad_norm": 1.9217854738235474,
+      "learning_rate": 1.9470588235294118e-05,
+      "loss": 2.044,
       "step": 10
     },
     {
       "epoch": 0.11764705882352941,
+      "grad_norm": 3.201918363571167,
+      "learning_rate": 1.888235294117647e-05,
+      "loss": 2.0161,
       "step": 20
     },
     {
       "epoch": 0.17647058823529413,
+      "grad_norm": 3.1314334869384766,
+      "learning_rate": 1.8294117647058824e-05,
+      "loss": 1.9021,
       "step": 30
     },
     {
       "epoch": 0.23529411764705882,
+      "grad_norm": 2.9427032470703125,
+      "learning_rate": 1.7705882352941177e-05,
+      "loss": 1.8208,
       "step": 40
     },
     {
       "epoch": 0.29411764705882354,
+      "grad_norm": 3.096381425857544,
+      "learning_rate": 1.711764705882353e-05,
+      "loss": 1.7553,
       "step": 50
     },
     {
       "epoch": 0.35294117647058826,
+      "grad_norm": 3.1433303356170654,
+      "learning_rate": 1.6529411764705883e-05,
+      "loss": 1.7674,
       "step": 60
     },
     {
       "epoch": 0.4117647058823529,
+      "grad_norm": 3.0195441246032715,
+      "learning_rate": 1.594117647058824e-05,
+      "loss": 1.6242,
       "step": 70
     },
     {
       "epoch": 0.47058823529411764,
+      "grad_norm": 3.748368740081787,
+      "learning_rate": 1.535294117647059e-05,
+      "loss": 1.5804,
       "step": 80
     },
     {
       "epoch": 0.5294117647058824,
+      "grad_norm": 2.8905935287475586,
+      "learning_rate": 1.4764705882352944e-05,
+      "loss": 1.5126,
       "step": 90
     },
     {
       "epoch": 0.5882352941176471,
+      "grad_norm": 3.1870696544647217,
+      "learning_rate": 1.4176470588235297e-05,
+      "loss": 1.3781,
       "step": 100
     },
     {
       "epoch": 0.6470588235294118,
+      "grad_norm": 3.208005428314209,
+      "learning_rate": 1.3588235294117648e-05,
+      "loss": 1.4037,
       "step": 110
     },
     {
       "epoch": 0.7058823529411765,
+      "grad_norm": 4.6087236404418945,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.2771,
       "step": 120
     },
     {
       "epoch": 0.7647058823529411,
+      "grad_norm": 3.6908063888549805,
+      "learning_rate": 1.2411764705882354e-05,
+      "loss": 1.2711,
       "step": 130
     },
     {
       "epoch": 0.8235294117647058,
+      "grad_norm": 3.6166765689849854,
+      "learning_rate": 1.1823529411764707e-05,
+      "loss": 1.192,
       "step": 140
     },
     {
       "epoch": 0.8823529411764706,
+      "grad_norm": 3.6934988498687744,
+      "learning_rate": 1.123529411764706e-05,
+      "loss": 1.1566,
       "step": 150
     },
     {
       "epoch": 0.9411764705882353,
+      "grad_norm": 3.789727210998535,
+      "learning_rate": 1.0647058823529413e-05,
+      "loss": 1.1063,
       "step": 160
     },
     {
       "epoch": 1.0,
+      "grad_norm": 3.842630386352539,
+      "learning_rate": 1.0058823529411766e-05,
+      "loss": 1.0281,
       "step": 170
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9583333333333334,
+      "eval_loss": 1.0490069389343262,
+      "eval_runtime": 6.306,
+      "eval_samples_per_second": 38.059,
+      "eval_steps_per_second": 4.757,
       "step": 170
     },
     {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 3.8409788608551025,
+      "learning_rate": 9.470588235294119e-06,
+      "loss": 1.0169,
+      "step": 180
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 2.461111068725586,
+      "learning_rate": 8.88235294117647e-06,
+      "loss": 0.9592,
+      "step": 190
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 3.7472541332244873,
+      "learning_rate": 8.294117647058825e-06,
+      "loss": 1.014,
+      "step": 200
+    },
+    {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 4.744520664215088,
+      "learning_rate": 7.705882352941178e-06,
+      "loss": 0.9485,
+      "step": 210
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 2.4809184074401855,
+      "learning_rate": 7.11764705882353e-06,
+      "loss": 0.956,
+      "step": 220
+    },
+    {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 6.709966659545898,
+      "learning_rate": 6.529411764705883e-06,
+      "loss": 0.9707,
+      "step": 230
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 4.961846828460693,
+      "learning_rate": 5.941176470588236e-06,
+      "loss": 0.8539,
+      "step": 240
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 5.209068298339844,
+      "learning_rate": 5.352941176470589e-06,
+      "loss": 0.8284,
+      "step": 250
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 3.826070547103882,
+      "learning_rate": 4.764705882352941e-06,
+      "loss": 0.8226,
+      "step": 260
+    },
+    {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 2.8872721195220947,
+      "learning_rate": 4.176470588235295e-06,
+      "loss": 0.7727,
+      "step": 270
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 3.0581214427948,
+      "learning_rate": 3.5882352941176475e-06,
+      "loss": 0.7841,
+      "step": 280
+    },
+    {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 4.626227855682373,
+      "learning_rate": 3e-06,
+      "loss": 0.7934,
+      "step": 290
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 2.622793436050415,
+      "learning_rate": 2.411764705882353e-06,
+      "loss": 0.7713,
+      "step": 300
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 2.549530267715454,
+      "learning_rate": 1.8235294117647058e-06,
+      "loss": 0.7459,
+      "step": 310
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 3.626901149749756,
+      "learning_rate": 1.235294117647059e-06,
+      "loss": 0.8056,
+      "step": 320
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 2.356318950653076,
+      "learning_rate": 6.470588235294118e-07,
+      "loss": 0.7665,
+      "step": 330
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 4.176856517791748,
+      "learning_rate": 5.882352941176471e-08,
+      "loss": 0.7454,
+      "step": 340
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9791666666666666,
+      "eval_loss": 0.7385169267654419,
+      "eval_runtime": 3.873,
+      "eval_samples_per_second": 61.967,
+      "eval_steps_per_second": 7.746,
+      "step": 340
+    },
+    {
+      "epoch": 2.0,
+      "step": 340,
+      "total_flos": 2.1078954658234368e+17,
+      "train_loss": 1.1879772003959208,
+      "train_runtime": 144.3943,
+      "train_samples_per_second": 18.837,
+      "train_steps_per_second": 2.355
     }
   ],
   "logging_steps": 10,
+  "max_steps": 340,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.1078954658234368e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null