added preprocessor

Browse files

Files changed (9) hide show

README.md +8 -10
all_results.json +4 -4
config.json +74 -74
model.safetensors +1 -1
preprocessor_config.json +36 -0
runs/Mar30_10-54-27_5905f67ec798/events.out.tfevents.1711796077.5905f67ec798.70.0 +3 -0
train_results.json +4 -4
trainer_state.json +91 -270
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0037
-- Accuracy: 0.9995
 ## Model description
@@ -39,8 +39,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
-- train_batch_size: 64
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -51,15 +51,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.3546        | 0.86  | 100  | 0.1640          | 0.9545   |
-| 0.0922        | 1.72  | 200  | 0.0596          | 0.9850   |
-| 0.0421        | 2.59  | 300  | 0.0214          | 0.9939   |
-| 0.0087        | 3.45  | 400  | 0.0037          | 0.9995   |
 ### Framework versions
 - Transformers 4.39.2
-- Pytorch 2.2.1+cu121
-- Datasets 2.18.0
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0046
+- Accuracy: 0.9989
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
+- train_batch_size: 128
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.0887        | 1.72  | 100  | 0.0765          | 0.9774   |
+| 0.0045        | 3.45  | 200  | 0.0046          | 0.9989   |
 ### Framework versions
 - Transformers 4.39.2
+- Pytorch 2.1.2
+- Datasets 2.16.0
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.18540822506223903,
-    "train_runtime": 740.8045,
-    "train_samples_per_second": 39.903,
-    "train_steps_per_second": 0.626
 }

 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.202088082896682,
+    "train_runtime": 854.7685,
+    "train_samples_per_second": 34.582,
+    "train_steps_per_second": 0.271
 }

config.json CHANGED Viewed

@@ -9,85 +9,85 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "yorkshire terrier Dog",
-    "1": "Birman Cat",
-    "10": "pug Dog",
-    "11": "Persian Cat",
-    "12": "english setter Dog",
-    "13": "american pit bull terrier Dog",
-    "14": "chihuahua Dog",
-    "15": "pomeranian Dog",
-    "16": "great pyrenees Dog",
-    "17": "scottish terrier Dog",
-    "18": "miniature pinscher Dog",
-    "19": "Sphynx Cat",
-    "2": "german shorthaired Dog",
-    "20": "Maine Coon Cat",
-    "21": "saint bernard Dog",
-    "22": "Siamese Cat",
-    "23": "american bulldog Dog",
-    "24": "newfoundland Dog",
-    "25": "Abyssinian Cat",
-    "26": "leonberger Dog",
-    "27": "beagle Dog",
-    "28": "Egyptian Mau Cat",
-    "29": "boxer Dog",
-    "3": "keeshond Dog",
-    "30": "British Shorthair Cat",
-    "31": "staffordshire bull terrier Dog",
-    "32": "samoyed Dog",
-    "33": "basset hound Dog",
-    "34": "Bengal Cat",
-    "35": "Bombay Cat",
-    "36": "Russian Blue Cat",
-    "4": "havanese Dog",
-    "5": "wheaten terrier Dog",
-    "6": "shiba inu Dog",
-    "7": "Ragdoll Cat",
-    "8": "japanese chin Dog",
-    "9": "english cocker spaniel Dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "Abyssinian Cat": "25",
-    "Bengal Cat": "34",
-    "Birman Cat": "1",
-    "Bombay Cat": "35",
-    "British Shorthair Cat": "30",
-    "Egyptian Mau Cat": "28",
-    "Maine Coon Cat": "20",
-    "Persian Cat": "11",
-    "Ragdoll Cat": "7",
-    "Russian Blue Cat": "36",
-    "Siamese Cat": "22",
-    "Sphynx Cat": "19",
-    "american bulldog Dog": "23",
-    "american pit bull terrier Dog": "13",
-    "basset hound Dog": "33",
-    "beagle Dog": "27",
-    "boxer Dog": "29",
-    "chihuahua Dog": "14",
-    "english cocker spaniel Dog": "9",
-    "english setter Dog": "12",
-    "german shorthaired Dog": "2",
-    "great pyrenees Dog": "16",
-    "havanese Dog": "4",
-    "japanese chin Dog": "8",
-    "keeshond Dog": "3",
-    "leonberger Dog": "26",
-    "miniature pinscher Dog": "18",
-    "newfoundland Dog": "24",
-    "pomeranian Dog": "15",
-    "pug Dog": "10",
-    "saint bernard Dog": "21",
-    "samoyed Dog": "32",
-    "scottish terrier Dog": "17",
-    "shiba inu Dog": "6",
-    "staffordshire bull terrier Dog": "31",
-    "wheaten terrier Dog": "5",
-    "yorkshire terrier Dog": "0"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "pug Dog",
+    "1": "japanese chin Dog",
+    "10": "Ragdoll Cat",
+    "11": "scottish terrier Dog",
+    "12": "shiba inu Dog",
+    "13": "chihuahua Dog",
+    "14": "samoyed Dog",
+    "15": "Maine Coon Cat",
+    "16": "newfoundland Dog",
+    "17": "Abyssinian Cat",
+    "18": "saint bernard Dog",
+    "19": "Persian Cat",
+    "2": "american pit bull terrier Dog",
+    "20": "american bulldog Dog",
+    "21": "boxer Dog",
+    "22": "leonberger Dog",
+    "23": "german shorthaired Dog",
+    "24": "staffordshire bull terrier Dog",
+    "25": "Birman Cat",
+    "26": "english cocker spaniel Dog",
+    "27": "english setter Dog",
+    "28": "Siamese Cat",
+    "29": "Sphynx Cat",
+    "3": "beagle Dog",
+    "30": "Bombay Cat",
+    "31": "keeshond Dog",
+    "32": "havanese Dog",
+    "33": "Bengal Cat",
+    "34": "great pyrenees Dog",
+    "35": "Russian Blue Cat",
+    "36": "basset hound Dog",
+    "4": "miniature pinscher Dog",
+    "5": "pomeranian Dog",
+    "6": "yorkshire terrier Dog",
+    "7": "Egyptian Mau Cat",
+    "8": "British Shorthair Cat",
+    "9": "wheaten terrier Dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "Abyssinian Cat": "17",
+    "Bengal Cat": "33",
+    "Birman Cat": "25",
+    "Bombay Cat": "30",
+    "British Shorthair Cat": "8",
+    "Egyptian Mau Cat": "7",
+    "Maine Coon Cat": "15",
+    "Persian Cat": "19",
+    "Ragdoll Cat": "10",
+    "Russian Blue Cat": "35",
+    "Siamese Cat": "28",
+    "Sphynx Cat": "29",
+    "american bulldog Dog": "20",
+    "american pit bull terrier Dog": "2",
+    "basset hound Dog": "36",
+    "beagle Dog": "3",
+    "boxer Dog": "21",
+    "chihuahua Dog": "13",
+    "english cocker spaniel Dog": "26",
+    "english setter Dog": "27",
+    "german shorthaired Dog": "23",
+    "great pyrenees Dog": "34",
+    "havanese Dog": "32",
+    "japanese chin Dog": "1",
+    "keeshond Dog": "31",
+    "leonberger Dog": "22",
+    "miniature pinscher Dog": "4",
+    "newfoundland Dog": "16",
+    "pomeranian Dog": "5",
+    "pug Dog": "0",
+    "saint bernard Dog": "18",
+    "samoyed Dog": "14",
+    "scottish terrier Dog": "11",
+    "shiba inu Dog": "12",
+    "staffordshire bull terrier Dog": "24",
+    "wheaten terrier Dog": "9",
+    "yorkshire terrier Dog": "6"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b2184cabd333fc0f02fa6c917e9aaec72c255443c28de6752429d9b05a440e5
 size 343331644

 version https://git-lfs.github.com/spec/v1
+oid sha256:04c848cc43804867db29602b8504492e7669c8936edf4fab2780cde439ea8afb
 size 343331644

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

runs/Mar30_10-54-27_5905f67ec798/events.out.tfevents.1711796077.5905f67ec798.70.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc36ebdd4905eceaa768a5d952f7b8c86dce579aecdb19b0a5d5bf054a00e34a
+size 12492

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.18540822506223903,
-    "train_runtime": 740.8045,
-    "train_samples_per_second": 39.903,
-    "train_steps_per_second": 0.626
 }

 {
     "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.202088082896682,
+    "train_runtime": 854.7685,
+    "train_samples_per_second": 34.582,
+    "train_steps_per_second": 0.271
 }

trainer_state.json CHANGED Viewed

@@ -1,388 +1,209 @@
 {
-  "best_metric": 0.0037413176614791155,
-  "best_model_checkpoint": "./vit-base-pets/checkpoint-400",
   "epoch": 4.0,
   "eval_steps": 100,
-  "global_step": 464,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.09,
-      "grad_norm": 3.7365024089813232,
-      "learning_rate": 0.00029353448275862065,
-      "loss": 2.333,
-      "step": 10
-    },
     {
       "epoch": 0.17,
-      "grad_norm": 2.494818925857544,
       "learning_rate": 0.0002870689655172413,
-      "loss": 0.7182,
-      "step": 20
-    },
-    {
-      "epoch": 0.26,
-      "grad_norm": 2.9715936183929443,
-      "learning_rate": 0.00028060344827586205,
-      "loss": 0.4629,
-      "step": 30
     },
     {
       "epoch": 0.34,
-      "grad_norm": 3.1811089515686035,
       "learning_rate": 0.0002741379310344827,
-      "loss": 0.4464,
-      "step": 40
-    },
-    {
-      "epoch": 0.43,
-      "grad_norm": 3.517517566680908,
-      "learning_rate": 0.00026767241379310345,
-      "loss": 0.3636,
-      "step": 50
     },
     {
       "epoch": 0.52,
-      "grad_norm": 1.850231647491455,
       "learning_rate": 0.00026120689655172413,
-      "loss": 0.3916,
-      "step": 60
-    },
-    {
-      "epoch": 0.6,
-      "grad_norm": 3.451078414916992,
-      "learning_rate": 0.0002547413793103448,
-      "loss": 0.423,
-      "step": 70
     },
     {
       "epoch": 0.69,
-      "grad_norm": 3.729478359222412,
       "learning_rate": 0.0002482758620689655,
-      "loss": 0.4177,
-      "step": 80
-    },
-    {
-      "epoch": 0.78,
-      "grad_norm": 3.4009933471679688,
-      "learning_rate": 0.00024181034482758618,
-      "loss": 0.3164,
-      "step": 90
     },
     {
       "epoch": 0.86,
-      "grad_norm": 2.6017422676086426,
       "learning_rate": 0.00023534482758620685,
-      "loss": 0.3546,
-      "step": 100
-    },
-    {
-      "epoch": 0.86,
-      "eval_accuracy": 0.9545331529093369,
-      "eval_loss": 0.16398410499095917,
-      "eval_runtime": 66.2449,
-      "eval_samples_per_second": 111.556,
-      "eval_steps_per_second": 13.948,
-      "step": 100
-    },
-    {
-      "epoch": 0.95,
-      "grad_norm": 2.4210205078125,
-      "learning_rate": 0.00022887931034482758,
-      "loss": 0.3267,
-      "step": 110
     },
     {
       "epoch": 1.03,
-      "grad_norm": 1.4406899213790894,
       "learning_rate": 0.00022241379310344826,
-      "loss": 0.2172,
-      "step": 120
-    },
-    {
-      "epoch": 1.12,
-      "grad_norm": 1.6676567792892456,
-      "learning_rate": 0.00021594827586206896,
-      "loss": 0.1671,
-      "step": 130
     },
     {
       "epoch": 1.21,
-      "grad_norm": 1.7579220533370972,
       "learning_rate": 0.00020948275862068963,
-      "loss": 0.1416,
-      "step": 140
-    },
-    {
-      "epoch": 1.29,
-      "grad_norm": 0.9925330281257629,
-      "learning_rate": 0.00020301724137931034,
-      "loss": 0.1289,
-      "step": 150
     },
     {
       "epoch": 1.38,
-      "grad_norm": 1.1069083213806152,
       "learning_rate": 0.000196551724137931,
-      "loss": 0.1199,
-      "step": 160
-    },
-    {
-      "epoch": 1.47,
-      "grad_norm": 2.214843273162842,
-      "learning_rate": 0.00019008620689655169,
-      "loss": 0.1204,
-      "step": 170
     },
     {
       "epoch": 1.55,
-      "grad_norm": 2.182187080383301,
       "learning_rate": 0.0001836206896551724,
-      "loss": 0.1155,
-      "step": 180
-    },
-    {
-      "epoch": 1.64,
-      "grad_norm": 2.003282308578491,
-      "learning_rate": 0.0001771551724137931,
-      "loss": 0.1319,
-      "step": 190
     },
     {
       "epoch": 1.72,
-      "grad_norm": 2.0936930179595947,
       "learning_rate": 0.0001706896551724138,
-      "loss": 0.0922,
-      "step": 200
     },
     {
       "epoch": 1.72,
-      "eval_accuracy": 0.984979702300406,
-      "eval_loss": 0.05955846235156059,
-      "eval_runtime": 66.0945,
-      "eval_samples_per_second": 111.81,
-      "eval_steps_per_second": 13.98,
-      "step": 200
-    },
-    {
-      "epoch": 1.81,
-      "grad_norm": 1.8309838771820068,
-      "learning_rate": 0.00016422413793103446,
-      "loss": 0.1028,
-      "step": 210
     },
     {
       "epoch": 1.9,
-      "grad_norm": 1.588274598121643,
       "learning_rate": 0.00015775862068965517,
-      "loss": 0.1285,
-      "step": 220
-    },
-    {
-      "epoch": 1.98,
-      "grad_norm": 3.1869797706604004,
-      "learning_rate": 0.00015129310344827584,
-      "loss": 0.1091,
-      "step": 230
     },
     {
       "epoch": 2.07,
-      "grad_norm": 0.7886011004447937,
       "learning_rate": 0.00014482758620689654,
-      "loss": 0.0681,
-      "step": 240
-    },
-    {
-      "epoch": 2.16,
-      "grad_norm": 1.0175777673721313,
-      "learning_rate": 0.00013836206896551724,
-      "loss": 0.062,
-      "step": 250
     },
     {
       "epoch": 2.24,
-      "grad_norm": 0.5733941197395325,
       "learning_rate": 0.00013189655172413792,
-      "loss": 0.0447,
-      "step": 260
-    },
-    {
-      "epoch": 2.33,
-      "grad_norm": 0.6709829568862915,
-      "learning_rate": 0.0001254310344827586,
-      "loss": 0.0352,
-      "step": 270
     },
     {
       "epoch": 2.41,
-      "grad_norm": 0.10771916061639786,
       "learning_rate": 0.00011896551724137931,
-      "loss": 0.0281,
-      "step": 280
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 0.8952343463897705,
-      "learning_rate": 0.0001125,
-      "loss": 0.0401,
-      "step": 290
     },
     {
       "epoch": 2.59,
-      "grad_norm": 0.05457449331879616,
       "learning_rate": 0.00010603448275862067,
-      "loss": 0.0421,
-      "step": 300
-    },
-    {
-      "epoch": 2.59,
-      "eval_accuracy": 0.9939106901217862,
-      "eval_loss": 0.021390045061707497,
-      "eval_runtime": 66.2486,
-      "eval_samples_per_second": 111.55,
-      "eval_steps_per_second": 13.947,
-      "step": 300
-    },
-    {
-      "epoch": 2.67,
-      "grad_norm": 0.14218959212303162,
-      "learning_rate": 9.956896551724137e-05,
-      "loss": 0.0364,
-      "step": 310
     },
     {
       "epoch": 2.76,
-      "grad_norm": 0.8931805491447449,
       "learning_rate": 9.310344827586206e-05,
-      "loss": 0.0232,
-      "step": 320
-    },
-    {
-      "epoch": 2.84,
-      "grad_norm": 0.25261449813842773,
-      "learning_rate": 8.663793103448275e-05,
-      "loss": 0.0134,
-      "step": 330
     },
     {
       "epoch": 2.93,
-      "grad_norm": 0.07521424442529678,
       "learning_rate": 8.017241379310344e-05,
-      "loss": 0.0111,
-      "step": 340
-    },
-    {
-      "epoch": 3.02,
-      "grad_norm": 0.05333692207932472,
-      "learning_rate": 7.370689655172413e-05,
-      "loss": 0.0104,
-      "step": 350
     },
     {
       "epoch": 3.1,
-      "grad_norm": 0.2949971556663513,
       "learning_rate": 6.724137931034483e-05,
-      "loss": 0.0093,
-      "step": 360
-    },
-    {
-      "epoch": 3.19,
-      "grad_norm": 0.06963898241519928,
-      "learning_rate": 6.077586206896551e-05,
-      "loss": 0.0084,
-      "step": 370
     },
     {
       "epoch": 3.28,
-      "grad_norm": 0.08035852760076523,
       "learning_rate": 5.4310344827586204e-05,
-      "loss": 0.0067,
-      "step": 380
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 0.02499503456056118,
-      "learning_rate": 4.78448275862069e-05,
-      "loss": 0.0034,
-      "step": 390
     },
     {
       "epoch": 3.45,
-      "grad_norm": 0.4326638877391815,
       "learning_rate": 4.137931034482758e-05,
-      "loss": 0.0087,
-      "step": 400
     },
     {
       "epoch": 3.45,
-      "eval_accuracy": 0.9994587280108255,
-      "eval_loss": 0.0037413176614791155,
-      "eval_runtime": 66.2753,
-      "eval_samples_per_second": 111.505,
-      "eval_steps_per_second": 13.942,
-      "step": 400
-    },
-    {
-      "epoch": 3.53,
-      "grad_norm": 0.016918424516916275,
-      "learning_rate": 3.4913793103448275e-05,
-      "loss": 0.0035,
-      "step": 410
     },
     {
       "epoch": 3.62,
-      "grad_norm": 0.022589026018977165,
       "learning_rate": 2.8448275862068963e-05,
-      "loss": 0.004,
-      "step": 420
-    },
-    {
-      "epoch": 3.71,
-      "grad_norm": 0.06562381237745285,
-      "learning_rate": 2.198275862068965e-05,
-      "loss": 0.0027,
-      "step": 430
     },
     {
       "epoch": 3.79,
-      "grad_norm": 0.0264147762209177,
       "learning_rate": 1.5517241379310342e-05,
-      "loss": 0.0027,
-      "step": 440
-    },
-    {
-      "epoch": 3.88,
-      "grad_norm": 0.02782212570309639,
-      "learning_rate": 9.051724137931034e-06,
-      "loss": 0.0046,
-      "step": 450
     },
     {
       "epoch": 3.97,
-      "grad_norm": 0.02095525525510311,
       "learning_rate": 2.5862068965517237e-06,
-      "loss": 0.0036,
-      "step": 460
     },
     {
       "epoch": 4.0,
-      "step": 464,
       "total_flos": 2.2913817801515827e+18,
-      "train_loss": 0.18540822506223903,
-      "train_runtime": 740.8045,
-      "train_samples_per_second": 39.903,
-      "train_steps_per_second": 0.626
     }
   ],
   "logging_steps": 10,
-  "max_steps": 464,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
   "total_flos": 2.2913817801515827e+18,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.004596503917127848,
+  "best_model_checkpoint": "./vit-base-pets/checkpoint-200",
   "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 232,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.17,
+      "grad_norm": 168186.984375,
       "learning_rate": 0.0002870689655172413,
+      "loss": 2.1401,
+      "step": 10
     },
     {
       "epoch": 0.34,
+      "grad_norm": 134643.921875,
       "learning_rate": 0.0002741379310344827,
+      "loss": 0.5937,
+      "step": 20
     },
     {
       "epoch": 0.52,
+      "grad_norm": 117247.1015625,
       "learning_rate": 0.00026120689655172413,
+      "loss": 0.3283,
+      "step": 30
     },
     {
       "epoch": 0.69,
+      "grad_norm": 148088.53125,
       "learning_rate": 0.0002482758620689655,
+      "loss": 0.3447,
+      "step": 40
     },
     {
       "epoch": 0.86,
+      "grad_norm": 118186.203125,
       "learning_rate": 0.00023534482758620685,
+      "loss": 0.2972,
+      "step": 50
     },
     {
       "epoch": 1.03,
+      "grad_norm": 89050.390625,
       "learning_rate": 0.00022241379310344826,
+      "loss": 0.2425,
+      "step": 60
     },
     {
       "epoch": 1.21,
+      "grad_norm": 50770.4296875,
       "learning_rate": 0.00020948275862068963,
+      "loss": 0.1025,
+      "step": 70
     },
     {
       "epoch": 1.38,
+      "grad_norm": 102693.65625,
       "learning_rate": 0.000196551724137931,
+      "loss": 0.0998,
+      "step": 80
     },
     {
       "epoch": 1.55,
+      "grad_norm": 58018.40234375,
       "learning_rate": 0.0001836206896551724,
+      "loss": 0.1048,
+      "step": 90
     },
     {
       "epoch": 1.72,
+      "grad_norm": 51126.80078125,
       "learning_rate": 0.0001706896551724138,
+      "loss": 0.0887,
+      "step": 100
     },
     {
       "epoch": 1.72,
+      "eval_accuracy": 0.9774018944519621,
+      "eval_loss": 0.07652416825294495,
+      "eval_runtime": 90.7155,
+      "eval_samples_per_second": 81.463,
+      "eval_steps_per_second": 5.093,
+      "step": 100
     },
     {
       "epoch": 1.9,
+      "grad_norm": 86962.4921875,
       "learning_rate": 0.00015775862068965517,
+      "loss": 0.0926,
+      "step": 110
     },
     {
       "epoch": 2.07,
+      "grad_norm": 72358.4609375,
       "learning_rate": 0.00014482758620689654,
+      "loss": 0.0706,
+      "step": 120
     },
     {
       "epoch": 2.24,
+      "grad_norm": 20616.7109375,
       "learning_rate": 0.00013189655172413792,
+      "loss": 0.039,
+      "step": 130
     },
     {
       "epoch": 2.41,
+      "grad_norm": 70676.0625,
       "learning_rate": 0.00011896551724137931,
+      "loss": 0.0351,
+      "step": 140
     },
     {
       "epoch": 2.59,
+      "grad_norm": 12601.1337890625,
       "learning_rate": 0.00010603448275862067,
+      "loss": 0.0263,
+      "step": 150
     },
     {
       "epoch": 2.76,
+      "grad_norm": 77678.21875,
       "learning_rate": 9.310344827586206e-05,
+      "loss": 0.0296,
+      "step": 160
     },
     {
       "epoch": 2.93,
+      "grad_norm": 36381.59765625,
       "learning_rate": 8.017241379310344e-05,
+      "loss": 0.025,
+      "step": 170
     },
     {
       "epoch": 3.1,
+      "grad_norm": 12375.634765625,
       "learning_rate": 6.724137931034483e-05,
+      "loss": 0.0087,
+      "step": 180
     },
     {
       "epoch": 3.28,
+      "grad_norm": 1895.7933349609375,
       "learning_rate": 5.4310344827586204e-05,
+      "loss": 0.0043,
+      "step": 190
     },
     {
       "epoch": 3.45,
+      "grad_norm": 49621.76171875,
       "learning_rate": 4.137931034482758e-05,
+      "loss": 0.0045,
+      "step": 200
     },
     {
       "epoch": 3.45,
+      "eval_accuracy": 0.9989174560216508,
+      "eval_loss": 0.004596503917127848,
+      "eval_runtime": 91.6398,
+      "eval_samples_per_second": 80.642,
+      "eval_steps_per_second": 5.041,
+      "step": 200
     },
     {
       "epoch": 3.62,
+      "grad_norm": 798.2269287109375,
       "learning_rate": 2.8448275862068963e-05,
+      "loss": 0.0045,
+      "step": 210
     },
     {
       "epoch": 3.79,
+      "grad_norm": 2413.81640625,
       "learning_rate": 1.5517241379310342e-05,
+      "loss": 0.0034,
+      "step": 220
     },
     {
       "epoch": 3.97,
+      "grad_norm": 908.8674926757812,
       "learning_rate": 2.5862068965517237e-06,
+      "loss": 0.0021,
+      "step": 230
     },
     {
       "epoch": 4.0,
+      "step": 232,
       "total_flos": 2.2913817801515827e+18,
+      "train_loss": 0.202088082896682,
+      "train_runtime": 854.7685,
+      "train_samples_per_second": 34.582,
+      "train_steps_per_second": 0.271
     }
   ],
   "logging_steps": 10,
+  "max_steps": 232,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 100,
   "total_flos": 2.2913817801515827e+18,
+  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72d067b80968c329a6d7da9dee207c0df97fc6614df48511b3b0bb0ba0e75328
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0bf29b9cfaa423385553cd4c1a9ee40cd1712cd86c4bf40b3c7f39094ea7217
 size 4920