better evaluation and only trained the classifier layer

Browse files

Files changed (9) hide show

README.md +11 -10
all_results.json +5 -5
config.json +70 -70
model.safetensors +1 -1
runs/Mar31_10-44-13_0de03c5233fc/events.out.tfevents.1711881913.0de03c5233fc.34.0 +3 -0
runs/Mar31_10-44-13_0de03c5233fc/events.out.tfevents.1711882353.0de03c5233fc.34.1 +3 -0
train_results.json +5 -5
trainer_state.json +148 -300
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0058
-- Accuracy: 0.9988
 ## Model description
@@ -39,27 +39,28 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
-- train_batch_size: 64
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.3713        | 0.86  | 100  | 0.2084          | 0.9307   |
-| 0.1173        | 1.72  | 200  | 0.0774          | 0.9763   |
-| 0.0612        | 2.59  | 300  | 0.0212          | 0.9947   |
-| 0.007         | 3.45  | 400  | 0.0058          | 0.9988   |
 ### Framework versions
 - Transformers 4.39.2
-- Pytorch 2.2.1+cu121
 - Datasets 2.16.0
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the pcuenq/oxford-pets dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3168
+- Accuracy: 0.9432
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0003
+- train_batch_size: 128
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 1.5136        | 1.0   | 47   | 1.1031          | 0.8430   |
+| 0.5547        | 2.0   | 94   | 0.5232          | 0.9269   |
+| 0.4111        | 3.0   | 141  | 0.3988          | 0.9310   |
+| 0.3438        | 4.0   | 188  | 0.3553          | 0.9337   |
+| 0.298         | 5.0   | 235  | 0.3448          | 0.9296   |
 ### Framework versions
 - Transformers 4.39.2
+- Pytorch 2.1.2
 - Datasets 2.16.0
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.19263494449491003,
-    "train_runtime": 813.2364,
-    "train_samples_per_second": 36.349,
-    "train_steps_per_second": 0.571
 }

 {
+    "epoch": 5.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.8009341437765892,
+    "train_runtime": 407.3253,
+    "train_samples_per_second": 72.571,
+    "train_steps_per_second": 0.577
 }

config.json CHANGED Viewed

@@ -9,85 +9,85 @@
   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
-    "0": "saint bernard dog",
-    "1": "Ragdoll cat",
-    "10": "keeshond dog",
-    "11": "english cocker spaniel dog",
-    "12": "beagle dog",
-    "13": "Russian Blue cat",
-    "14": "scottish terrier dog",
-    "15": "newfoundland dog",
-    "16": "Bombay cat",
-    "17": "Bengal cat",
-    "18": "japanese chin dog",
-    "19": "Sphynx cat",
-    "2": "havanese dog",
-    "20": "Persian cat",
-    "21": "shiba inu dog",
-    "22": "english setter dog",
-    "23": "great pyrenees dog",
-    "24": "chihuahua dog",
-    "25": "miniature pinscher dog",
-    "26": "pomeranian dog",
-    "27": "Abyssinian cat",
-    "28": "basset hound dog",
-    "29": "Birman cat",
-    "3": "Egyptian Mau cat",
-    "30": "german shorthaired dog",
-    "31": "american bulldog dog",
-    "32": "american pit bull terrier dog",
-    "33": "staffordshire bull terrier dog",
-    "34": "Maine Coon cat",
-    "35": "samoyed dog",
     "36": "boxer dog",
-    "4": "Siamese cat",
-    "5": "yorkshire terrier dog",
-    "6": "leonberger dog",
-    "7": "pug dog",
     "8": "British Shorthair cat",
-    "9": "wheaten terrier dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "Abyssinian cat": "27",
-    "Bengal cat": "17",
-    "Birman cat": "29",
-    "Bombay cat": "16",
     "British Shorthair cat": "8",
-    "Egyptian Mau cat": "3",
-    "Maine Coon cat": "34",
-    "Persian cat": "20",
-    "Ragdoll cat": "1",
-    "Russian Blue cat": "13",
-    "Siamese cat": "4",
-    "Sphynx cat": "19",
-    "american bulldog dog": "31",
-    "american pit bull terrier dog": "32",
-    "basset hound dog": "28",
-    "beagle dog": "12",
     "boxer dog": "36",
-    "chihuahua dog": "24",
-    "english cocker spaniel dog": "11",
-    "english setter dog": "22",
-    "german shorthaired dog": "30",
-    "great pyrenees dog": "23",
-    "havanese dog": "2",
-    "japanese chin dog": "18",
-    "keeshond dog": "10",
-    "leonberger dog": "6",
-    "miniature pinscher dog": "25",
-    "newfoundland dog": "15",
-    "pomeranian dog": "26",
-    "pug dog": "7",
-    "saint bernard dog": "0",
-    "samoyed dog": "35",
-    "scottish terrier dog": "14",
-    "shiba inu dog": "21",
-    "staffordshire bull terrier dog": "33",
-    "wheaten terrier dog": "9",
-    "yorkshire terrier dog": "5"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

   "hidden_dropout_prob": 0.0,
   "hidden_size": 768,
   "id2label": {
+    "0": "american pit bull terrier dog",
+    "1": "Maine Coon cat",
+    "10": "german shorthaired dog",
+    "11": "Abyssinian cat",
+    "12": "havanese dog",
+    "13": "pomeranian dog",
+    "14": "newfoundland dog",
+    "15": "Egyptian Mau cat",
+    "16": "Russian Blue cat",
+    "17": "Bombay cat",
+    "18": "leonberger dog",
+    "19": "Persian cat",
+    "2": "english setter dog",
+    "20": "samoyed dog",
+    "21": "keeshond dog",
+    "22": "scottish terrier dog",
+    "23": "shiba inu dog",
+    "24": "staffordshire bull terrier dog",
+    "25": "basset hound dog",
+    "26": "Siamese cat",
+    "27": "pug dog",
+    "28": "miniature pinscher dog",
+    "29": "japanese chin dog",
+    "3": "Birman cat",
+    "30": "chihuahua dog",
+    "31": "Bengal cat",
+    "32": "beagle dog",
+    "33": "Sphynx cat",
+    "34": "saint bernard dog",
+    "35": "Ragdoll cat",
     "36": "boxer dog",
+    "4": "wheaten terrier dog",
+    "5": "great pyrenees dog",
+    "6": "american bulldog dog",
+    "7": "english cocker spaniel dog",
     "8": "British Shorthair cat",
+    "9": "yorkshire terrier dog"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "Abyssinian cat": "11",
+    "Bengal cat": "31",
+    "Birman cat": "3",
+    "Bombay cat": "17",
     "British Shorthair cat": "8",
+    "Egyptian Mau cat": "15",
+    "Maine Coon cat": "1",
+    "Persian cat": "19",
+    "Ragdoll cat": "35",
+    "Russian Blue cat": "16",
+    "Siamese cat": "26",
+    "Sphynx cat": "33",
+    "american bulldog dog": "6",
+    "american pit bull terrier dog": "0",
+    "basset hound dog": "25",
+    "beagle dog": "32",
     "boxer dog": "36",
+    "chihuahua dog": "30",
+    "english cocker spaniel dog": "7",
+    "english setter dog": "2",
+    "german shorthaired dog": "10",
+    "great pyrenees dog": "5",
+    "havanese dog": "12",
+    "japanese chin dog": "29",
+    "keeshond dog": "21",
+    "leonberger dog": "18",
+    "miniature pinscher dog": "28",
+    "newfoundland dog": "14",
+    "pomeranian dog": "13",
+    "pug dog": "27",
+    "saint bernard dog": "34",
+    "samoyed dog": "20",
+    "scottish terrier dog": "22",
+    "shiba inu dog": "23",
+    "staffordshire bull terrier dog": "24",
+    "wheaten terrier dog": "4",
+    "yorkshire terrier dog": "9"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f4f4ab3ed13788b1a113a26071c629101eaba9b3e315e4735a8da6b713924ef
 size 343331644

 version https://git-lfs.github.com/spec/v1
+oid sha256:c481d24458fdc1fd579d745131513f9125c8e3b8fb0c33d566356465f8370611
 size 343331644

runs/Mar31_10-44-13_0de03c5233fc/events.out.tfevents.1711881913.0de03c5233fc.34.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04377611248f9ad9357d199307a6d9002f0980bb18705e47089639b077f7b8a5
+size 13763

runs/Mar31_10-44-13_0de03c5233fc/events.out.tfevents.1711882353.0de03c5233fc.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a81816eb4f226e038038b0ed56ffb97533dac0ae477cba379146a719849d54c7
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
     "total_flos": 2.2913817801515827e+18,
-    "train_loss": 0.19263494449491003,
-    "train_runtime": 813.2364,
-    "train_samples_per_second": 36.349,
-    "train_steps_per_second": 0.571
 }

 {
+    "epoch": 5.0,
     "total_flos": 2.2913817801515827e+18,
+    "train_loss": 0.8009341437765892,
+    "train_runtime": 407.3253,
+    "train_samples_per_second": 72.571,
+    "train_steps_per_second": 0.577
 }

trainer_state.json CHANGED Viewed

@@ -1,388 +1,236 @@
 {
-  "best_metric": 0.005833666305989027,
-  "best_model_checkpoint": "./vit-base-pets/checkpoint-400",
-  "epoch": 4.0,
-  "eval_steps": 100,
-  "global_step": 464,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.09,
-      "grad_norm": 3.28558611869812,
-      "learning_rate": 0.00029353448275862065,
-      "loss": 2.365,
       "step": 10
     },
     {
-      "epoch": 0.17,
-      "grad_norm": 2.781508684158325,
-      "learning_rate": 0.0002870689655172413,
-      "loss": 0.7805,
       "step": 20
     },
     {
-      "epoch": 0.26,
-      "grad_norm": 2.789832353591919,
-      "learning_rate": 0.00028060344827586205,
-      "loss": 0.4669,
       "step": 30
     },
     {
-      "epoch": 0.34,
-      "grad_norm": 3.0019114017486572,
-      "learning_rate": 0.0002741379310344827,
-      "loss": 0.4777,
       "step": 40
     },
     {
-      "epoch": 0.43,
-      "grad_norm": 2.8678109645843506,
-      "learning_rate": 0.00026767241379310345,
-      "loss": 0.3825,
       "step": 50
     },
     {
-      "epoch": 0.52,
-      "grad_norm": 1.979690432548523,
-      "learning_rate": 0.00026120689655172413,
-      "loss": 0.3924,
       "step": 60
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 1.9895226955413818,
-      "learning_rate": 0.0002547413793103448,
-      "loss": 0.307,
       "step": 70
     },
     {
-      "epoch": 0.69,
-      "grad_norm": 2.970583438873291,
-      "learning_rate": 0.0002482758620689655,
-      "loss": 0.4071,
       "step": 80
     },
     {
-      "epoch": 0.78,
-      "grad_norm": 3.0911920070648193,
-      "learning_rate": 0.00024181034482758618,
-      "loss": 0.3594,
       "step": 90
     },
     {
-      "epoch": 0.86,
-      "grad_norm": 2.5045769214630127,
-      "learning_rate": 0.00023534482758620685,
-      "loss": 0.3713,
-      "step": 100
     },
     {
-      "epoch": 0.86,
-      "eval_accuracy": 0.9307171853856563,
-      "eval_loss": 0.20842242240905762,
-      "eval_runtime": 68.2075,
-      "eval_samples_per_second": 108.346,
-      "eval_steps_per_second": 13.547,
       "step": 100
     },
     {
-      "epoch": 0.95,
-      "grad_norm": 1.4575306177139282,
-      "learning_rate": 0.00022887931034482758,
-      "loss": 0.3301,
       "step": 110
     },
     {
-      "epoch": 1.03,
-      "grad_norm": 1.9479578733444214,
-      "learning_rate": 0.00022241379310344826,
-      "loss": 0.2504,
       "step": 120
     },
     {
-      "epoch": 1.12,
-      "grad_norm": 1.73411226272583,
-      "learning_rate": 0.00021594827586206896,
-      "loss": 0.1697,
       "step": 130
     },
     {
-      "epoch": 1.21,
-      "grad_norm": 1.672253966331482,
-      "learning_rate": 0.00020948275862068963,
-      "loss": 0.116,
       "step": 140
     },
     {
-      "epoch": 1.29,
-      "grad_norm": 2.3492820262908936,
-      "learning_rate": 0.00020301724137931034,
-      "loss": 0.158,
       "step": 150
     },
     {
-      "epoch": 1.38,
-      "grad_norm": 1.4678938388824463,
-      "learning_rate": 0.000196551724137931,
-      "loss": 0.1487,
       "step": 160
     },
     {
-      "epoch": 1.47,
-      "grad_norm": 2.1428756713867188,
-      "learning_rate": 0.00019008620689655169,
-      "loss": 0.1121,
       "step": 170
     },
     {
-      "epoch": 1.55,
-      "grad_norm": 1.255344271659851,
-      "learning_rate": 0.0001836206896551724,
-      "loss": 0.1548,
       "step": 180
     },
     {
-      "epoch": 1.64,
-      "grad_norm": 1.692832350730896,
-      "learning_rate": 0.0001771551724137931,
-      "loss": 0.0916,
       "step": 190
     },
     {
-      "epoch": 1.72,
-      "grad_norm": 2.322737693786621,
-      "learning_rate": 0.0001706896551724138,
-      "loss": 0.1173,
-      "step": 200
-    },
-    {
-      "epoch": 1.72,
-      "eval_accuracy": 0.976319350473613,
-      "eval_loss": 0.07739943265914917,
-      "eval_runtime": 67.8967,
-      "eval_samples_per_second": 108.842,
-      "eval_steps_per_second": 13.609,
       "step": 200
     },
     {
-      "epoch": 1.81,
-      "grad_norm": 1.99238920211792,
-      "learning_rate": 0.00016422413793103446,
-      "loss": 0.1311,
       "step": 210
     },
     {
-      "epoch": 1.9,
-      "grad_norm": 2.3652477264404297,
-      "learning_rate": 0.00015775862068965517,
-      "loss": 0.1114,
       "step": 220
     },
     {
-      "epoch": 1.98,
-      "grad_norm": 1.3925710916519165,
-      "learning_rate": 0.00015129310344827584,
-      "loss": 0.1235,
       "step": 230
     },
     {
-      "epoch": 2.07,
-      "grad_norm": 2.0290815830230713,
-      "learning_rate": 0.00014482758620689654,
-      "loss": 0.0772,
-      "step": 240
-    },
-    {
-      "epoch": 2.16,
-      "grad_norm": 2.4121060371398926,
-      "learning_rate": 0.00013836206896551724,
-      "loss": 0.0715,
-      "step": 250
-    },
-    {
-      "epoch": 2.24,
-      "grad_norm": 0.9658297300338745,
-      "learning_rate": 0.00013189655172413792,
-      "loss": 0.0444,
-      "step": 260
-    },
-    {
-      "epoch": 2.33,
-      "grad_norm": 0.24860858917236328,
-      "learning_rate": 0.0001254310344827586,
-      "loss": 0.0668,
-      "step": 270
-    },
-    {
-      "epoch": 2.41,
-      "grad_norm": 1.50627601146698,
-      "learning_rate": 0.00011896551724137931,
-      "loss": 0.034,
-      "step": 280
-    },
-    {
-      "epoch": 2.5,
-      "grad_norm": 1.2053415775299072,
-      "learning_rate": 0.0001125,
-      "loss": 0.0489,
-      "step": 290
-    },
-    {
-      "epoch": 2.59,
-      "grad_norm": 1.2974027395248413,
-      "learning_rate": 0.00010603448275862067,
-      "loss": 0.0612,
-      "step": 300
-    },
-    {
-      "epoch": 2.59,
-      "eval_accuracy": 0.9947225981055481,
-      "eval_loss": 0.021214015781879425,
-      "eval_runtime": 67.3034,
-      "eval_samples_per_second": 109.801,
-      "eval_steps_per_second": 13.729,
-      "step": 300
-    },
-    {
-      "epoch": 2.67,
-      "grad_norm": 0.22053079307079315,
-      "learning_rate": 9.956896551724137e-05,
-      "loss": 0.0308,
-      "step": 310
-    },
-    {
-      "epoch": 2.76,
-      "grad_norm": 0.8180058002471924,
-      "learning_rate": 9.310344827586206e-05,
-      "loss": 0.03,
-      "step": 320
-    },
-    {
-      "epoch": 2.84,
-      "grad_norm": 1.5855587720870972,
-      "learning_rate": 8.663793103448275e-05,
-      "loss": 0.0235,
-      "step": 330
-    },
-    {
-      "epoch": 2.93,
-      "grad_norm": 1.7537671327590942,
-      "learning_rate": 8.017241379310344e-05,
-      "loss": 0.0225,
-      "step": 340
-    },
-    {
-      "epoch": 3.02,
-      "grad_norm": 0.10956920683383942,
-      "learning_rate": 7.370689655172413e-05,
-      "loss": 0.0156,
-      "step": 350
-    },
-    {
-      "epoch": 3.1,
-      "grad_norm": 1.1361974477767944,
-      "learning_rate": 6.724137931034483e-05,
-      "loss": 0.0094,
-      "step": 360
-    },
-    {
-      "epoch": 3.19,
-      "grad_norm": 0.9139267802238464,
-      "learning_rate": 6.077586206896551e-05,
-      "loss": 0.0128,
-      "step": 370
-    },
-    {
-      "epoch": 3.28,
-      "grad_norm": 0.12278908491134644,
-      "learning_rate": 5.4310344827586204e-05,
-      "loss": 0.0087,
-      "step": 380
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 0.0675448328256607,
-      "learning_rate": 4.78448275862069e-05,
-      "loss": 0.0048,
-      "step": 390
-    },
-    {
-      "epoch": 3.45,
-      "grad_norm": 0.05717047303915024,
-      "learning_rate": 4.137931034482758e-05,
-      "loss": 0.007,
-      "step": 400
     },
     {
-      "epoch": 3.45,
-      "eval_accuracy": 0.9987821380243572,
-      "eval_loss": 0.005833666305989027,
-      "eval_runtime": 68.7353,
-      "eval_samples_per_second": 107.514,
-      "eval_steps_per_second": 13.443,
-      "step": 400
-    },
-    {
-      "epoch": 3.53,
-      "grad_norm": 0.04572397843003273,
-      "learning_rate": 3.4913793103448275e-05,
-      "loss": 0.0051,
-      "step": 410
-    },
-    {
-      "epoch": 3.62,
-      "grad_norm": 0.16931650042533875,
-      "learning_rate": 2.8448275862068963e-05,
-      "loss": 0.006,
-      "step": 420
-    },
-    {
-      "epoch": 3.71,
-      "grad_norm": 0.041402418166399,
-      "learning_rate": 2.198275862068965e-05,
-      "loss": 0.0054,
-      "step": 430
-    },
-    {
-      "epoch": 3.79,
-      "grad_norm": 0.02362515777349472,
-      "learning_rate": 1.5517241379310342e-05,
-      "loss": 0.0086,
-      "step": 440
-    },
-    {
-      "epoch": 3.88,
-      "grad_norm": 0.3355587422847748,
-      "learning_rate": 9.051724137931034e-06,
-      "loss": 0.0039,
-      "step": 450
-    },
-    {
-      "epoch": 3.97,
-      "grad_norm": 0.03504301235079765,
-      "learning_rate": 2.5862068965517237e-06,
-      "loss": 0.0135,
-      "step": 460
-    },
-    {
-      "epoch": 4.0,
-      "step": 464,
       "total_flos": 2.2913817801515827e+18,
-      "train_loss": 0.19263494449491003,
-      "train_runtime": 813.2364,
-      "train_samples_per_second": 36.349,
-      "train_steps_per_second": 0.571
     }
   ],
   "logging_steps": 10,
-  "max_steps": 464,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
-  "save_steps": 100,
   "total_flos": 2.2913817801515827e+18,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.344835102558136,
+  "best_model_checkpoint": "./vit-base-pets/checkpoint-235",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 235,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.21,
+      "grad_norm": 216203.125,
+      "learning_rate": 0.0002872340425531915,
+      "loss": 3.3311,
       "step": 10
     },
     {
+      "epoch": 0.43,
+      "grad_norm": 198156.9375,
+      "learning_rate": 0.000274468085106383,
+      "loss": 2.5921,
       "step": 20
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 176661.6875,
+      "learning_rate": 0.0002617021276595745,
+      "loss": 1.9823,
       "step": 30
     },
     {
+      "epoch": 0.85,
+      "grad_norm": 142275.75,
+      "learning_rate": 0.0002489361702127659,
+      "loss": 1.5136,
       "step": 40
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8430311231393776,
+      "eval_loss": 1.1030857563018799,
+      "eval_runtime": 8.7542,
+      "eval_samples_per_second": 84.417,
+      "eval_steps_per_second": 5.369,
+      "step": 47
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 124899.421875,
+      "learning_rate": 0.00023617021276595742,
+      "loss": 1.1858,
       "step": 50
     },
     {
+      "epoch": 1.28,
+      "grad_norm": 98946.875,
+      "learning_rate": 0.0002234042553191489,
+      "loss": 0.9313,
       "step": 60
     },
     {
+      "epoch": 1.49,
+      "grad_norm": 92924.6484375,
+      "learning_rate": 0.0002106382978723404,
+      "loss": 0.7466,
       "step": 70
     },
     {
+      "epoch": 1.7,
+      "grad_norm": 90032.1484375,
+      "learning_rate": 0.00019787234042553187,
+      "loss": 0.6475,
       "step": 80
     },
     {
+      "epoch": 1.91,
+      "grad_norm": 68696.1875,
+      "learning_rate": 0.0001851063829787234,
+      "loss": 0.5547,
       "step": 90
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9269282814614344,
+      "eval_loss": 0.5232290625572205,
+      "eval_runtime": 8.9185,
+      "eval_samples_per_second": 82.861,
+      "eval_steps_per_second": 5.27,
+      "step": 94
     },
     {
+      "epoch": 2.13,
+      "grad_norm": 67699.609375,
+      "learning_rate": 0.0001723404255319149,
+      "loss": 0.5311,
       "step": 100
     },
     {
+      "epoch": 2.34,
+      "grad_norm": 72000.0234375,
+      "learning_rate": 0.00015957446808510637,
+      "loss": 0.4636,
       "step": 110
     },
     {
+      "epoch": 2.55,
+      "grad_norm": 54618.05078125,
+      "learning_rate": 0.00014680851063829785,
+      "loss": 0.4171,
       "step": 120
     },
     {
+      "epoch": 2.77,
+      "grad_norm": 57285.890625,
+      "learning_rate": 0.00013404255319148935,
+      "loss": 0.3946,
       "step": 130
     },
     {
+      "epoch": 2.98,
+      "grad_norm": 73116.6171875,
+      "learning_rate": 0.00012127659574468084,
+      "loss": 0.4111,
       "step": 140
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9309878213802436,
+      "eval_loss": 0.39878538250923157,
+      "eval_runtime": 9.1048,
+      "eval_samples_per_second": 81.166,
+      "eval_steps_per_second": 5.162,
+      "step": 141
+    },
+    {
+      "epoch": 3.19,
+      "grad_norm": 64126.3828125,
+      "learning_rate": 0.00010851063829787234,
+      "loss": 0.3607,
       "step": 150
     },
     {
+      "epoch": 3.4,
+      "grad_norm": 69913.5390625,
+      "learning_rate": 9.574468085106382e-05,
+      "loss": 0.3387,
       "step": 160
     },
     {
+      "epoch": 3.62,
+      "grad_norm": 54300.03125,
+      "learning_rate": 8.297872340425531e-05,
+      "loss": 0.3568,
       "step": 170
     },
     {
+      "epoch": 3.83,
+      "grad_norm": 60929.75390625,
+      "learning_rate": 7.02127659574468e-05,
+      "loss": 0.3438,
       "step": 180
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9336941813261164,
+      "eval_loss": 0.35527506470680237,
+      "eval_runtime": 9.4286,
+      "eval_samples_per_second": 78.378,
+      "eval_steps_per_second": 4.985,
+      "step": 188
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 69279.328125,
+      "learning_rate": 5.7446808510638294e-05,
+      "loss": 0.3087,
       "step": 190
     },
     {
+      "epoch": 4.26,
+      "grad_norm": 49415.69140625,
+      "learning_rate": 4.468085106382978e-05,
+      "loss": 0.328,
       "step": 200
     },
     {
+      "epoch": 4.47,
+      "grad_norm": 62788.3359375,
+      "learning_rate": 3.1914893617021275e-05,
+      "loss": 0.3199,
       "step": 210
     },
     {
+      "epoch": 4.68,
+      "grad_norm": 61852.7421875,
+      "learning_rate": 1.9148936170212762e-05,
+      "loss": 0.3244,
       "step": 220
     },
     {
+      "epoch": 4.89,
+      "grad_norm": 64687.453125,
+      "learning_rate": 6.382978723404255e-06,
+      "loss": 0.298,
       "step": 230
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9296346414073072,
+      "eval_loss": 0.344835102558136,
+      "eval_runtime": 9.1923,
+      "eval_samples_per_second": 80.393,
+      "eval_steps_per_second": 5.113,
+      "step": 235
     },
     {
+      "epoch": 5.0,
+      "step": 235,
       "total_flos": 2.2913817801515827e+18,
+      "train_loss": 0.8009341437765892,
+      "train_runtime": 407.3253,
+      "train_samples_per_second": 72.571,
+      "train_steps_per_second": 0.577
     }
   ],
   "logging_steps": 10,
+  "max_steps": 235,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
   "total_flos": 2.2913817801515827e+18,
+  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2d9f5cc8c59e3763badc8aaac1a4d41fe76330287aca603b90141946989fe67
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:33d4c76de48bc1cfcdacd9758735c59ce75dd9bf02657f219a30684fa44e0d63
 size 4920