Fin de l'entraînement

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +11 -11
eval_results.json +7 -7
train_results.json +5 -5
trainer_state.json +237 -133

README.md CHANGED Viewed

@@ -14,9 +14,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0609
-- Mse: 0.1301
-- Mae: 0.3117
 ## Model description

 This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0658
+- Mse: 0.1253
+- Mae: 0.3059
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 18.0,
-    "eval_loss": 0.08588916808366776,
-    "eval_mae": 0.3119707405567169,
-    "eval_mse": 0.1291341334581375,
-    "eval_runtime": 9.945,
-    "eval_samples_per_second": 7.642,
-    "eval_steps_per_second": 1.006,
     "total_flos": 0.0,
-    "train_loss": 0.2600840449333191,
-    "train_runtime": 1002.0455,
-    "train_samples_per_second": 6.048,
-    "train_steps_per_second": 0.18
 }

 {
+    "epoch": 27.0,
+    "eval_loss": 0.06580791622400284,
+    "eval_mae": 0.3059428930282593,
+    "eval_mse": 0.12533096969127655,
+    "eval_runtime": 10.4766,
+    "eval_samples_per_second": 7.254,
+    "eval_steps_per_second": 0.955,
     "total_flos": 0.0,
+    "train_loss": 0.13240765200720894,
+    "train_runtime": 1534.1197,
+    "train_samples_per_second": 5.925,
+    "train_steps_per_second": 0.176
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 18.0,
-    "eval_loss": 0.08588916808366776,
-    "eval_mae": 0.3119707405567169,
-    "eval_mse": 0.1291341334581375,
-    "eval_runtime": 9.945,
-    "eval_samples_per_second": 7.642,
-    "eval_steps_per_second": 1.006
 }

 {
+    "epoch": 27.0,
+    "eval_loss": 0.06580791622400284,
+    "eval_mae": 0.3059428930282593,
+    "eval_mse": 0.12533096969127655,
+    "eval_runtime": 10.4766,
+    "eval_samples_per_second": 7.254,
+    "eval_steps_per_second": 0.955
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 18.0,
     "total_flos": 0.0,
-    "train_loss": 0.2600840449333191,
-    "train_runtime": 1002.0455,
-    "train_samples_per_second": 6.048,
-    "train_steps_per_second": 0.18
 }

 {
+    "epoch": 27.0,
     "total_flos": 0.0,
+    "train_loss": 0.13240765200720894,
+    "train_runtime": 1534.1197,
+    "train_samples_per_second": 5.925,
+    "train_steps_per_second": 0.176
 }

trainer_state.json CHANGED Viewed

@@ -1,236 +1,340 @@
 {
-  "best_global_step": 100,
-  "best_metric": 0.1291341334581375,
-  "best_model_checkpoint": "./vit_focus/checkpoint-100",
-  "epoch": 18.0,
   "eval_steps": 500,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 0.11766688525676727,
-      "eval_mae": 0.3475768268108368,
-      "eval_mse": 0.1613956242799759,
-      "eval_runtime": 10.0195,
-      "eval_samples_per_second": 7.585,
-      "eval_steps_per_second": 0.998,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.09316065162420273,
-      "eval_mae": 0.32877787947654724,
-      "eval_mse": 0.14106006920337677,
-      "eval_runtime": 9.4019,
-      "eval_samples_per_second": 8.083,
-      "eval_steps_per_second": 1.064,
       "step": 20
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.09138184040784836,
-      "eval_mae": 0.3351140022277832,
-      "eval_mse": 0.14778681099414825,
-      "eval_runtime": 9.4168,
-      "eval_samples_per_second": 8.071,
-      "eval_steps_per_second": 1.062,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.422793388366699,
-      "learning_rate": 7.833333333333333e-05,
-      "loss": 0.3379,
       "step": 40
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.07990685850381851,
-      "eval_mae": 0.3216111361980438,
-      "eval_mse": 0.1368674337863922,
-      "eval_runtime": 9.6691,
-      "eval_samples_per_second": 7.86,
-      "eval_steps_per_second": 1.034,
       "step": 40
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.07730501145124435,
-      "eval_mae": 0.3210676312446594,
-      "eval_mse": 0.1364751160144806,
-      "eval_runtime": 9.6377,
-      "eval_samples_per_second": 7.886,
-      "eval_steps_per_second": 1.038,
       "step": 50
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.08424032479524612,
-      "eval_mae": 0.3250683844089508,
-      "eval_mse": 0.14131243526935577,
-      "eval_runtime": 9.4489,
-      "eval_samples_per_second": 8.043,
-      "eval_steps_per_second": 1.058,
       "step": 60
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.08766830712556839,
-      "eval_mae": 0.3169863820075989,
-      "eval_mse": 0.13288582861423492,
-      "eval_runtime": 10.5663,
-      "eval_samples_per_second": 7.193,
-      "eval_steps_per_second": 0.946,
       "step": 70
     },
     {
       "epoch": 8.0,
-      "grad_norm": 3.210268020629883,
-      "learning_rate": 5.6111111111111114e-05,
-      "loss": 0.2829,
       "step": 80
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.08300431817770004,
-      "eval_mae": 0.3192159831523895,
-      "eval_mse": 0.1370069533586502,
-      "eval_runtime": 9.75,
-      "eval_samples_per_second": 7.795,
-      "eval_steps_per_second": 1.026,
       "step": 80
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.08274427056312561,
-      "eval_mae": 0.32542383670806885,
-      "eval_mse": 0.140847310423851,
-      "eval_runtime": 9.5472,
-      "eval_samples_per_second": 7.96,
-      "eval_steps_per_second": 1.047,
       "step": 90
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.08588916808366776,
-      "eval_mae": 0.3119707405567169,
-      "eval_mse": 0.1291341334581375,
-      "eval_runtime": 10.6888,
-      "eval_samples_per_second": 7.11,
-      "eval_steps_per_second": 0.936,
       "step": 100
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.10085263103246689,
-      "eval_mae": 0.330853134393692,
-      "eval_mse": 0.14782297611236572,
-      "eval_runtime": 9.484,
-      "eval_samples_per_second": 8.013,
-      "eval_steps_per_second": 1.054,
       "step": 110
     },
     {
       "epoch": 12.0,
-      "grad_norm": 2.0312862396240234,
-      "learning_rate": 3.388888888888889e-05,
-      "loss": 0.2461,
       "step": 120
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.08102226257324219,
-      "eval_mae": 0.3174217641353607,
-      "eval_mse": 0.135166734457016,
-      "eval_runtime": 9.5097,
-      "eval_samples_per_second": 7.992,
-      "eval_steps_per_second": 1.052,
       "step": 120
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.08370836824178696,
-      "eval_mae": 0.31886667013168335,
-      "eval_mse": 0.13684500753879547,
-      "eval_runtime": 9.4388,
-      "eval_samples_per_second": 8.052,
-      "eval_steps_per_second": 1.059,
       "step": 130
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.08873885869979858,
-      "eval_mae": 0.32301220297813416,
-      "eval_mse": 0.1409922093153,
-      "eval_runtime": 9.629,
-      "eval_samples_per_second": 7.893,
-      "eval_steps_per_second": 1.039,
       "step": 140
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.08366208523511887,
-      "eval_mae": 0.31394028663635254,
-      "eval_mse": 0.13212691247463226,
-      "eval_runtime": 9.4772,
-      "eval_samples_per_second": 8.019,
-      "eval_steps_per_second": 1.055,
       "step": 150
     },
     {
       "epoch": 16.0,
-      "grad_norm": 2.5568466186523438,
-      "learning_rate": 1.1666666666666668e-05,
-      "loss": 0.2104,
       "step": 160
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.09077440947294235,
-      "eval_mae": 0.3225802481174469,
-      "eval_mse": 0.14043577015399933,
-      "eval_runtime": 9.6623,
-      "eval_samples_per_second": 7.866,
-      "eval_steps_per_second": 1.035,
       "step": 160
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.08574231714010239,
-      "eval_mae": 0.31825631856918335,
-      "eval_mse": 0.13667234778404236,
-      "eval_runtime": 9.4595,
-      "eval_samples_per_second": 8.034,
-      "eval_steps_per_second": 1.057,
       "step": 170
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.08340632170438766,
-      "eval_mae": 0.3171162009239197,
-      "eval_mse": 0.13509555160999298,
-      "eval_runtime": 9.4982,
-      "eval_samples_per_second": 8.002,
-      "eval_steps_per_second": 1.053,
       "step": 180
     },
     {
-      "epoch": 18.0,
-      "step": 180,
       "total_flos": 0.0,
-      "train_loss": 0.2600840449333191,
-      "train_runtime": 1002.0455,
-      "train_samples_per_second": 6.048,
-      "train_steps_per_second": 0.18
     }
   ],
   "logging_steps": 40,
-  "max_steps": 180,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
+  "best_global_step": 120,
+  "best_metric": 0.12533096969127655,
+  "best_model_checkpoint": "./vit_focus/checkpoint-120",
+  "epoch": 27.0,
   "eval_steps": 500,
+  "global_step": 270,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 0.0993029847741127,
+      "eval_mae": 0.3380415141582489,
+      "eval_mse": 0.15286438167095184,
+      "eval_runtime": 9.9578,
+      "eval_samples_per_second": 7.632,
+      "eval_steps_per_second": 1.004,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.1050349548459053,
+      "eval_mae": 0.34093156456947327,
+      "eval_mse": 0.15535660088062286,
+      "eval_runtime": 9.7265,
+      "eval_samples_per_second": 7.814,
+      "eval_steps_per_second": 1.028,
       "step": 20
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.09966066479682922,
+      "eval_mae": 0.3352396786212921,
+      "eval_mse": 0.14932329952716827,
+      "eval_runtime": 9.4644,
+      "eval_samples_per_second": 8.03,
+      "eval_steps_per_second": 1.057,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "grad_norm": 6.926674842834473,
+      "learning_rate": 4.277777777777778e-05,
+      "loss": 0.313,
       "step": 40
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.06556536257266998,
+      "eval_mae": 0.3157392740249634,
+      "eval_mse": 0.13447947800159454,
+      "eval_runtime": 10.1308,
+      "eval_samples_per_second": 7.502,
+      "eval_steps_per_second": 0.987,
       "step": 40
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.06592569500207901,
+      "eval_mae": 0.3202681839466095,
+      "eval_mse": 0.13659903407096863,
+      "eval_runtime": 9.7043,
+      "eval_samples_per_second": 7.832,
+      "eval_steps_per_second": 1.03,
       "step": 50
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.0638844296336174,
+      "eval_mae": 0.31192123889923096,
+      "eval_mse": 0.12961846590042114,
+      "eval_runtime": 9.5179,
+      "eval_samples_per_second": 7.985,
+      "eval_steps_per_second": 1.051,
       "step": 60
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.06389027088880539,
+      "eval_mae": 0.3178236484527588,
+      "eval_mse": 0.13510307669639587,
+      "eval_runtime": 9.5025,
+      "eval_samples_per_second": 7.998,
+      "eval_steps_per_second": 1.052,
       "step": 70
     },
     {
       "epoch": 8.0,
+      "grad_norm": 4.451300144195557,
+      "learning_rate": 3.537037037037037e-05,
+      "loss": 0.1742,
       "step": 80
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.06391099840402603,
+      "eval_mae": 0.3085971772670746,
+      "eval_mse": 0.12736700475215912,
+      "eval_runtime": 10.1592,
+      "eval_samples_per_second": 7.481,
+      "eval_steps_per_second": 0.984,
       "step": 80
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.07279632240533829,
+      "eval_mae": 0.3096161186695099,
+      "eval_mse": 0.12943950295448303,
+      "eval_runtime": 9.4821,
+      "eval_samples_per_second": 8.015,
+      "eval_steps_per_second": 1.055,
       "step": 90
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.06712160259485245,
+      "eval_mae": 0.3150458335876465,
+      "eval_mse": 0.13300836086273193,
+      "eval_runtime": 9.7046,
+      "eval_samples_per_second": 7.831,
+      "eval_steps_per_second": 1.03,
       "step": 100
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.06695493310689926,
+      "eval_mae": 0.30665045976638794,
+      "eval_mse": 0.12600918114185333,
+      "eval_runtime": 9.7852,
+      "eval_samples_per_second": 7.767,
+      "eval_steps_per_second": 1.022,
       "step": 110
     },
     {
       "epoch": 12.0,
+      "grad_norm": 2.9957473278045654,
+      "learning_rate": 2.7962962962962965e-05,
+      "loss": 0.1284,
       "step": 120
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.06580791622400284,
+      "eval_mae": 0.3059428930282593,
+      "eval_mse": 0.12533096969127655,
+      "eval_runtime": 9.7135,
+      "eval_samples_per_second": 7.824,
+      "eval_steps_per_second": 1.029,
       "step": 120
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.06405826658010483,
+      "eval_mae": 0.3104270100593567,
+      "eval_mse": 0.1280805468559265,
+      "eval_runtime": 12.0741,
+      "eval_samples_per_second": 6.294,
+      "eval_steps_per_second": 0.828,
       "step": 130
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.06428611278533936,
+      "eval_mae": 0.3104848563671112,
+      "eval_mse": 0.12893278896808624,
+      "eval_runtime": 9.5891,
+      "eval_samples_per_second": 7.926,
+      "eval_steps_per_second": 1.043,
       "step": 140
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.06487523764371872,
+      "eval_mae": 0.3171584904193878,
+      "eval_mse": 0.13420797884464264,
+      "eval_runtime": 9.5632,
+      "eval_samples_per_second": 7.947,
+      "eval_steps_per_second": 1.046,
       "step": 150
     },
     {
       "epoch": 16.0,
+      "grad_norm": 1.922245740890503,
+      "learning_rate": 2.0555555555555555e-05,
+      "loss": 0.0981,
       "step": 160
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.06558659672737122,
+      "eval_mae": 0.30849871039390564,
+      "eval_mse": 0.12756428122520447,
+      "eval_runtime": 9.5905,
+      "eval_samples_per_second": 7.924,
+      "eval_steps_per_second": 1.043,
       "step": 160
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.06274469941854477,
+      "eval_mae": 0.3136182427406311,
+      "eval_mse": 0.13160544633865356,
+      "eval_runtime": 10.0109,
+      "eval_samples_per_second": 7.592,
+      "eval_steps_per_second": 0.999,
       "step": 170
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.06201491877436638,
+      "eval_mae": 0.3168633282184601,
+      "eval_mse": 0.1343080997467041,
+      "eval_runtime": 9.9918,
+      "eval_samples_per_second": 7.606,
+      "eval_steps_per_second": 1.001,
       "step": 180
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 0.0631915032863617,
+      "eval_mae": 0.31292420625686646,
+      "eval_mse": 0.13110676407814026,
+      "eval_runtime": 9.5351,
+      "eval_samples_per_second": 7.971,
+      "eval_steps_per_second": 1.049,
+      "step": 190
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 1.9687647819519043,
+      "learning_rate": 1.3148148148148148e-05,
+      "loss": 0.0767,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.06296339631080627,
+      "eval_mae": 0.3142727017402649,
+      "eval_mse": 0.1326274573802948,
+      "eval_runtime": 9.7999,
+      "eval_samples_per_second": 7.755,
+      "eval_steps_per_second": 1.02,
+      "step": 200
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.06408733129501343,
+      "eval_mae": 0.311717689037323,
+      "eval_mse": 0.12986762821674347,
+      "eval_runtime": 9.6462,
+      "eval_samples_per_second": 7.879,
+      "eval_steps_per_second": 1.037,
+      "step": 210
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.06340750306844711,
+      "eval_mae": 0.3114081621170044,
+      "eval_mse": 0.12940751016139984,
+      "eval_runtime": 9.5394,
+      "eval_samples_per_second": 7.967,
+      "eval_steps_per_second": 1.048,
+      "step": 220
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.06285858899354935,
+      "eval_mae": 0.31304195523262024,
+      "eval_mse": 0.13149800896644592,
+      "eval_runtime": 9.8923,
+      "eval_samples_per_second": 7.683,
+      "eval_steps_per_second": 1.011,
+      "step": 230
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 1.0159116983413696,
+      "learning_rate": 5.740740740740741e-06,
+      "loss": 0.0615,
+      "step": 240
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.06115531921386719,
+      "eval_mae": 0.3123721480369568,
+      "eval_mse": 0.13078482449054718,
+      "eval_runtime": 9.6638,
+      "eval_samples_per_second": 7.864,
+      "eval_steps_per_second": 1.035,
+      "step": 240
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.059913910925388336,
+      "eval_mae": 0.31175902485847473,
+      "eval_mse": 0.13015513122081757,
+      "eval_runtime": 9.6921,
+      "eval_samples_per_second": 7.841,
+      "eval_steps_per_second": 1.032,
+      "step": 250
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.06085545942187309,
+      "eval_mae": 0.313151478767395,
+      "eval_mse": 0.13129989802837372,
+      "eval_runtime": 9.5449,
+      "eval_samples_per_second": 7.962,
+      "eval_steps_per_second": 1.048,
+      "step": 260
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.060885023325681686,
+      "eval_mae": 0.3116842210292816,
+      "eval_mse": 0.13011318445205688,
+      "eval_runtime": 9.6423,
+      "eval_samples_per_second": 7.882,
+      "eval_steps_per_second": 1.037,
+      "step": 270
+    },
+    {
+      "epoch": 27.0,
+      "step": 270,
       "total_flos": 0.0,
+      "train_loss": 0.13240765200720894,
+      "train_runtime": 1534.1197,
+      "train_samples_per_second": 5.925,
+      "train_steps_per_second": 0.176
     }
   ],
   "logging_steps": 40,
+  "max_steps": 270,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {