Fin de l'entraînement

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +14 -0
eval_results.json +9 -0
train_results.json +8 -0
trainer_state.json +609 -0

README.md CHANGED Viewed

@@ -14,9 +14,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0533
-- Mse: 0.1327
-- Mae: 0.3166
 ## Model description

 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0531
+- Mse: 0.1291
+- Mae: 0.3119
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 29.985507246376812,
+    "eval_loss": 0.05310577526688576,
+    "eval_mae": 0.3118866980075836,
+    "eval_mse": 0.12907913327217102,
+    "eval_runtime": 58.3393,
+    "eval_samples_per_second": 7.096,
+    "eval_steps_per_second": 0.891,
+    "total_flos": 0.0,
+    "train_loss": 0.11046674571006126,
+    "train_runtime": 98364.9673,
+    "train_samples_per_second": 0.504,
+    "train_steps_per_second": 0.016
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 29.985507246376812,
+    "eval_loss": 0.05310577526688576,
+    "eval_mae": 0.3118866980075836,
+    "eval_mse": 0.12907913327217102,
+    "eval_runtime": 58.3393,
+    "eval_samples_per_second": 7.096,
+    "eval_steps_per_second": 0.891
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 29.985507246376812,
+    "total_flos": 0.0,
+    "train_loss": 0.11046674571006126,
+    "train_runtime": 98364.9673,
+    "train_samples_per_second": 0.504,
+    "train_steps_per_second": 0.016
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,609 @@

+{
+  "best_global_step": 969,
+  "best_metric": 0.12907913327217102,
+  "best_model_checkpoint": "./vit_focus_full/checkpoint-969",
+  "epoch": 29.985507246376812,
+  "eval_steps": 500,
+  "global_step": 1530,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7729468599033816,
+      "grad_norm": 10.6144437789917,
+      "learning_rate": 4.872549019607843e-05,
+      "loss": 0.3146,
+      "step": 40
+    },
+    {
+      "epoch": 0.9855072463768116,
+      "eval_loss": 0.05953465402126312,
+      "eval_mae": 0.3265259861946106,
+      "eval_mse": 0.1403445601463318,
+      "eval_runtime": 57.1346,
+      "eval_samples_per_second": 7.246,
+      "eval_steps_per_second": 0.91,
+      "step": 51
+    },
+    {
+      "epoch": 1.5603864734299517,
+      "grad_norm": 5.5437469482421875,
+      "learning_rate": 4.741830065359477e-05,
+      "loss": 0.2488,
+      "step": 80
+    },
+    {
+      "epoch": 1.9855072463768115,
+      "eval_loss": 0.05661279708147049,
+      "eval_mae": 0.3253043293952942,
+      "eval_mse": 0.13950611650943756,
+      "eval_runtime": 56.4199,
+      "eval_samples_per_second": 7.338,
+      "eval_steps_per_second": 0.922,
+      "step": 102
+    },
+    {
+      "epoch": 2.3478260869565215,
+      "grad_norm": 4.464972972869873,
+      "learning_rate": 4.6111111111111115e-05,
+      "loss": 0.2278,
+      "step": 120
+    },
+    {
+      "epoch": 2.9855072463768115,
+      "eval_loss": 0.06113344058394432,
+      "eval_mae": 0.3287981450557709,
+      "eval_mse": 0.14261041581630707,
+      "eval_runtime": 56.9728,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.913,
+      "step": 153
+    },
+    {
+      "epoch": 3.135265700483092,
+      "grad_norm": 8.567197799682617,
+      "learning_rate": 4.480392156862745e-05,
+      "loss": 0.2148,
+      "step": 160
+    },
+    {
+      "epoch": 3.9082125603864735,
+      "grad_norm": 5.523195266723633,
+      "learning_rate": 4.3496732026143795e-05,
+      "loss": 0.206,
+      "step": 200
+    },
+    {
+      "epoch": 3.9855072463768115,
+      "eval_loss": 0.05355362221598625,
+      "eval_mae": 0.31797775626182556,
+      "eval_mse": 0.13227654993534088,
+      "eval_runtime": 56.8583,
+      "eval_samples_per_second": 7.281,
+      "eval_steps_per_second": 0.915,
+      "step": 204
+    },
+    {
+      "epoch": 4.695652173913043,
+      "grad_norm": 6.00140380859375,
+      "learning_rate": 4.218954248366013e-05,
+      "loss": 0.1902,
+      "step": 240
+    },
+    {
+      "epoch": 4.9855072463768115,
+      "eval_loss": 0.06186218187212944,
+      "eval_mae": 0.3270839750766754,
+      "eval_mse": 0.1410592794418335,
+      "eval_runtime": 56.1466,
+      "eval_samples_per_second": 7.374,
+      "eval_steps_per_second": 0.926,
+      "step": 255
+    },
+    {
+      "epoch": 5.483091787439614,
+      "grad_norm": 9.328702926635742,
+      "learning_rate": 4.0882352941176474e-05,
+      "loss": 0.187,
+      "step": 280
+    },
+    {
+      "epoch": 5.9855072463768115,
+      "eval_loss": 0.05080530419945717,
+      "eval_mae": 0.3168753385543823,
+      "eval_mse": 0.1319676637649536,
+      "eval_runtime": 57.4612,
+      "eval_samples_per_second": 7.205,
+      "eval_steps_per_second": 0.905,
+      "step": 306
+    },
+    {
+      "epoch": 6.270531400966184,
+      "grad_norm": 7.799366474151611,
+      "learning_rate": 3.957516339869281e-05,
+      "loss": 0.1757,
+      "step": 320
+    },
+    {
+      "epoch": 6.9855072463768115,
+      "eval_loss": 0.05371123179793358,
+      "eval_mae": 0.31825557351112366,
+      "eval_mse": 0.13387194275856018,
+      "eval_runtime": 57.3782,
+      "eval_samples_per_second": 7.215,
+      "eval_steps_per_second": 0.906,
+      "step": 357
+    },
+    {
+      "epoch": 7.057971014492754,
+      "grad_norm": 4.06664514541626,
+      "learning_rate": 3.8267973856209146e-05,
+      "loss": 0.1677,
+      "step": 360
+    },
+    {
+      "epoch": 7.830917874396135,
+      "grad_norm": 5.403101921081543,
+      "learning_rate": 3.6960784313725496e-05,
+      "loss": 0.1523,
+      "step": 400
+    },
+    {
+      "epoch": 7.9855072463768115,
+      "eval_loss": 0.055755238980054855,
+      "eval_mae": 0.31683334708213806,
+      "eval_mse": 0.13297995924949646,
+      "eval_runtime": 65.7904,
+      "eval_samples_per_second": 6.293,
+      "eval_steps_per_second": 0.79,
+      "step": 408
+    },
+    {
+      "epoch": 8.618357487922705,
+      "grad_norm": 6.7577948570251465,
+      "learning_rate": 3.565359477124183e-05,
+      "loss": 0.1528,
+      "step": 440
+    },
+    {
+      "epoch": 8.985507246376812,
+      "eval_loss": 0.05914789438247681,
+      "eval_mae": 0.3224806785583496,
+      "eval_mse": 0.1381232738494873,
+      "eval_runtime": 56.9831,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.913,
+      "step": 459
+    },
+    {
+      "epoch": 9.405797101449275,
+      "grad_norm": 4.654517650604248,
+      "learning_rate": 3.434640522875817e-05,
+      "loss": 0.1416,
+      "step": 480
+    },
+    {
+      "epoch": 9.985507246376812,
+      "eval_loss": 0.05355934053659439,
+      "eval_mae": 0.3197546601295471,
+      "eval_mse": 0.1352616846561432,
+      "eval_runtime": 57.4136,
+      "eval_samples_per_second": 7.211,
+      "eval_steps_per_second": 0.906,
+      "step": 510
+    },
+    {
+      "epoch": 10.193236714975846,
+      "grad_norm": 4.063232421875,
+      "learning_rate": 3.303921568627451e-05,
+      "loss": 0.1391,
+      "step": 520
+    },
+    {
+      "epoch": 10.966183574879228,
+      "grad_norm": 4.905858993530273,
+      "learning_rate": 3.173202614379085e-05,
+      "loss": 0.1298,
+      "step": 560
+    },
+    {
+      "epoch": 10.985507246376812,
+      "eval_loss": 0.05300646275281906,
+      "eval_mae": 0.3164079189300537,
+      "eval_mse": 0.132521390914917,
+      "eval_runtime": 58.995,
+      "eval_samples_per_second": 7.018,
+      "eval_steps_per_second": 0.881,
+      "step": 561
+    },
+    {
+      "epoch": 11.753623188405797,
+      "grad_norm": 4.643632411956787,
+      "learning_rate": 3.0424836601307187e-05,
+      "loss": 0.1161,
+      "step": 600
+    },
+    {
+      "epoch": 11.985507246376812,
+      "eval_loss": 0.0511205680668354,
+      "eval_mae": 0.315570205450058,
+      "eval_mse": 0.13146661221981049,
+      "eval_runtime": 57.0447,
+      "eval_samples_per_second": 7.257,
+      "eval_steps_per_second": 0.912,
+      "step": 612
+    },
+    {
+      "epoch": 12.541062801932368,
+      "grad_norm": 3.0849831104278564,
+      "learning_rate": 2.9117647058823534e-05,
+      "loss": 0.1085,
+      "step": 640
+    },
+    {
+      "epoch": 12.985507246376812,
+      "eval_loss": 0.05314180254936218,
+      "eval_mae": 0.32430657744407654,
+      "eval_mse": 0.13849547505378723,
+      "eval_runtime": 631.8234,
+      "eval_samples_per_second": 0.655,
+      "eval_steps_per_second": 0.082,
+      "step": 663
+    },
+    {
+      "epoch": 13.328502415458937,
+      "grad_norm": 5.586836338043213,
+      "learning_rate": 2.7810457516339873e-05,
+      "loss": 0.1028,
+      "step": 680
+    },
+    {
+      "epoch": 13.985507246376812,
+      "eval_loss": 0.05296429246664047,
+      "eval_mae": 0.31508708000183105,
+      "eval_mse": 0.1316087543964386,
+      "eval_runtime": 57.8458,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 0.899,
+      "step": 714
+    },
+    {
+      "epoch": 14.115942028985508,
+      "grad_norm": 3.5024545192718506,
+      "learning_rate": 2.650326797385621e-05,
+      "loss": 0.0974,
+      "step": 720
+    },
+    {
+      "epoch": 14.88888888888889,
+      "grad_norm": 3.7782580852508545,
+      "learning_rate": 2.519607843137255e-05,
+      "loss": 0.0891,
+      "step": 760
+    },
+    {
+      "epoch": 14.985507246376812,
+      "eval_loss": 0.0540492981672287,
+      "eval_mae": 0.31779569387435913,
+      "eval_mse": 0.1337898075580597,
+      "eval_runtime": 57.6717,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.902,
+      "step": 765
+    },
+    {
+      "epoch": 15.676328502415458,
+      "grad_norm": 3.615967035293579,
+      "learning_rate": 2.3888888888888892e-05,
+      "loss": 0.0878,
+      "step": 800
+    },
+    {
+      "epoch": 15.985507246376812,
+      "eval_loss": 0.05357988178730011,
+      "eval_mae": 0.3177140951156616,
+      "eval_mse": 0.13350851833820343,
+      "eval_runtime": 57.5097,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 816
+    },
+    {
+      "epoch": 16.463768115942027,
+      "grad_norm": 9.533724784851074,
+      "learning_rate": 2.258169934640523e-05,
+      "loss": 0.077,
+      "step": 840
+    },
+    {
+      "epoch": 16.985507246376812,
+      "eval_loss": 0.05338989570736885,
+      "eval_mae": 0.31321439146995544,
+      "eval_mse": 0.12988565862178802,
+      "eval_runtime": 58.1505,
+      "eval_samples_per_second": 7.119,
+      "eval_steps_per_second": 0.894,
+      "step": 867
+    },
+    {
+      "epoch": 17.2512077294686,
+      "grad_norm": 3.7093381881713867,
+      "learning_rate": 2.1274509803921568e-05,
+      "loss": 0.0769,
+      "step": 880
+    },
+    {
+      "epoch": 17.985507246376812,
+      "eval_loss": 0.0548611618578434,
+      "eval_mae": 0.3149418532848358,
+      "eval_mse": 0.1313086301088333,
+      "eval_runtime": 56.4832,
+      "eval_samples_per_second": 7.33,
+      "eval_steps_per_second": 0.921,
+      "step": 918
+    },
+    {
+      "epoch": 18.03864734299517,
+      "grad_norm": 2.9852871894836426,
+      "learning_rate": 1.996732026143791e-05,
+      "loss": 0.0717,
+      "step": 920
+    },
+    {
+      "epoch": 18.81159420289855,
+      "grad_norm": 3.3752264976501465,
+      "learning_rate": 1.866013071895425e-05,
+      "loss": 0.0663,
+      "step": 960
+    },
+    {
+      "epoch": 18.985507246376812,
+      "eval_loss": 0.05310577526688576,
+      "eval_mae": 0.3118866980075836,
+      "eval_mse": 0.12907913327217102,
+      "eval_runtime": 58.2255,
+      "eval_samples_per_second": 7.11,
+      "eval_steps_per_second": 0.893,
+      "step": 969
+    },
+    {
+      "epoch": 19.59903381642512,
+      "grad_norm": 2.9139506816864014,
+      "learning_rate": 1.735294117647059e-05,
+      "loss": 0.064,
+      "step": 1000
+    },
+    {
+      "epoch": 19.985507246376812,
+      "eval_loss": 0.05400167778134346,
+      "eval_mae": 0.31967055797576904,
+      "eval_mse": 0.13520964980125427,
+      "eval_runtime": 58.0572,
+      "eval_samples_per_second": 7.131,
+      "eval_steps_per_second": 0.896,
+      "step": 1020
+    },
+    {
+      "epoch": 20.386473429951693,
+      "grad_norm": 3.1011509895324707,
+      "learning_rate": 1.604575163398693e-05,
+      "loss": 0.0608,
+      "step": 1040
+    },
+    {
+      "epoch": 20.985507246376812,
+      "eval_loss": 0.05348004400730133,
+      "eval_mae": 0.3179128170013428,
+      "eval_mse": 0.13336069881916046,
+      "eval_runtime": 56.8284,
+      "eval_samples_per_second": 7.285,
+      "eval_steps_per_second": 0.915,
+      "step": 1071
+    },
+    {
+      "epoch": 21.17391304347826,
+      "grad_norm": 2.4269816875457764,
+      "learning_rate": 1.473856209150327e-05,
+      "loss": 0.0558,
+      "step": 1080
+    },
+    {
+      "epoch": 21.946859903381643,
+      "grad_norm": 2.612093925476074,
+      "learning_rate": 1.3431372549019607e-05,
+      "loss": 0.0548,
+      "step": 1120
+    },
+    {
+      "epoch": 21.985507246376812,
+      "eval_loss": 0.052902594208717346,
+      "eval_mae": 0.3134055733680725,
+      "eval_mse": 0.129911869764328,
+      "eval_runtime": 57.5407,
+      "eval_samples_per_second": 7.195,
+      "eval_steps_per_second": 0.904,
+      "step": 1122
+    },
+    {
+      "epoch": 22.734299516908212,
+      "grad_norm": 1.7072349786758423,
+      "learning_rate": 1.2124183006535949e-05,
+      "loss": 0.0517,
+      "step": 1160
+    },
+    {
+      "epoch": 22.985507246376812,
+      "eval_loss": 0.05338846519589424,
+      "eval_mae": 0.31519371271133423,
+      "eval_mse": 0.13099054992198944,
+      "eval_runtime": 2988.6114,
+      "eval_samples_per_second": 0.139,
+      "eval_steps_per_second": 0.017,
+      "step": 1173
+    },
+    {
+      "epoch": 23.52173913043478,
+      "grad_norm": 2.942000389099121,
+      "learning_rate": 1.0816993464052288e-05,
+      "loss": 0.0498,
+      "step": 1200
+    },
+    {
+      "epoch": 23.985507246376812,
+      "eval_loss": 0.05435283109545708,
+      "eval_mae": 0.31506991386413574,
+      "eval_mse": 0.13137240707874298,
+      "eval_runtime": 158.629,
+      "eval_samples_per_second": 2.61,
+      "eval_steps_per_second": 0.328,
+      "step": 1224
+    },
+    {
+      "epoch": 24.309178743961354,
+      "grad_norm": 1.7872236967086792,
+      "learning_rate": 9.509803921568628e-06,
+      "loss": 0.047,
+      "step": 1240
+    },
+    {
+      "epoch": 24.985507246376812,
+      "eval_loss": 0.05310087278485298,
+      "eval_mae": 0.3145076036453247,
+      "eval_mse": 0.13092052936553955,
+      "eval_runtime": 59.2601,
+      "eval_samples_per_second": 6.986,
+      "eval_steps_per_second": 0.877,
+      "step": 1275
+    },
+    {
+      "epoch": 25.096618357487923,
+      "grad_norm": 1.8146392107009888,
+      "learning_rate": 8.202614379084967e-06,
+      "loss": 0.0467,
+      "step": 1280
+    },
+    {
+      "epoch": 25.869565217391305,
+      "grad_norm": 1.8770432472229004,
+      "learning_rate": 6.895424836601308e-06,
+      "loss": 0.0443,
+      "step": 1320
+    },
+    {
+      "epoch": 25.985507246376812,
+      "eval_loss": 0.053730811923742294,
+      "eval_mae": 0.31641700863838196,
+      "eval_mse": 0.1325235366821289,
+      "eval_runtime": 8331.3737,
+      "eval_samples_per_second": 0.05,
+      "eval_steps_per_second": 0.006,
+      "step": 1326
+    },
+    {
+      "epoch": 26.657004830917874,
+      "grad_norm": 2.1211466789245605,
+      "learning_rate": 5.588235294117647e-06,
+      "loss": 0.042,
+      "step": 1360
+    },
+    {
+      "epoch": 26.985507246376812,
+      "eval_loss": 0.05325399339199066,
+      "eval_mae": 0.31560125946998596,
+      "eval_mse": 0.13193772733211517,
+      "eval_runtime": 3946.2723,
+      "eval_samples_per_second": 0.105,
+      "eval_steps_per_second": 0.013,
+      "step": 1377
+    },
+    {
+      "epoch": 27.444444444444443,
+      "grad_norm": 1.9497586488723755,
+      "learning_rate": 4.281045751633987e-06,
+      "loss": 0.0397,
+      "step": 1400
+    },
+    {
+      "epoch": 27.985507246376812,
+      "eval_loss": 0.052952226251363754,
+      "eval_mae": 0.3155405521392822,
+      "eval_mse": 0.13170257210731506,
+      "eval_runtime": 58.8468,
+      "eval_samples_per_second": 7.035,
+      "eval_steps_per_second": 0.884,
+      "step": 1428
+    },
+    {
+      "epoch": 28.231884057971016,
+      "grad_norm": 5.6321330070495605,
+      "learning_rate": 2.9738562091503266e-06,
+      "loss": 0.0411,
+      "step": 1440
+    },
+    {
+      "epoch": 28.985507246376812,
+      "eval_loss": 0.05421222001314163,
+      "eval_mae": 0.31665799021720886,
+      "eval_mse": 0.13281531631946564,
+      "eval_runtime": 60.076,
+      "eval_samples_per_second": 6.891,
+      "eval_steps_per_second": 0.866,
+      "step": 1479
+    },
+    {
+      "epoch": 29.019323671497585,
+      "grad_norm": 1.5062155723571777,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0385,
+      "step": 1480
+    },
+    {
+      "epoch": 29.792270531400966,
+      "grad_norm": 3.7781600952148438,
+      "learning_rate": 3.5947712418300653e-07,
+      "loss": 0.0382,
+      "step": 1520
+    },
+    {
+      "epoch": 29.985507246376812,
+      "eval_loss": 0.05334796383976936,
+      "eval_mae": 0.31658393144607544,
+      "eval_mse": 0.13268809020519257,
+      "eval_runtime": 61.4065,
+      "eval_samples_per_second": 6.742,
+      "eval_steps_per_second": 0.847,
+      "step": 1530
+    },
+    {
+      "epoch": 29.985507246376812,
+      "step": 1530,
+      "total_flos": 0.0,
+      "train_loss": 0.11046674571006126,
+      "train_runtime": 98364.9673,
+      "train_samples_per_second": 0.504,
+      "train_steps_per_second": 0.016
+    }
+  ],
+  "logging_steps": 40,
+  "max_steps": 1530,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}