Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +2 -2
model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +2 -2
trainer_state.json +252 -728
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "facebook/dinov2-large",
   "apply_layernorm": true,
   "architectures": [
     "Dinov2ForImageClassification"
@@ -64,6 +63,7 @@
     "stage24"
   ],
   "torch_dtype": "float32",
-  "transformers_version": "4.47.1",
   "use_swiglu_ffn": false
 }

 {
   "apply_layernorm": true,
   "architectures": [
     "Dinov2ForImageClassification"
     "stage24"
   ],
   "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_mask_token": true,
   "use_swiglu_ffn": false
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4db45e1375a111330f445f36615ec59a496219282a40ba73885298d28e14472
 size 1217542512

 version https://git-lfs.github.com/spec/v1
+oid sha256:0008d0b179f0af6309b99b8c6fabf134a11ed6bdd66ded13444541a4a3e6fbcb
 size 1217542512

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d60761ac8c8b5a161ea9b8f512bb1924d67f201c99d9adca3a338bf88aac23f
-size 2435341946

 version https://git-lfs.github.com/spec/v1
+oid sha256:48abcb40e932df8c553badeafb3b0a18b0f7d781ab7f8395c3cf20c85c189a66
+size 2435342411

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:660ccec1688742a08ac50147863109a12b04472562e401ba83f158155084b971
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4395a530497f268c762a08cd4fcee96c37463e64496c3f6e4a0c83bb1f5337f6
+size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fc364201fbceac17ee28f0c25f6cd2003904f59d3a8ddb2469ba7bfdd346578
-size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2e6312b4ddd707deada4d923ee63434e3e31f0333703f16ac94f13036d755de
+size 1465

trainer_state.json CHANGED Viewed

@@ -1,858 +1,382 @@
 {
-  "best_metric": 0.9417692129092176,
-  "best_model_checkpoint": "Crosswalk/dinov2/checkpoint-924",
-  "epoch": 22.0,
   "eval_steps": 500,
-  "global_step": 924,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.24242424242424243,
-      "grad_norm": 1809.6781005859375,
-      "learning_rate": 9.70873786407767e-07,
-      "loss": 4.7087,
       "step": 10
     },
     {
-      "epoch": 0.48484848484848486,
-      "grad_norm": 190.5601806640625,
-      "learning_rate": 1.941747572815534e-06,
-      "loss": 3.034,
       "step": 20
     },
     {
-      "epoch": 0.7272727272727273,
-      "grad_norm": 76.29146575927734,
-      "learning_rate": 2.912621359223301e-06,
-      "loss": 2.0024,
       "step": 30
     },
     {
-      "epoch": 0.9696969696969697,
-      "grad_norm": 75.1009750366211,
-      "learning_rate": 3.883495145631068e-06,
-      "loss": 1.4019,
       "step": 40
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.2978227138519287,
-      "eval_macro_f1": 0.8815037150933147,
-      "eval_runtime": 7.5247,
-      "eval_samples_per_second": 43.856,
-      "eval_steps_per_second": 5.582,
-      "step": 42
-    },
-    {
-      "epoch": 1.1939393939393939,
-      "grad_norm": 86.90376281738281,
-      "learning_rate": 4.854368932038836e-06,
-      "loss": 0.7179,
       "step": 50
     },
     {
-      "epoch": 1.4363636363636363,
-      "grad_norm": 118.144287109375,
-      "learning_rate": 5.825242718446602e-06,
-      "loss": 0.9737,
       "step": 60
     },
     {
-      "epoch": 1.6787878787878787,
-      "grad_norm": 174.987548828125,
-      "learning_rate": 6.79611650485437e-06,
-      "loss": 1.3976,
       "step": 70
     },
     {
-      "epoch": 1.9212121212121214,
-      "grad_norm": 35.86643981933594,
-      "learning_rate": 7.766990291262136e-06,
-      "loss": 0.967,
       "step": 80
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.22084859013557434,
-      "eval_macro_f1": 0.9229339286881953,
-      "eval_runtime": 5.8751,
-      "eval_samples_per_second": 56.169,
-      "eval_steps_per_second": 7.149,
-      "step": 84
-    },
-    {
-      "epoch": 2.1454545454545455,
-      "grad_norm": 232.57371520996094,
-      "learning_rate": 8.737864077669904e-06,
-      "loss": 1.323,
       "step": 90
     },
     {
-      "epoch": 2.3878787878787877,
-      "grad_norm": 72.19599914550781,
-      "learning_rate": 9.708737864077671e-06,
-      "loss": 1.005,
       "step": 100
     },
     {
-      "epoch": 2.6303030303030304,
-      "grad_norm": 55.63515853881836,
-      "learning_rate": 9.924078091106291e-06,
-      "loss": 0.6989,
       "step": 110
     },
     {
-      "epoch": 2.8727272727272726,
-      "grad_norm": 56.631591796875,
-      "learning_rate": 9.815618221258135e-06,
-      "loss": 0.7527,
       "step": 120
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.3025018870830536,
-      "eval_macro_f1": 0.9009343690194753,
-      "eval_runtime": 6.0811,
-      "eval_samples_per_second": 54.266,
-      "eval_steps_per_second": 6.907,
-      "step": 126
-    },
-    {
-      "epoch": 3.096969696969697,
-      "grad_norm": 40.3350715637207,
-      "learning_rate": 9.70715835140998e-06,
-      "loss": 0.6221,
       "step": 130
     },
     {
-      "epoch": 3.3393939393939394,
-      "grad_norm": 95.85454559326172,
-      "learning_rate": 9.598698481561823e-06,
-      "loss": 0.9071,
       "step": 140
     },
     {
-      "epoch": 3.581818181818182,
-      "grad_norm": 94.18701934814453,
-      "learning_rate": 9.490238611713667e-06,
-      "loss": 0.7042,
       "step": 150
     },
     {
-      "epoch": 3.824242424242424,
-      "grad_norm": 477.8069763183594,
-      "learning_rate": 9.38177874186551e-06,
-      "loss": 0.635,
       "step": 160
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 0.22365985810756683,
-      "eval_macro_f1": 0.9049918736939866,
-      "eval_runtime": 5.9294,
-      "eval_samples_per_second": 55.655,
-      "eval_steps_per_second": 7.083,
-      "step": 168
-    },
-    {
-      "epoch": 4.048484848484849,
-      "grad_norm": 110.27919006347656,
-      "learning_rate": 9.273318872017354e-06,
-      "loss": 1.1381,
       "step": 170
     },
     {
-      "epoch": 4.290909090909091,
-      "grad_norm": 58.735958099365234,
-      "learning_rate": 9.1648590021692e-06,
-      "loss": 0.7225,
       "step": 180
     },
     {
-      "epoch": 4.533333333333333,
-      "grad_norm": 75.20926666259766,
-      "learning_rate": 9.056399132321042e-06,
-      "loss": 0.4634,
       "step": 190
     },
     {
-      "epoch": 4.775757575757575,
-      "grad_norm": 18.876136779785156,
-      "learning_rate": 8.947939262472886e-06,
-      "loss": 0.6293,
       "step": 200
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 8.281109809875488,
-      "learning_rate": 8.83947939262473e-06,
-      "loss": 0.6632,
       "step": 210
     },
     {
-      "epoch": 5.0,
-      "eval_loss": 0.2299780696630478,
-      "eval_macro_f1": 0.9176304185040354,
-      "eval_runtime": 6.0281,
-      "eval_samples_per_second": 54.744,
-      "eval_steps_per_second": 6.967,
       "step": 210
     },
     {
-      "epoch": 5.242424242424242,
-      "grad_norm": 13.756321907043457,
-      "learning_rate": 8.731019522776574e-06,
-      "loss": 0.4708,
       "step": 220
     },
     {
-      "epoch": 5.484848484848484,
-      "grad_norm": 59.22605895996094,
-      "learning_rate": 8.622559652928418e-06,
-      "loss": 0.7127,
       "step": 230
     },
     {
-      "epoch": 5.7272727272727275,
-      "grad_norm": 32.43043899536133,
-      "learning_rate": 8.514099783080262e-06,
-      "loss": 0.5682,
       "step": 240
     },
     {
-      "epoch": 5.96969696969697,
-      "grad_norm": 54.722599029541016,
-      "learning_rate": 8.405639913232104e-06,
-      "loss": 0.8667,
       "step": 250
     },
     {
-      "epoch": 6.0,
-      "eval_loss": 0.2767850160598755,
-      "eval_macro_f1": 0.9210700618192522,
-      "eval_runtime": 6.2004,
-      "eval_samples_per_second": 53.223,
-      "eval_steps_per_second": 6.774,
-      "step": 252
-    },
-    {
-      "epoch": 6.193939393939394,
-      "grad_norm": 18.175823211669922,
-      "learning_rate": 8.29718004338395e-06,
-      "loss": 0.6752,
       "step": 260
     },
     {
-      "epoch": 6.4363636363636365,
-      "grad_norm": 56.679988861083984,
-      "learning_rate": 8.188720173535792e-06,
-      "loss": 0.3727,
       "step": 270
     },
     {
-      "epoch": 6.678787878787879,
-      "grad_norm": 57.3917236328125,
-      "learning_rate": 8.080260303687636e-06,
-      "loss": 1.0167,
       "step": 280
     },
     {
-      "epoch": 6.921212121212121,
-      "grad_norm": 42.186038970947266,
-      "learning_rate": 7.97180043383948e-06,
-      "loss": 0.9377,
       "step": 290
     },
     {
-      "epoch": 7.0,
-      "eval_loss": 0.29274508357048035,
-      "eval_macro_f1": 0.9138863000931967,
-      "eval_runtime": 6.1213,
-      "eval_samples_per_second": 53.91,
-      "eval_steps_per_second": 6.861,
-      "step": 294
-    },
-    {
-      "epoch": 7.1454545454545455,
-      "grad_norm": 41.31782531738281,
-      "learning_rate": 7.863340563991324e-06,
-      "loss": 0.3818,
       "step": 300
     },
     {
-      "epoch": 7.387878787878788,
-      "grad_norm": 4.223178863525391,
-      "learning_rate": 7.754880694143168e-06,
-      "loss": 0.4503,
       "step": 310
     },
     {
-      "epoch": 7.63030303030303,
-      "grad_norm": 35.64258575439453,
-      "learning_rate": 7.646420824295012e-06,
-      "loss": 0.6038,
       "step": 320
     },
     {
-      "epoch": 7.872727272727273,
-      "grad_norm": 37.91206359863281,
-      "learning_rate": 7.537960954446856e-06,
-      "loss": 0.5407,
       "step": 330
     },
     {
-      "epoch": 8.0,
-      "eval_loss": 0.20143219828605652,
-      "eval_macro_f1": 0.9357970705676355,
-      "eval_runtime": 5.9715,
-      "eval_samples_per_second": 55.263,
-      "eval_steps_per_second": 7.033,
-      "step": 336
-    },
-    {
-      "epoch": 8.096969696969698,
-      "grad_norm": 9.571391105651855,
-      "learning_rate": 7.429501084598699e-06,
-      "loss": 0.3311,
       "step": 340
     },
-    {
-      "epoch": 8.33939393939394,
-      "grad_norm": 30.14655876159668,
-      "learning_rate": 7.321041214750543e-06,
-      "loss": 0.5367,
-      "step": 350
-    },
-    {
-      "epoch": 8.581818181818182,
-      "grad_norm": 125.38350677490234,
-      "learning_rate": 7.212581344902386e-06,
-      "loss": 0.4511,
-      "step": 360
-    },
-    {
-      "epoch": 8.824242424242424,
-      "grad_norm": 283.20819091796875,
-      "learning_rate": 7.104121475054231e-06,
-      "loss": 0.5474,
-      "step": 370
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.329227477312088,
-      "eval_macro_f1": 0.8817302125547928,
-      "eval_runtime": 5.984,
-      "eval_samples_per_second": 55.147,
-      "eval_steps_per_second": 7.019,
-      "step": 378
-    },
-    {
-      "epoch": 9.048484848484849,
-      "grad_norm": 31.927379608154297,
-      "learning_rate": 6.995661605206075e-06,
-      "loss": 0.3963,
-      "step": 380
-    },
-    {
-      "epoch": 9.290909090909091,
-      "grad_norm": 10.10098934173584,
-      "learning_rate": 6.887201735357918e-06,
-      "loss": 0.445,
-      "step": 390
-    },
-    {
-      "epoch": 9.533333333333333,
-      "grad_norm": 1.947770118713379,
-      "learning_rate": 6.778741865509761e-06,
-      "loss": 0.5947,
-      "step": 400
-    },
-    {
-      "epoch": 9.775757575757575,
-      "grad_norm": 54.11802673339844,
-      "learning_rate": 6.670281995661606e-06,
-      "loss": 0.6001,
-      "step": 410
-    },
     {
       "epoch": 10.0,
-      "grad_norm": 0.004518165718764067,
-      "learning_rate": 6.56182212581345e-06,
-      "loss": 0.412,
-      "step": 420
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.3594599962234497,
-      "eval_macro_f1": 0.907735321528425,
-      "eval_runtime": 6.0125,
-      "eval_samples_per_second": 54.885,
-      "eval_steps_per_second": 6.985,
-      "step": 420
-    },
-    {
-      "epoch": 10.242424242424242,
-      "grad_norm": 0.22337216138839722,
-      "learning_rate": 6.453362255965293e-06,
-      "loss": 0.2798,
-      "step": 430
     },
     {
-      "epoch": 10.484848484848484,
-      "grad_norm": 39.639984130859375,
-      "learning_rate": 6.344902386117138e-06,
-      "loss": 0.4377,
-      "step": 440
     },
     {
-      "epoch": 10.727272727272727,
-      "grad_norm": 53.85198211669922,
-      "learning_rate": 6.236442516268981e-06,
-      "loss": 0.2063,
-      "step": 450
     },
     {
-      "epoch": 10.969696969696969,
-      "grad_norm": 69.08942413330078,
-      "learning_rate": 6.127982646420825e-06,
-      "loss": 0.2884,
-      "step": 460
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.2930862307548523,
-      "eval_macro_f1": 0.9380839806371721,
-      "eval_runtime": 6.0147,
-      "eval_samples_per_second": 54.866,
-      "eval_steps_per_second": 6.983,
-      "step": 462
-    },
-    {
-      "epoch": 11.193939393939393,
-      "grad_norm": 63.143218994140625,
-      "learning_rate": 6.019522776572668e-06,
-      "loss": 0.6075,
-      "step": 470
-    },
-    {
-      "epoch": 11.436363636363636,
-      "grad_norm": 7.950187683105469,
-      "learning_rate": 5.911062906724513e-06,
-      "loss": 0.2654,
-      "step": 480
-    },
-    {
-      "epoch": 11.67878787878788,
-      "grad_norm": 82.30758666992188,
-      "learning_rate": 5.802603036876356e-06,
-      "loss": 0.2474,
-      "step": 490
-    },
-    {
-      "epoch": 11.921212121212122,
-      "grad_norm": 7.340689182281494,
-      "learning_rate": 5.6941431670282e-06,
-      "loss": 0.2405,
-      "step": 500
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 0.3316686451435089,
-      "eval_macro_f1": 0.9209216589861751,
-      "eval_runtime": 5.8916,
-      "eval_samples_per_second": 56.012,
-      "eval_steps_per_second": 7.129,
-      "step": 504
-    },
-    {
-      "epoch": 12.145454545454545,
-      "grad_norm": 37.141632080078125,
-      "learning_rate": 5.585683297180043e-06,
-      "loss": 0.3349,
-      "step": 510
-    },
-    {
-      "epoch": 12.387878787878789,
-      "grad_norm": 34.024383544921875,
-      "learning_rate": 5.477223427331888e-06,
-      "loss": 0.1742,
-      "step": 520
-    },
-    {
-      "epoch": 12.63030303030303,
-      "grad_norm": 46.10781478881836,
-      "learning_rate": 5.368763557483731e-06,
-      "loss": 0.2115,
-      "step": 530
-    },
-    {
-      "epoch": 12.872727272727273,
-      "grad_norm": 126.67015838623047,
-      "learning_rate": 5.260303687635575e-06,
-      "loss": 0.8788,
-      "step": 540
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.37741926312446594,
-      "eval_macro_f1": 0.9058106453305834,
-      "eval_runtime": 6.6329,
-      "eval_samples_per_second": 49.752,
-      "eval_steps_per_second": 6.332,
-      "step": 546
-    },
-    {
-      "epoch": 13.096969696969698,
-      "grad_norm": 35.44662094116211,
-      "learning_rate": 5.151843817787418e-06,
-      "loss": 0.5591,
-      "step": 550
-    },
-    {
-      "epoch": 13.33939393939394,
-      "grad_norm": 57.34544372558594,
-      "learning_rate": 5.043383947939263e-06,
-      "loss": 0.213,
-      "step": 560
-    },
-    {
-      "epoch": 13.581818181818182,
-      "grad_norm": 15.285223960876465,
-      "learning_rate": 4.934924078091107e-06,
-      "loss": 0.203,
-      "step": 570
-    },
-    {
-      "epoch": 13.824242424242424,
-      "grad_norm": 28.99003028869629,
-      "learning_rate": 4.82646420824295e-06,
-      "loss": 0.4163,
-      "step": 580
-    },
-    {
-      "epoch": 14.0,
-      "eval_loss": 0.39865490794181824,
-      "eval_macro_f1": 0.9196508840275697,
-      "eval_runtime": 5.8701,
-      "eval_samples_per_second": 56.217,
-      "eval_steps_per_second": 7.155,
-      "step": 588
-    },
-    {
-      "epoch": 14.048484848484849,
-      "grad_norm": 346.8255310058594,
-      "learning_rate": 4.718004338394794e-06,
-      "loss": 0.26,
-      "step": 590
-    },
-    {
-      "epoch": 14.290909090909091,
-      "grad_norm": 38.04654312133789,
-      "learning_rate": 4.609544468546638e-06,
-      "loss": 0.3813,
-      "step": 600
-    },
-    {
-      "epoch": 14.533333333333333,
-      "grad_norm": 34.71643829345703,
-      "learning_rate": 4.501084598698482e-06,
-      "loss": 0.0974,
-      "step": 610
-    },
-    {
-      "epoch": 14.775757575757575,
-      "grad_norm": 34.031890869140625,
-      "learning_rate": 4.392624728850326e-06,
-      "loss": 0.4881,
-      "step": 620
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.0002771662548184395,
-      "learning_rate": 4.284164859002169e-06,
-      "loss": 0.4126,
-      "step": 630
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 0.35451531410217285,
-      "eval_macro_f1": 0.9235679411519468,
-      "eval_runtime": 6.0428,
-      "eval_samples_per_second": 54.611,
-      "eval_steps_per_second": 6.95,
-      "step": 630
-    },
-    {
-      "epoch": 15.242424242424242,
-      "grad_norm": 82.48748779296875,
-      "learning_rate": 4.175704989154013e-06,
-      "loss": 0.4444,
-      "step": 640
-    },
-    {
-      "epoch": 15.484848484848484,
-      "grad_norm": 0.2618753910064697,
-      "learning_rate": 4.067245119305857e-06,
-      "loss": 0.2083,
-      "step": 650
-    },
-    {
-      "epoch": 15.727272727272727,
-      "grad_norm": 98.34405517578125,
-      "learning_rate": 3.958785249457701e-06,
-      "loss": 0.4785,
-      "step": 660
-    },
-    {
-      "epoch": 15.969696969696969,
-      "grad_norm": 0.37142229080200195,
-      "learning_rate": 3.8503253796095445e-06,
-      "loss": 0.1583,
-      "step": 670
-    },
-    {
-      "epoch": 16.0,
-      "eval_loss": 0.38117873668670654,
-      "eval_macro_f1": 0.9268860086407444,
-      "eval_runtime": 6.9311,
-      "eval_samples_per_second": 47.612,
-      "eval_steps_per_second": 6.06,
-      "step": 672
-    },
-    {
-      "epoch": 16.193939393939395,
-      "grad_norm": 40.54330825805664,
-      "learning_rate": 3.741865509761389e-06,
-      "loss": 0.0774,
-      "step": 680
-    },
-    {
-      "epoch": 16.436363636363637,
-      "grad_norm": 0.23675695061683655,
-      "learning_rate": 3.6334056399132324e-06,
-      "loss": 0.1639,
-      "step": 690
-    },
-    {
-      "epoch": 16.67878787878788,
-      "grad_norm": 47.12529373168945,
-      "learning_rate": 3.5249457700650764e-06,
-      "loss": 0.306,
-      "step": 700
-    },
-    {
-      "epoch": 16.921212121212122,
-      "grad_norm": 0.3993530571460724,
-      "learning_rate": 3.41648590021692e-06,
-      "loss": 0.2376,
-      "step": 710
-    },
-    {
-      "epoch": 17.0,
-      "eval_loss": 0.4087267816066742,
-      "eval_macro_f1": 0.9295990205081115,
-      "eval_runtime": 6.1306,
-      "eval_samples_per_second": 53.828,
-      "eval_steps_per_second": 6.851,
-      "step": 714
-    },
-    {
-      "epoch": 17.145454545454545,
-      "grad_norm": 0.34205177426338196,
-      "learning_rate": 3.308026030368764e-06,
-      "loss": 0.0332,
-      "step": 720
-    },
-    {
-      "epoch": 17.387878787878787,
-      "grad_norm": 0.5112647414207458,
-      "learning_rate": 3.1995661605206075e-06,
-      "loss": 0.1332,
-      "step": 730
-    },
-    {
-      "epoch": 17.63030303030303,
-      "grad_norm": 120.2950439453125,
-      "learning_rate": 3.0911062906724515e-06,
-      "loss": 0.2503,
-      "step": 740
-    },
-    {
-      "epoch": 17.87272727272727,
-      "grad_norm": 223.04759216308594,
-      "learning_rate": 2.982646420824295e-06,
-      "loss": 0.2703,
-      "step": 750
-    },
-    {
-      "epoch": 18.0,
-      "eval_loss": 0.43362897634506226,
-      "eval_macro_f1": 0.9264924264924266,
-      "eval_runtime": 5.861,
-      "eval_samples_per_second": 56.305,
-      "eval_steps_per_second": 7.166,
-      "step": 756
-    },
-    {
-      "epoch": 18.096969696969698,
-      "grad_norm": 54.66193771362305,
-      "learning_rate": 2.874186550976139e-06,
-      "loss": 0.1274,
-      "step": 760
-    },
-    {
-      "epoch": 18.33939393939394,
-      "grad_norm": 54.846466064453125,
-      "learning_rate": 2.765726681127983e-06,
-      "loss": 0.2751,
-      "step": 770
-    },
-    {
-      "epoch": 18.581818181818182,
-      "grad_norm": 53.97863006591797,
-      "learning_rate": 2.6572668112798266e-06,
-      "loss": 0.359,
-      "step": 780
-    },
-    {
-      "epoch": 18.824242424242424,
-      "grad_norm": 81.63549041748047,
-      "learning_rate": 2.5488069414316706e-06,
-      "loss": 0.1819,
-      "step": 790
-    },
-    {
-      "epoch": 19.0,
-      "eval_loss": 0.3480012118816376,
-      "eval_macro_f1": 0.9236528192931639,
-      "eval_runtime": 7.0471,
-      "eval_samples_per_second": 46.828,
-      "eval_steps_per_second": 5.96,
-      "step": 798
-    },
-    {
-      "epoch": 19.048484848484847,
-      "grad_norm": 41.54087448120117,
-      "learning_rate": 2.440347071583514e-06,
-      "loss": 0.6373,
-      "step": 800
-    },
-    {
-      "epoch": 19.29090909090909,
-      "grad_norm": 9.001028060913086,
-      "learning_rate": 2.331887201735358e-06,
-      "loss": 0.2971,
-      "step": 810
-    },
-    {
-      "epoch": 19.533333333333335,
-      "grad_norm": 114.6279525756836,
-      "learning_rate": 2.2234273318872017e-06,
-      "loss": 0.1943,
-      "step": 820
-    },
-    {
-      "epoch": 19.775757575757577,
-      "grad_norm": 18.022676467895508,
-      "learning_rate": 2.1149674620390457e-06,
-      "loss": 0.1207,
-      "step": 830
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.0001882202341221273,
-      "learning_rate": 2.0065075921908892e-06,
-      "loss": 0.1324,
-      "step": 840
-    },
-    {
-      "epoch": 20.0,
-      "eval_loss": 0.4493299424648285,
-      "eval_macro_f1": 0.9384902143522833,
-      "eval_runtime": 6.0147,
-      "eval_samples_per_second": 54.865,
-      "eval_steps_per_second": 6.983,
-      "step": 840
-    },
-    {
-      "epoch": 20.242424242424242,
-      "grad_norm": 13.740226745605469,
-      "learning_rate": 1.8980477223427332e-06,
-      "loss": 0.294,
-      "step": 850
-    },
-    {
-      "epoch": 20.484848484848484,
-      "grad_norm": 6.870513916015625,
-      "learning_rate": 1.7895878524945772e-06,
-      "loss": 0.1323,
-      "step": 860
-    },
-    {
-      "epoch": 20.727272727272727,
-      "grad_norm": 2.74729585647583,
-      "learning_rate": 1.681127982646421e-06,
-      "loss": 0.019,
-      "step": 870
-    },
-    {
-      "epoch": 20.96969696969697,
-      "grad_norm": 17.18338966369629,
-      "learning_rate": 1.572668112798265e-06,
-      "loss": 0.1312,
-      "step": 880
-    },
-    {
-      "epoch": 21.0,
-      "eval_loss": 0.40448498725891113,
-      "eval_macro_f1": 0.9384902143522833,
-      "eval_runtime": 6.133,
-      "eval_samples_per_second": 53.808,
-      "eval_steps_per_second": 6.848,
-      "step": 882
-    },
-    {
-      "epoch": 21.193939393939395,
-      "grad_norm": 108.9833755493164,
-      "learning_rate": 1.4642082429501087e-06,
-      "loss": 0.2499,
-      "step": 890
-    },
-    {
-      "epoch": 21.436363636363637,
-      "grad_norm": 0.291847825050354,
-      "learning_rate": 1.3557483731019525e-06,
-      "loss": 0.1708,
-      "step": 900
-    },
-    {
-      "epoch": 21.67878787878788,
-      "grad_norm": 35.08168029785156,
-      "learning_rate": 1.2472885032537963e-06,
-      "loss": 0.0802,
-      "step": 910
-    },
-    {
-      "epoch": 21.921212121212122,
-      "grad_norm": 0.05401836335659027,
-      "learning_rate": 1.13882863340564e-06,
-      "loss": 0.1662,
-      "step": 920
-    },
-    {
-      "epoch": 22.0,
-      "eval_loss": 0.3166828453540802,
-      "eval_macro_f1": 0.9417692129092176,
-      "eval_runtime": 6.0442,
-      "eval_samples_per_second": 54.598,
-      "eval_steps_per_second": 6.949,
-      "step": 924
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1025,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 25,
   "save_steps": 500,
@@ -868,7 +392,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0371596050603966e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 385,
+  "best_metric": 0.9489664082687339,
+  "best_model_checkpoint": "Crosswalk/dinov2/checkpoint-385",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 385,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.28776978417266186,
+      "grad_norm": 25.290170669555664,
+      "learning_rate": 1.0227272727272729e-06,
+      "loss": 0.7613,
       "step": 10
     },
     {
+      "epoch": 0.5755395683453237,
+      "grad_norm": 19.748838424682617,
+      "learning_rate": 2.1590909090909092e-06,
+      "loss": 0.4653,
       "step": 20
     },
     {
+      "epoch": 0.8633093525179856,
+      "grad_norm": 642.5625,
+      "learning_rate": 3.2954545454545456e-06,
+      "loss": 0.3536,
       "step": 30
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 0.3255312740802765,
+      "eval_macro_f1": 0.8774975492380359,
+      "eval_runtime": 26.9331,
+      "eval_samples_per_second": 8.8,
+      "eval_steps_per_second": 1.114,
+      "step": 35
+    },
+    {
+      "epoch": 1.143884892086331,
+      "grad_norm": 18.897483825683594,
+      "learning_rate": 4.4318181818181824e-06,
+      "loss": 0.3086,
       "step": 40
     },
     {
+      "epoch": 1.4316546762589928,
+      "grad_norm": 7.919783115386963,
+      "learning_rate": 5.568181818181818e-06,
+      "loss": 0.1994,
       "step": 50
     },
     {
+      "epoch": 1.7194244604316546,
+      "grad_norm": 16.423315048217773,
+      "learning_rate": 6.704545454545454e-06,
+      "loss": 0.2462,
       "step": 60
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 71.16481018066406,
+      "learning_rate": 7.840909090909091e-06,
+      "loss": 0.2856,
       "step": 70
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 0.30485469102859497,
+      "eval_macro_f1": 0.8690491043579004,
+      "eval_runtime": 29.715,
+      "eval_samples_per_second": 7.976,
+      "eval_steps_per_second": 1.01,
+      "step": 70
+    },
+    {
+      "epoch": 2.287769784172662,
+      "grad_norm": 30.668006896972656,
+      "learning_rate": 8.977272727272727e-06,
+      "loss": 0.1576,
       "step": 80
     },
     {
+      "epoch": 2.5755395683453237,
+      "grad_norm": 7.689505100250244,
+      "learning_rate": 9.987293519695045e-06,
+      "loss": 0.212,
       "step": 90
     },
     {
+      "epoch": 2.8633093525179856,
+      "grad_norm": 30.23891830444336,
+      "learning_rate": 9.86022871664549e-06,
+      "loss": 0.3253,
       "step": 100
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.2832421362400055,
+      "eval_macro_f1": 0.892023399486086,
+      "eval_runtime": 29.6551,
+      "eval_samples_per_second": 7.992,
+      "eval_steps_per_second": 1.012,
+      "step": 105
+    },
+    {
+      "epoch": 3.143884892086331,
+      "grad_norm": 18.362842559814453,
+      "learning_rate": 9.733163913595934e-06,
+      "loss": 0.2215,
       "step": 110
     },
     {
+      "epoch": 3.431654676258993,
+      "grad_norm": 44.57633590698242,
+      "learning_rate": 9.60609911054638e-06,
+      "loss": 0.1955,
       "step": 120
     },
     {
+      "epoch": 3.7194244604316546,
+      "grad_norm": 10.040678024291992,
+      "learning_rate": 9.479034307496824e-06,
+      "loss": 0.2095,
       "step": 130
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 14.543230056762695,
+      "learning_rate": 9.35196950444727e-06,
+      "loss": 0.2134,
+      "step": 140
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.28937143087387085,
+      "eval_macro_f1": 0.9314632735685368,
+      "eval_runtime": 30.5498,
+      "eval_samples_per_second": 7.758,
+      "eval_steps_per_second": 0.982,
       "step": 140
     },
     {
+      "epoch": 4.287769784172662,
+      "grad_norm": 41.635799407958984,
+      "learning_rate": 9.224904701397714e-06,
+      "loss": 0.0965,
       "step": 150
     },
     {
+      "epoch": 4.575539568345324,
+      "grad_norm": 21.393756866455078,
+      "learning_rate": 9.09783989834816e-06,
+      "loss": 0.1777,
       "step": 160
     },
     {
+      "epoch": 4.863309352517986,
+      "grad_norm": 18.873945236206055,
+      "learning_rate": 8.970775095298603e-06,
+      "loss": 0.2155,
       "step": 170
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 0.26767683029174805,
+      "eval_macro_f1": 0.9277555631264681,
+      "eval_runtime": 26.6297,
+      "eval_samples_per_second": 8.9,
+      "eval_steps_per_second": 1.127,
+      "step": 175
+    },
+    {
+      "epoch": 5.143884892086331,
+      "grad_norm": 6.233393669128418,
+      "learning_rate": 8.843710292249047e-06,
+      "loss": 0.1474,
       "step": 180
     },
     {
+      "epoch": 5.431654676258993,
+      "grad_norm": 20.907960891723633,
+      "learning_rate": 8.716645489199493e-06,
+      "loss": 0.1279,
       "step": 190
     },
     {
+      "epoch": 5.719424460431655,
+      "grad_norm": 17.63884162902832,
+      "learning_rate": 8.589580686149937e-06,
+      "loss": 0.211,
       "step": 200
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 20.169618606567383,
+      "learning_rate": 8.462515883100381e-06,
+      "loss": 0.108,
       "step": 210
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.2715422213077545,
+      "eval_macro_f1": 0.9110821288835689,
+      "eval_runtime": 32.5783,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.921,
       "step": 210
     },
     {
+      "epoch": 6.287769784172662,
+      "grad_norm": 6.99655294418335,
+      "learning_rate": 8.335451080050827e-06,
+      "loss": 0.1142,
       "step": 220
     },
     {
+      "epoch": 6.575539568345324,
+      "grad_norm": 20.068387985229492,
+      "learning_rate": 8.20838627700127e-06,
+      "loss": 0.2136,
       "step": 230
     },
     {
+      "epoch": 6.863309352517986,
+      "grad_norm": 12.439704895019531,
+      "learning_rate": 8.081321473951716e-06,
+      "loss": 0.1461,
       "step": 240
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 0.49200543761253357,
+      "eval_macro_f1": 0.8094617047505047,
+      "eval_runtime": 38.0217,
+      "eval_samples_per_second": 6.233,
+      "eval_steps_per_second": 0.789,
+      "step": 245
+    },
+    {
+      "epoch": 7.143884892086331,
+      "grad_norm": 4.405595302581787,
+      "learning_rate": 7.95425667090216e-06,
+      "loss": 0.1535,
       "step": 250
     },
     {
+      "epoch": 7.431654676258993,
+      "grad_norm": 7.879202365875244,
+      "learning_rate": 7.827191867852606e-06,
+      "loss": 0.2075,
       "step": 260
     },
     {
+      "epoch": 7.719424460431655,
+      "grad_norm": 4.8070268630981445,
+      "learning_rate": 7.70012706480305e-06,
+      "loss": 0.1155,
       "step": 270
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 12.835691452026367,
+      "learning_rate": 7.573062261753494e-06,
+      "loss": 0.1726,
+      "step": 280
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.2971098721027374,
+      "eval_macro_f1": 0.9273962481754455,
+      "eval_runtime": 30.7621,
+      "eval_samples_per_second": 7.704,
+      "eval_steps_per_second": 0.975,
       "step": 280
     },
     {
+      "epoch": 8.287769784172662,
+      "grad_norm": 10.0529146194458,
+      "learning_rate": 7.44599745870394e-06,
+      "loss": 0.0781,
       "step": 290
     },
     {
+      "epoch": 8.575539568345324,
+      "grad_norm": 8.834739685058594,
+      "learning_rate": 7.318932655654384e-06,
+      "loss": 0.2262,
       "step": 300
     },
     {
+      "epoch": 8.863309352517986,
+      "grad_norm": 8.839664459228516,
+      "learning_rate": 7.191867852604829e-06,
+      "loss": 0.082,
       "step": 310
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 0.38130030035972595,
+      "eval_macro_f1": 0.8962043795620438,
+      "eval_runtime": 32.1353,
+      "eval_samples_per_second": 7.375,
+      "eval_steps_per_second": 0.934,
+      "step": 315
+    },
+    {
+      "epoch": 9.14388489208633,
+      "grad_norm": 14.185478210449219,
+      "learning_rate": 7.064803049555273e-06,
+      "loss": 0.1111,
       "step": 320
     },
     {
+      "epoch": 9.431654676258994,
+      "grad_norm": 2.165837049484253,
+      "learning_rate": 6.937738246505718e-06,
+      "loss": 0.0988,
       "step": 330
     },
     {
+      "epoch": 9.719424460431654,
+      "grad_norm": 1.7402962446212769,
+      "learning_rate": 6.810673443456163e-06,
+      "loss": 0.0941,
       "step": 340
     },
     {
       "epoch": 10.0,
+      "grad_norm": 35.40852737426758,
+      "learning_rate": 6.683608640406608e-06,
+      "loss": 0.0827,
+      "step": 350
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.34335753321647644,
+      "eval_macro_f1": 0.9318475916606758,
+      "eval_runtime": 34.461,
+      "eval_samples_per_second": 6.877,
+      "eval_steps_per_second": 0.871,
+      "step": 350
     },
     {
+      "epoch": 10.287769784172662,
+      "grad_norm": 21.371692657470703,
+      "learning_rate": 6.556543837357052e-06,
+      "loss": 0.0953,
+      "step": 360
     },
     {
+      "epoch": 10.575539568345324,
+      "grad_norm": 0.9700206518173218,
+      "learning_rate": 6.4294790343074975e-06,
+      "loss": 0.0855,
+      "step": 370
     },
     {
+      "epoch": 10.863309352517986,
+      "grad_norm": 11.236717224121094,
+      "learning_rate": 6.3024142312579415e-06,
+      "loss": 0.0853,
+      "step": 380
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.27990925312042236,
+      "eval_macro_f1": 0.9489664082687339,
+      "eval_runtime": 32.6676,
+      "eval_samples_per_second": 7.255,
+      "eval_steps_per_second": 0.918,
+      "step": 385
     }
   ],
   "logging_steps": 10,
+  "max_steps": 875,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 25,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.376134205662298e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0b1d45c6c028d437456c5af083b3618770c1bf92ea996d351710771438e3073
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f044765f3dcdd375a956d71774ce12973156a4c62f7c3a5e1e5b0698ac8d8b9
+size 5713