Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +13 -765
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2666dcba378eb5b127a4a1983c384939e975dc835db042728bc334acf524fa14
 size 2708740080

 version https://git-lfs.github.com/spec/v1
+oid sha256:b59a3c142cb36e782f862ff97df3be4b268f2b82af56ea2048c0b22de8ab70ac
 size 2708740080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5de48057a79311083a4803dcbffa4614e68dd960590083425259e539b86a0774
 size 52521338

 version https://git-lfs.github.com/spec/v1
+oid sha256:15964537a2492ff389ce57f04434fce8c9aa401544dbb2ca53af890dab8c7424
 size 52521338

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b51b6a81efcba2b70403a0119b72ef5704041095ada44dd87580f143ef37aee
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:9080aea5181d3066ab765d04bc9819f089e9674161d5e56c8bf2b7c839212160
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7523ba195d7b50babd25f66fb14b250cddfb481924c94f68c65428f7cfe6b30c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a3706e3071c2c4cbd5f2e989bf126df210bdb1a4e75a8894205331c65155ec1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,780 +1,28 @@
 {
-  "best_metric": 2.673060894012451,
-  "best_model_checkpoint": "mgh6/HTH_biCLIP_mean/checkpoint-6063",
-  "epoch": 48.0,
   "eval_steps": 500,
-  "global_step": 6192,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.06122415140271187,
-      "learning_rate": 9.83203125e-05,
-      "loss": 2.7311,
       "step": 129
     },
     {
       "epoch": 1.0,
-      "eval_cosine_similarity": 0.28012484312057495,
-      "eval_loss": 2.744464159011841,
-      "eval_runtime": 18.8577,
-      "eval_samples_per_second": 22.908,
-      "eval_steps_per_second": 1.432,
       "step": 129
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 0.03998406603932381,
-      "learning_rate": 9.6640625e-05,
-      "loss": 2.7174,
-      "step": 258
-    },
-    {
-      "epoch": 2.0,
-      "eval_cosine_similarity": 0.35804858803749084,
-      "eval_loss": 2.7347757816314697,
-      "eval_runtime": 18.8518,
-      "eval_samples_per_second": 22.916,
-      "eval_steps_per_second": 1.432,
-      "step": 258
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.09510844200849533,
-      "learning_rate": 9.496093750000001e-05,
-      "loss": 2.712,
-      "step": 387
-    },
-    {
-      "epoch": 3.0,
-      "eval_cosine_similarity": 0.31994006037712097,
-      "eval_loss": 2.7384214401245117,
-      "eval_runtime": 18.8684,
-      "eval_samples_per_second": 22.895,
-      "eval_steps_per_second": 1.431,
-      "step": 387
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.09453984349966049,
-      "learning_rate": 9.328125000000001e-05,
-      "loss": 2.7083,
-      "step": 516
-    },
-    {
-      "epoch": 4.0,
-      "eval_cosine_similarity": 0.396742582321167,
-      "eval_loss": 2.7257983684539795,
-      "eval_runtime": 18.8397,
-      "eval_samples_per_second": 22.93,
-      "eval_steps_per_second": 1.433,
-      "step": 516
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.1036021038889885,
-      "learning_rate": 9.160156250000001e-05,
-      "loss": 2.7041,
-      "step": 645
-    },
-    {
-      "epoch": 5.0,
-      "eval_cosine_similarity": 0.4167896807193756,
-      "eval_loss": 2.7295186519622803,
-      "eval_runtime": 18.8549,
-      "eval_samples_per_second": 22.912,
-      "eval_steps_per_second": 1.432,
-      "step": 645
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.10563068836927414,
-      "learning_rate": 8.9921875e-05,
-      "loss": 2.701,
-      "step": 774
-    },
-    {
-      "epoch": 6.0,
-      "eval_cosine_similarity": 0.4463934600353241,
-      "eval_loss": 2.722810983657837,
-      "eval_runtime": 18.8344,
-      "eval_samples_per_second": 22.937,
-      "eval_steps_per_second": 1.434,
-      "step": 774
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.3786303400993347,
-      "learning_rate": 8.824218750000001e-05,
-      "loss": 2.6981,
-      "step": 903
-    },
-    {
-      "epoch": 7.0,
-      "eval_cosine_similarity": 0.3459477722644806,
-      "eval_loss": 2.7271432876586914,
-      "eval_runtime": 18.854,
-      "eval_samples_per_second": 22.913,
-      "eval_steps_per_second": 1.432,
-      "step": 903
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.39843541383743286,
-      "learning_rate": 8.65625e-05,
-      "loss": 2.695,
-      "step": 1032
-    },
-    {
-      "epoch": 8.0,
-      "eval_cosine_similarity": 0.44728702306747437,
-      "eval_loss": 2.717395544052124,
-      "eval_runtime": 18.8516,
-      "eval_samples_per_second": 22.916,
-      "eval_steps_per_second": 1.432,
-      "step": 1032
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.061124324798583984,
-      "learning_rate": 8.488281250000001e-05,
-      "loss": 2.6921,
-      "step": 1161
-    },
-    {
-      "epoch": 9.0,
-      "eval_cosine_similarity": 0.4983077645301819,
-      "eval_loss": 2.7137577533721924,
-      "eval_runtime": 18.8363,
-      "eval_samples_per_second": 22.934,
-      "eval_steps_per_second": 1.433,
-      "step": 1161
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.12580373883247375,
-      "learning_rate": 8.3203125e-05,
-      "loss": 2.6898,
-      "step": 1290
-    },
-    {
-      "epoch": 10.0,
-      "eval_cosine_similarity": 0.5014428496360779,
-      "eval_loss": 2.7119338512420654,
-      "eval_runtime": 18.8721,
-      "eval_samples_per_second": 22.891,
-      "eval_steps_per_second": 1.431,
-      "step": 1290
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.12061749398708344,
-      "learning_rate": 8.15234375e-05,
-      "loss": 2.6859,
-      "step": 1419
-    },
-    {
-      "epoch": 11.0,
-      "eval_cosine_similarity": 0.48711416125297546,
-      "eval_loss": 2.714085578918457,
-      "eval_runtime": 18.834,
-      "eval_samples_per_second": 22.937,
-      "eval_steps_per_second": 1.434,
-      "step": 1419
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 0.18075203895568848,
-      "learning_rate": 7.984375e-05,
-      "loss": 2.6843,
-      "step": 1548
-    },
-    {
-      "epoch": 12.0,
-      "eval_cosine_similarity": 0.5338874459266663,
-      "eval_loss": 2.707056760787964,
-      "eval_runtime": 18.8491,
-      "eval_samples_per_second": 22.919,
-      "eval_steps_per_second": 1.432,
-      "step": 1548
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.22249284386634827,
-      "learning_rate": 7.81640625e-05,
-      "loss": 2.6829,
-      "step": 1677
-    },
-    {
-      "epoch": 13.0,
-      "eval_cosine_similarity": 0.5601667761802673,
-      "eval_loss": 2.705392837524414,
-      "eval_runtime": 18.8352,
-      "eval_samples_per_second": 22.936,
-      "eval_steps_per_second": 1.433,
-      "step": 1677
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.16165713965892792,
-      "learning_rate": 7.648437500000001e-05,
-      "loss": 2.6799,
-      "step": 1806
-    },
-    {
-      "epoch": 14.0,
-      "eval_cosine_similarity": 0.5292511582374573,
-      "eval_loss": 2.7065181732177734,
-      "eval_runtime": 18.8446,
-      "eval_samples_per_second": 22.924,
-      "eval_steps_per_second": 1.433,
-      "step": 1806
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.1596257984638214,
-      "learning_rate": 7.48046875e-05,
-      "loss": 2.678,
-      "step": 1935
-    },
-    {
-      "epoch": 15.0,
-      "eval_cosine_similarity": 0.5406491756439209,
-      "eval_loss": 2.7067458629608154,
-      "eval_runtime": 18.8328,
-      "eval_samples_per_second": 22.939,
-      "eval_steps_per_second": 1.434,
-      "step": 1935
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.17212730646133423,
-      "learning_rate": 7.3125e-05,
-      "loss": 2.6762,
-      "step": 2064
-    },
-    {
-      "epoch": 16.0,
-      "eval_cosine_similarity": 0.5383115410804749,
-      "eval_loss": 2.7063181400299072,
-      "eval_runtime": 18.8441,
-      "eval_samples_per_second": 22.925,
-      "eval_steps_per_second": 1.433,
-      "step": 2064
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.16676370799541473,
-      "learning_rate": 7.14453125e-05,
-      "loss": 2.6748,
-      "step": 2193
-    },
-    {
-      "epoch": 17.0,
-      "eval_cosine_similarity": 0.5793458223342896,
-      "eval_loss": 2.7020437717437744,
-      "eval_runtime": 18.8795,
-      "eval_samples_per_second": 22.882,
-      "eval_steps_per_second": 1.43,
-      "step": 2193
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.08970298618078232,
-      "learning_rate": 6.9765625e-05,
-      "loss": 2.6722,
-      "step": 2322
-    },
-    {
-      "epoch": 18.0,
-      "eval_cosine_similarity": 0.608212411403656,
-      "eval_loss": 2.6979143619537354,
-      "eval_runtime": 18.8361,
-      "eval_samples_per_second": 22.935,
-      "eval_steps_per_second": 1.433,
-      "step": 2322
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.46823370456695557,
-      "learning_rate": 6.80859375e-05,
-      "loss": 2.6707,
-      "step": 2451
-    },
-    {
-      "epoch": 19.0,
-      "eval_cosine_similarity": 0.5827838182449341,
-      "eval_loss": 2.699484348297119,
-      "eval_runtime": 18.8456,
-      "eval_samples_per_second": 22.923,
-      "eval_steps_per_second": 1.433,
-      "step": 2451
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.22482483088970184,
-      "learning_rate": 6.640625e-05,
-      "loss": 2.6687,
-      "step": 2580
-    },
-    {
-      "epoch": 20.0,
-      "eval_cosine_similarity": 0.6316117644309998,
-      "eval_loss": 2.6942453384399414,
-      "eval_runtime": 18.8317,
-      "eval_samples_per_second": 22.94,
-      "eval_steps_per_second": 1.434,
-      "step": 2580
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 0.45786142349243164,
-      "learning_rate": 6.472656249999999e-05,
-      "loss": 2.6661,
-      "step": 2709
-    },
-    {
-      "epoch": 21.0,
-      "eval_cosine_similarity": 0.6281163692474365,
-      "eval_loss": 2.6956567764282227,
-      "eval_runtime": 18.8424,
-      "eval_samples_per_second": 22.927,
-      "eval_steps_per_second": 1.433,
-      "step": 2709
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 0.5357567667961121,
-      "learning_rate": 6.3046875e-05,
-      "loss": 2.6654,
-      "step": 2838
-    },
-    {
-      "epoch": 22.0,
-      "eval_cosine_similarity": 0.639909029006958,
-      "eval_loss": 2.6937482357025146,
-      "eval_runtime": 18.8423,
-      "eval_samples_per_second": 22.927,
-      "eval_steps_per_second": 1.433,
-      "step": 2838
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 0.5274462103843689,
-      "learning_rate": 6.136718750000001e-05,
-      "loss": 2.6634,
-      "step": 2967
-    },
-    {
-      "epoch": 23.0,
-      "eval_cosine_similarity": 0.6498256325721741,
-      "eval_loss": 2.691450834274292,
-      "eval_runtime": 18.8402,
-      "eval_samples_per_second": 22.93,
-      "eval_steps_per_second": 1.433,
-      "step": 2967
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 0.7012160420417786,
-      "learning_rate": 5.968750000000001e-05,
-      "loss": 2.6617,
-      "step": 3096
-    },
-    {
-      "epoch": 24.0,
-      "eval_cosine_similarity": 0.6656497120857239,
-      "eval_loss": 2.691051959991455,
-      "eval_runtime": 18.8635,
-      "eval_samples_per_second": 22.901,
-      "eval_steps_per_second": 1.431,
-      "step": 3096
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 0.07700519263744354,
-      "learning_rate": 5.80078125e-05,
-      "loss": 2.6605,
-      "step": 3225
-    },
-    {
-      "epoch": 25.0,
-      "eval_cosine_similarity": 0.6613298058509827,
-      "eval_loss": 2.689277410507202,
-      "eval_runtime": 18.8365,
-      "eval_samples_per_second": 22.934,
-      "eval_steps_per_second": 1.433,
-      "step": 3225
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 0.15677490830421448,
-      "learning_rate": 5.6328124999999995e-05,
-      "loss": 2.6599,
-      "step": 3354
-    },
-    {
-      "epoch": 26.0,
-      "eval_cosine_similarity": 0.6886489391326904,
-      "eval_loss": 2.686530590057373,
-      "eval_runtime": 18.8402,
-      "eval_samples_per_second": 22.93,
-      "eval_steps_per_second": 1.433,
-      "step": 3354
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 0.3259325623512268,
-      "learning_rate": 5.46484375e-05,
-      "loss": 2.6573,
-      "step": 3483
-    },
-    {
-      "epoch": 27.0,
-      "eval_cosine_similarity": 0.6656365394592285,
-      "eval_loss": 2.689530849456787,
-      "eval_runtime": 18.8427,
-      "eval_samples_per_second": 22.927,
-      "eval_steps_per_second": 1.433,
-      "step": 3483
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 0.29011014103889465,
-      "learning_rate": 5.2968750000000003e-05,
-      "loss": 2.6562,
-      "step": 3612
-    },
-    {
-      "epoch": 28.0,
-      "eval_cosine_similarity": 0.6862850189208984,
-      "eval_loss": 2.687514305114746,
-      "eval_runtime": 18.8416,
-      "eval_samples_per_second": 22.928,
-      "eval_steps_per_second": 1.433,
-      "step": 3612
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 0.5012183785438538,
-      "learning_rate": 5.1289062500000004e-05,
-      "loss": 2.6549,
-      "step": 3741
-    },
-    {
-      "epoch": 29.0,
-      "eval_cosine_similarity": 0.6950795650482178,
-      "eval_loss": 2.6848597526550293,
-      "eval_runtime": 18.871,
-      "eval_samples_per_second": 22.892,
-      "eval_steps_per_second": 1.431,
-      "step": 3741
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 0.2342006117105484,
-      "learning_rate": 4.9609375000000005e-05,
-      "loss": 2.6543,
-      "step": 3870
-    },
-    {
-      "epoch": 30.0,
-      "eval_cosine_similarity": 0.6870617270469666,
-      "eval_loss": 2.6858551502227783,
-      "eval_runtime": 18.8336,
-      "eval_samples_per_second": 22.938,
-      "eval_steps_per_second": 1.434,
-      "step": 3870
-    },
-    {
-      "epoch": 31.0,
-      "grad_norm": 0.3240242600440979,
-      "learning_rate": 4.7929687500000005e-05,
-      "loss": 2.653,
-      "step": 3999
-    },
-    {
-      "epoch": 31.0,
-      "eval_cosine_similarity": 0.6926249861717224,
-      "eval_loss": 2.6856954097747803,
-      "eval_runtime": 18.8636,
-      "eval_samples_per_second": 22.901,
-      "eval_steps_per_second": 1.431,
-      "step": 3999
-    },
-    {
-      "epoch": 32.0,
-      "grad_norm": 1.058250069618225,
-      "learning_rate": 4.6250000000000006e-05,
-      "loss": 2.6513,
-      "step": 4128
-    },
-    {
-      "epoch": 32.0,
-      "eval_cosine_similarity": 0.7236000895500183,
-      "eval_loss": 2.682251214981079,
-      "eval_runtime": 18.8353,
-      "eval_samples_per_second": 22.936,
-      "eval_steps_per_second": 1.433,
-      "step": 4128
-    },
-    {
-      "epoch": 33.0,
-      "grad_norm": 0.1793142408132553,
-      "learning_rate": 4.45703125e-05,
-      "loss": 2.6501,
-      "step": 4257
-    },
-    {
-      "epoch": 33.0,
-      "eval_cosine_similarity": 0.6964766979217529,
-      "eval_loss": 2.6835083961486816,
-      "eval_runtime": 18.8683,
-      "eval_samples_per_second": 22.896,
-      "eval_steps_per_second": 1.431,
-      "step": 4257
-    },
-    {
-      "epoch": 34.0,
-      "grad_norm": 0.12666787207126617,
-      "learning_rate": 4.2890625e-05,
-      "loss": 2.6492,
-      "step": 4386
-    },
-    {
-      "epoch": 34.0,
-      "eval_cosine_similarity": 0.7385993003845215,
-      "eval_loss": 2.6802611351013184,
-      "eval_runtime": 18.8352,
-      "eval_samples_per_second": 22.936,
-      "eval_steps_per_second": 1.433,
-      "step": 4386
-    },
-    {
-      "epoch": 35.0,
-      "grad_norm": 0.28480854630470276,
-      "learning_rate": 4.12109375e-05,
-      "loss": 2.6477,
-      "step": 4515
-    },
-    {
-      "epoch": 35.0,
-      "eval_cosine_similarity": 0.7121383547782898,
-      "eval_loss": 2.6818628311157227,
-      "eval_runtime": 18.8567,
-      "eval_samples_per_second": 22.91,
-      "eval_steps_per_second": 1.432,
-      "step": 4515
-    },
-    {
-      "epoch": 36.0,
-      "grad_norm": 0.13797371089458466,
-      "learning_rate": 3.953125e-05,
-      "loss": 2.6475,
-      "step": 4644
-    },
-    {
-      "epoch": 36.0,
-      "eval_cosine_similarity": 0.7440741658210754,
-      "eval_loss": 2.6793031692504883,
-      "eval_runtime": 18.8323,
-      "eval_samples_per_second": 22.939,
-      "eval_steps_per_second": 1.434,
-      "step": 4644
-    },
-    {
-      "epoch": 37.0,
-      "grad_norm": 0.3601125180721283,
-      "learning_rate": 3.78515625e-05,
-      "loss": 2.6472,
-      "step": 4773
-    },
-    {
-      "epoch": 37.0,
-      "eval_cosine_similarity": 0.7328048348426819,
-      "eval_loss": 2.682004690170288,
-      "eval_runtime": 18.8457,
-      "eval_samples_per_second": 22.923,
-      "eval_steps_per_second": 1.433,
-      "step": 4773
-    },
-    {
-      "epoch": 38.0,
-      "grad_norm": 0.49930471181869507,
-      "learning_rate": 3.6171875e-05,
-      "loss": 2.6452,
-      "step": 4902
-    },
-    {
-      "epoch": 38.0,
-      "eval_cosine_similarity": 0.7482897639274597,
-      "eval_loss": 2.678091287612915,
-      "eval_runtime": 18.8365,
-      "eval_samples_per_second": 22.934,
-      "eval_steps_per_second": 1.433,
-      "step": 4902
-    },
-    {
-      "epoch": 39.0,
-      "grad_norm": 0.34699180722236633,
-      "learning_rate": 3.44921875e-05,
-      "loss": 2.6442,
-      "step": 5031
-    },
-    {
-      "epoch": 39.0,
-      "eval_cosine_similarity": 0.7534282803535461,
-      "eval_loss": 2.678204298019409,
-      "eval_runtime": 18.8443,
-      "eval_samples_per_second": 22.925,
-      "eval_steps_per_second": 1.433,
-      "step": 5031
-    },
-    {
-      "epoch": 40.0,
-      "grad_norm": 0.36323243379592896,
-      "learning_rate": 3.2812500000000005e-05,
-      "loss": 2.6437,
-      "step": 5160
-    },
-    {
-      "epoch": 40.0,
-      "eval_cosine_similarity": 0.7704055905342102,
-      "eval_loss": 2.676304817199707,
-      "eval_runtime": 18.8549,
-      "eval_samples_per_second": 22.912,
-      "eval_steps_per_second": 1.432,
-      "step": 5160
-    },
-    {
-      "epoch": 41.0,
-      "grad_norm": 0.4448683261871338,
-      "learning_rate": 3.1132812500000005e-05,
-      "loss": 2.6429,
-      "step": 5289
-    },
-    {
-      "epoch": 41.0,
-      "eval_cosine_similarity": 0.7627379894256592,
-      "eval_loss": 2.67691707611084,
-      "eval_runtime": 18.836,
-      "eval_samples_per_second": 22.935,
-      "eval_steps_per_second": 1.433,
-      "step": 5289
-    },
-    {
-      "epoch": 42.0,
-      "grad_norm": 0.3076535165309906,
-      "learning_rate": 2.9453125000000003e-05,
-      "loss": 2.6428,
-      "step": 5418
-    },
-    {
-      "epoch": 42.0,
-      "eval_cosine_similarity": 0.7730197310447693,
-      "eval_loss": 2.675767660140991,
-      "eval_runtime": 18.8744,
-      "eval_samples_per_second": 22.888,
-      "eval_steps_per_second": 1.431,
-      "step": 5418
-    },
-    {
-      "epoch": 43.0,
-      "grad_norm": 0.3055357336997986,
-      "learning_rate": 2.77734375e-05,
-      "loss": 2.6415,
-      "step": 5547
-    },
-    {
-      "epoch": 43.0,
-      "eval_cosine_similarity": 0.7752830982208252,
-      "eval_loss": 2.6751718521118164,
-      "eval_runtime": 18.8283,
-      "eval_samples_per_second": 22.944,
-      "eval_steps_per_second": 1.434,
-      "step": 5547
-    },
-    {
-      "epoch": 44.0,
-      "grad_norm": 0.4585816562175751,
-      "learning_rate": 2.609375e-05,
-      "loss": 2.6408,
-      "step": 5676
-    },
-    {
-      "epoch": 44.0,
-      "eval_cosine_similarity": 0.7713160514831543,
-      "eval_loss": 2.675260305404663,
-      "eval_runtime": 18.863,
-      "eval_samples_per_second": 22.902,
-      "eval_steps_per_second": 1.431,
-      "step": 5676
-    },
-    {
-      "epoch": 45.0,
-      "grad_norm": 0.1793605536222458,
-      "learning_rate": 2.44140625e-05,
-      "loss": 2.6401,
-      "step": 5805
-    },
-    {
-      "epoch": 45.0,
-      "eval_cosine_similarity": 0.7710201144218445,
-      "eval_loss": 2.675137519836426,
-      "eval_runtime": 18.8392,
-      "eval_samples_per_second": 22.931,
-      "eval_steps_per_second": 1.433,
-      "step": 5805
-    },
-    {
-      "epoch": 46.0,
-      "grad_norm": 0.2033383995294571,
-      "learning_rate": 2.2734375000000002e-05,
-      "loss": 2.6396,
-      "step": 5934
-    },
-    {
-      "epoch": 46.0,
-      "eval_cosine_similarity": 0.7817992568016052,
-      "eval_loss": 2.6738462448120117,
-      "eval_runtime": 18.8424,
-      "eval_samples_per_second": 22.927,
-      "eval_steps_per_second": 1.433,
-      "step": 5934
-    },
-    {
-      "epoch": 47.0,
-      "grad_norm": 0.3535211384296417,
-      "learning_rate": 2.10546875e-05,
-      "loss": 2.6388,
-      "step": 6063
-    },
-    {
-      "epoch": 47.0,
-      "eval_cosine_similarity": 0.7922196984291077,
-      "eval_loss": 2.673060894012451,
-      "eval_runtime": 18.8542,
-      "eval_samples_per_second": 22.913,
-      "eval_steps_per_second": 1.432,
-      "step": 6063
-    },
-    {
-      "epoch": 48.0,
-      "grad_norm": 0.29340553283691406,
-      "learning_rate": 1.9375e-05,
-      "loss": 2.6383,
-      "step": 6192
-    },
-    {
-      "epoch": 48.0,
-      "eval_cosine_similarity": 0.7896454334259033,
-      "eval_loss": 2.6733312606811523,
-      "eval_runtime": 18.8372,
-      "eval_samples_per_second": 22.933,
-      "eval_steps_per_second": 1.433,
-      "step": 6192
     }
   ],
   "logging_steps": 500,
@@ -789,7 +37,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {

 {
+  "best_metric": 2.754194974899292,
+  "best_model_checkpoint": "mgh6/HTH_biCLIP_mean/checkpoint-129",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 129,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.009723234921693802,
+      "learning_rate": 0.000983203125,
+      "loss": 2.7359,
       "step": 129
     },
     {
       "epoch": 1.0,
+      "eval_cosine_similarity": 0.15642696619033813,
+      "eval_loss": 2.754194974899292,
+      "eval_runtime": 18.9326,
+      "eval_samples_per_second": 22.818,
+      "eval_steps_per_second": 1.426,
       "step": 129
     }
   ],
   "logging_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9390ca3eced6230918734dc8de4ad7f836138495f13c3d1b134d07c6eaa4db21
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:456d4f7d71f44316c3344e7b1dd2abd8cad0993cbcf9e11348a97ca882a75f92
 size 5368