Upload 6 files

Browse files

Files changed (6) hide show

model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1045 -0
training_args.bin +3 -0

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dc26b9b951509fab58d88c1644b30bde6691a930e08aeef17c911564dd28888
+size 379087640

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9215d1ebdc41c98b0315b147e79f219c2a9be5b11f82c6720aa9329a255b3fa
+size 3152668

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3734702e680d5ad1a425ca755a29b250ac2f23d46e80b755215d6f574c37f46d
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80c24d570ff1c8c8fabb510792c739126e51a5dc45441d4f69a8079dac080aec
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1045 @@

+{
+  "best_metric": 0.7511283297752088,
+  "best_model_checkpoint": "/p/scratch/ccstdl/krishna/finetuned-cosine-loss/checkpoint-640",
+  "epoch": 0.26048026048026046,
+  "eval_steps": 10,
+  "global_step": 640,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00407000407000407,
+      "grad_norm": 1.536843180656433,
+      "learning_rate": 3.391670058336725e-09,
+      "loss": 0.7541,
+      "step": 10
+    },
+    {
+      "epoch": 0.00407000407000407,
+      "eval_cos_sim": 0.23297198116779327,
+      "eval_loss": 0.768191722414369,
+      "eval_runtime": 91.5079,
+      "eval_samples_per_second": 10.928,
+      "eval_steps_per_second": 0.35,
+      "step": 10
+    },
+    {
+      "epoch": 0.00814000814000814,
+      "grad_norm": 1.5405757427215576,
+      "learning_rate": 6.78334011667345e-09,
+      "loss": 0.7624,
+      "step": 20
+    },
+    {
+      "epoch": 0.00814000814000814,
+      "eval_cos_sim": 0.23298420011997223,
+      "eval_loss": 0.7681795115684217,
+      "eval_runtime": 89.9693,
+      "eval_samples_per_second": 11.115,
+      "eval_steps_per_second": 0.356,
+      "step": 20
+    },
+    {
+      "epoch": 0.01221001221001221,
+      "grad_norm": 1.804322600364685,
+      "learning_rate": 1.0175010175010176e-08,
+      "loss": 0.7676,
+      "step": 30
+    },
+    {
+      "epoch": 0.01221001221001221,
+      "eval_cos_sim": 0.23300467431545258,
+      "eval_loss": 0.7681590614532179,
+      "eval_runtime": 89.3602,
+      "eval_samples_per_second": 11.191,
+      "eval_steps_per_second": 0.358,
+      "step": 30
+    },
+    {
+      "epoch": 0.01628001628001628,
+      "grad_norm": 1.8146826028823853,
+      "learning_rate": 1.35666802333469e-08,
+      "loss": 0.7574,
+      "step": 40
+    },
+    {
+      "epoch": 0.01628001628001628,
+      "eval_cos_sim": 0.2330336719751358,
+      "eval_loss": 0.7681300749992078,
+      "eval_runtime": 89.4122,
+      "eval_samples_per_second": 11.184,
+      "eval_steps_per_second": 0.358,
+      "step": 40
+    },
+    {
+      "epoch": 0.02035002035002035,
+      "grad_norm": 1.8104356527328491,
+      "learning_rate": 1.6958350291683625e-08,
+      "loss": 0.7498,
+      "step": 50
+    },
+    {
+      "epoch": 0.02035002035002035,
+      "eval_cos_sim": 0.23307059705257416,
+      "eval_loss": 0.7680931844924634,
+      "eval_runtime": 89.4222,
+      "eval_samples_per_second": 11.183,
+      "eval_steps_per_second": 0.358,
+      "step": 50
+    },
+    {
+      "epoch": 0.02442002442002442,
+      "grad_norm": 1.5193002223968506,
+      "learning_rate": 2.035002035002035e-08,
+      "loss": 0.7712,
+      "step": 60
+    },
+    {
+      "epoch": 0.02442002442002442,
+      "eval_cos_sim": 0.23311668634414673,
+      "eval_loss": 0.7680471167777723,
+      "eval_runtime": 89.315,
+      "eval_samples_per_second": 11.196,
+      "eval_steps_per_second": 0.358,
+      "step": 60
+    },
+    {
+      "epoch": 0.02849002849002849,
+      "grad_norm": 1.528325080871582,
+      "learning_rate": 2.3741690408357078e-08,
+      "loss": 0.759,
+      "step": 70
+    },
+    {
+      "epoch": 0.02849002849002849,
+      "eval_cos_sim": 0.23317213356494904,
+      "eval_loss": 0.7679916973327344,
+      "eval_runtime": 89.4142,
+      "eval_samples_per_second": 11.184,
+      "eval_steps_per_second": 0.358,
+      "step": 70
+    },
+    {
+      "epoch": 0.03256003256003256,
+      "grad_norm": 1.7931920289993286,
+      "learning_rate": 2.71333604666938e-08,
+      "loss": 0.7671,
+      "step": 80
+    },
+    {
+      "epoch": 0.03256003256003256,
+      "eval_cos_sim": 0.23323610424995422,
+      "eval_loss": 0.7679277911399549,
+      "eval_runtime": 89.0622,
+      "eval_samples_per_second": 11.228,
+      "eval_steps_per_second": 0.359,
+      "step": 80
+    },
+    {
+      "epoch": 0.03663003663003663,
+      "grad_norm": 1.7999187707901,
+      "learning_rate": 3.052503052503053e-08,
+      "loss": 0.7555,
+      "step": 90
+    },
+    {
+      "epoch": 0.03663003663003663,
+      "eval_cos_sim": 0.23330801725387573,
+      "eval_loss": 0.7678559165214247,
+      "eval_runtime": 89.9997,
+      "eval_samples_per_second": 11.111,
+      "eval_steps_per_second": 0.356,
+      "step": 90
+    },
+    {
+      "epoch": 0.0407000407000407,
+      "grad_norm": 1.8139901161193848,
+      "learning_rate": 3.391670058336725e-08,
+      "loss": 0.7644,
+      "step": 100
+    },
+    {
+      "epoch": 0.0407000407000407,
+      "eval_cos_sim": 0.23338641226291656,
+      "eval_loss": 0.7677775721763319,
+      "eval_runtime": 90.0029,
+      "eval_samples_per_second": 11.111,
+      "eval_steps_per_second": 0.356,
+      "step": 100
+    },
+    {
+      "epoch": 0.04477004477004477,
+      "grad_norm": 1.503141164779663,
+      "learning_rate": 3.730837064170397e-08,
+      "loss": 0.7578,
+      "step": 110
+    },
+    {
+      "epoch": 0.04477004477004477,
+      "eval_cos_sim": 0.23347413539886475,
+      "eval_loss": 0.7676898985122389,
+      "eval_runtime": 89.7336,
+      "eval_samples_per_second": 11.144,
+      "eval_steps_per_second": 0.357,
+      "step": 110
+    },
+    {
+      "epoch": 0.04884004884004884,
+      "grad_norm": 1.8247084617614746,
+      "learning_rate": 4.07000407000407e-08,
+      "loss": 0.7547,
+      "step": 120
+    },
+    {
+      "epoch": 0.04884004884004884,
+      "eval_cos_sim": 0.23357054591178894,
+      "eval_loss": 0.7675935707305617,
+      "eval_runtime": 89.7773,
+      "eval_samples_per_second": 11.139,
+      "eval_steps_per_second": 0.356,
+      "step": 120
+    },
+    {
+      "epoch": 0.05291005291005291,
+      "grad_norm": 1.8179460763931274,
+      "learning_rate": 4.4091710758377425e-08,
+      "loss": 0.7622,
+      "step": 130
+    },
+    {
+      "epoch": 0.05291005291005291,
+      "eval_cos_sim": 0.2336733043193817,
+      "eval_loss": 0.7674909014915174,
+      "eval_runtime": 89.5883,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.357,
+      "step": 130
+    },
+    {
+      "epoch": 0.05698005698005698,
+      "grad_norm": 1.5388119220733643,
+      "learning_rate": 4.7483380816714155e-08,
+      "loss": 0.762,
+      "step": 140
+    },
+    {
+      "epoch": 0.05698005698005698,
+      "eval_cos_sim": 0.2337844967842102,
+      "eval_loss": 0.7673797888969129,
+      "eval_runtime": 89.8351,
+      "eval_samples_per_second": 11.132,
+      "eval_steps_per_second": 0.356,
+      "step": 140
+    },
+    {
+      "epoch": 0.06105006105006105,
+      "grad_norm": 1.5371043682098389,
+      "learning_rate": 5.087505087505087e-08,
+      "loss": 0.7701,
+      "step": 150
+    },
+    {
+      "epoch": 0.06105006105006105,
+      "eval_cos_sim": 0.2339046597480774,
+      "eval_loss": 0.7672597303603834,
+      "eval_runtime": 89.7829,
+      "eval_samples_per_second": 11.138,
+      "eval_steps_per_second": 0.356,
+      "step": 150
+    },
+    {
+      "epoch": 0.06512006512006512,
+      "grad_norm": 1.8181686401367188,
+      "learning_rate": 5.42667209333876e-08,
+      "loss": 0.7502,
+      "step": 160
+    },
+    {
+      "epoch": 0.06512006512006512,
+      "eval_cos_sim": 0.23403701186180115,
+      "eval_loss": 0.7671275153373426,
+      "eval_runtime": 90.1005,
+      "eval_samples_per_second": 11.099,
+      "eval_steps_per_second": 0.355,
+      "step": 160
+    },
+    {
+      "epoch": 0.06919006919006919,
+      "grad_norm": 1.534674882888794,
+      "learning_rate": 5.7658390991724324e-08,
+      "loss": 0.7574,
+      "step": 170
+    },
+    {
+      "epoch": 0.06919006919006919,
+      "eval_cos_sim": 0.23417629301548004,
+      "eval_loss": 0.7669882936690993,
+      "eval_runtime": 89.571,
+      "eval_samples_per_second": 11.164,
+      "eval_steps_per_second": 0.357,
+      "step": 170
+    },
+    {
+      "epoch": 0.07326007326007326,
+      "grad_norm": 1.5271172523498535,
+      "learning_rate": 6.105006105006105e-08,
+      "loss": 0.7655,
+      "step": 180
+    },
+    {
+      "epoch": 0.07326007326007326,
+      "eval_cos_sim": 0.23432348668575287,
+      "eval_loss": 0.7668412108634657,
+      "eval_runtime": 90.5075,
+      "eval_samples_per_second": 11.049,
+      "eval_steps_per_second": 0.354,
+      "step": 180
+    },
+    {
+      "epoch": 0.07733007733007732,
+      "grad_norm": 1.8323088884353638,
+      "learning_rate": 6.444173110839778e-08,
+      "loss": 0.7502,
+      "step": 190
+    },
+    {
+      "epoch": 0.07733007733007732,
+      "eval_cos_sim": 0.2344803661108017,
+      "eval_loss": 0.7666844401572889,
+      "eval_runtime": 89.4964,
+      "eval_samples_per_second": 11.174,
+      "eval_steps_per_second": 0.358,
+      "step": 190
+    },
+    {
+      "epoch": 0.0814000814000814,
+      "grad_norm": 1.8085038661956787,
+      "learning_rate": 6.78334011667345e-08,
+      "loss": 0.7501,
+      "step": 200
+    },
+    {
+      "epoch": 0.0814000814000814,
+      "eval_cos_sim": 0.23464781045913696,
+      "eval_loss": 0.7665171194289869,
+      "eval_runtime": 89.7562,
+      "eval_samples_per_second": 11.141,
+      "eval_steps_per_second": 0.357,
+      "step": 200
+    },
+    {
+      "epoch": 0.08547008547008547,
+      "grad_norm": 1.8186180591583252,
+      "learning_rate": 7.122507122507124e-08,
+      "loss": 0.7461,
+      "step": 210
+    },
+    {
+      "epoch": 0.08547008547008547,
+      "eval_cos_sim": 0.2348259836435318,
+      "eval_loss": 0.7663390865539259,
+      "eval_runtime": 89.8237,
+      "eval_samples_per_second": 11.133,
+      "eval_steps_per_second": 0.356,
+      "step": 210
+    },
+    {
+      "epoch": 0.08954008954008955,
+      "grad_norm": 1.7954074144363403,
+      "learning_rate": 7.461674128340795e-08,
+      "loss": 0.7629,
+      "step": 220
+    },
+    {
+      "epoch": 0.08954008954008955,
+      "eval_cos_sim": 0.2350083887577057,
+      "eval_loss": 0.766156840345735,
+      "eval_runtime": 89.9644,
+      "eval_samples_per_second": 11.116,
+      "eval_steps_per_second": 0.356,
+      "step": 220
+    },
+    {
+      "epoch": 0.0936100936100936,
+      "grad_norm": 1.5266213417053223,
+      "learning_rate": 7.800841134174468e-08,
+      "loss": 0.7577,
+      "step": 230
+    },
+    {
+      "epoch": 0.0936100936100936,
+      "eval_cos_sim": 0.23520143330097198,
+      "eval_loss": 0.7659639358733838,
+      "eval_runtime": 89.8031,
+      "eval_samples_per_second": 11.135,
+      "eval_steps_per_second": 0.356,
+      "step": 230
+    },
+    {
+      "epoch": 0.09768009768009768,
+      "grad_norm": 1.7925808429718018,
+      "learning_rate": 8.14000814000814e-08,
+      "loss": 0.761,
+      "step": 240
+    },
+    {
+      "epoch": 0.09768009768009768,
+      "eval_cos_sim": 0.23539790511131287,
+      "eval_loss": 0.7657675605033583,
+      "eval_runtime": 90.0042,
+      "eval_samples_per_second": 11.111,
+      "eval_steps_per_second": 0.356,
+      "step": 240
+    },
+    {
+      "epoch": 0.10175010175010175,
+      "grad_norm": 1.8205206394195557,
+      "learning_rate": 8.479175145841813e-08,
+      "loss": 0.7567,
+      "step": 250
+    },
+    {
+      "epoch": 0.10175010175010175,
+      "eval_cos_sim": 0.2355988621711731,
+      "eval_loss": 0.765566779634828,
+      "eval_runtime": 89.9642,
+      "eval_samples_per_second": 11.116,
+      "eval_steps_per_second": 0.356,
+      "step": 250
+    },
+    {
+      "epoch": 0.10582010582010581,
+      "grad_norm": 1.5402510166168213,
+      "learning_rate": 8.818342151675485e-08,
+      "loss": 0.7614,
+      "step": 260
+    },
+    {
+      "epoch": 0.10582010582010581,
+      "eval_cos_sim": 0.23581092059612274,
+      "eval_loss": 0.765354886553163,
+      "eval_runtime": 89.8001,
+      "eval_samples_per_second": 11.136,
+      "eval_steps_per_second": 0.356,
+      "step": 260
+    },
+    {
+      "epoch": 0.10989010989010989,
+      "grad_norm": 1.8056024312973022,
+      "learning_rate": 9.157509157509157e-08,
+      "loss": 0.7456,
+      "step": 270
+    },
+    {
+      "epoch": 0.10989010989010989,
+      "eval_cos_sim": 0.23603886365890503,
+      "eval_loss": 0.7651271081184096,
+      "eval_runtime": 90.0164,
+      "eval_samples_per_second": 11.109,
+      "eval_steps_per_second": 0.355,
+      "step": 270
+    },
+    {
+      "epoch": 0.11396011396011396,
+      "grad_norm": 1.7946364879608154,
+      "learning_rate": 9.496676163342831e-08,
+      "loss": 0.7515,
+      "step": 280
+    },
+    {
+      "epoch": 0.11396011396011396,
+      "eval_cos_sim": 0.23627926409244537,
+      "eval_loss": 0.7648869228576368,
+      "eval_runtime": 89.9913,
+      "eval_samples_per_second": 11.112,
+      "eval_steps_per_second": 0.356,
+      "step": 280
+    },
+    {
+      "epoch": 0.11803011803011804,
+      "grad_norm": 1.790886402130127,
+      "learning_rate": 9.835843169176503e-08,
+      "loss": 0.7521,
+      "step": 290
+    },
+    {
+      "epoch": 0.11803011803011804,
+      "eval_cos_sim": 0.23652693629264832,
+      "eval_loss": 0.7646394362662977,
+      "eval_runtime": 89.7312,
+      "eval_samples_per_second": 11.144,
+      "eval_steps_per_second": 0.357,
+      "step": 290
+    },
+    {
+      "epoch": 0.1221001221001221,
+      "grad_norm": 1.537542462348938,
+      "learning_rate": 1.0175010175010174e-07,
+      "loss": 0.745,
+      "step": 300
+    },
+    {
+      "epoch": 0.1221001221001221,
+      "eval_cos_sim": 0.2367820292711258,
+      "eval_loss": 0.7643844967101758,
+      "eval_runtime": 90.3164,
+      "eval_samples_per_second": 11.072,
+      "eval_steps_per_second": 0.354,
+      "step": 300
+    },
+    {
+      "epoch": 0.12617012617012616,
+      "grad_norm": 1.7763339281082153,
+      "learning_rate": 1.0514177180843848e-07,
+      "loss": 0.7702,
+      "step": 310
+    },
+    {
+      "epoch": 0.12617012617012616,
+      "eval_cos_sim": 0.23703327775001526,
+      "eval_loss": 0.7641334486221022,
+      "eval_runtime": 90.0626,
+      "eval_samples_per_second": 11.103,
+      "eval_steps_per_second": 0.355,
+      "step": 310
+    },
+    {
+      "epoch": 0.13024013024013023,
+      "grad_norm": 1.5245599746704102,
+      "learning_rate": 1.085334418667752e-07,
+      "loss": 0.747,
+      "step": 320
+    },
+    {
+      "epoch": 0.13024013024013023,
+      "eval_cos_sim": 0.2372935563325882,
+      "eval_loss": 0.7638734064315504,
+      "eval_runtime": 89.9475,
+      "eval_samples_per_second": 11.118,
+      "eval_steps_per_second": 0.356,
+      "step": 320
+    },
+    {
+      "epoch": 0.1343101343101343,
+      "grad_norm": 1.821993112564087,
+      "learning_rate": 1.1192511192511194e-07,
+      "loss": 0.754,
+      "step": 330
+    },
+    {
+      "epoch": 0.1343101343101343,
+      "eval_cos_sim": 0.237561896443367,
+      "eval_loss": 0.7636052789901442,
+      "eval_runtime": 90.1324,
+      "eval_samples_per_second": 11.095,
+      "eval_steps_per_second": 0.355,
+      "step": 330
+    },
+    {
+      "epoch": 0.13838013838013838,
+      "grad_norm": 1.81463623046875,
+      "learning_rate": 1.1531678198344865e-07,
+      "loss": 0.7422,
+      "step": 340
+    },
+    {
+      "epoch": 0.13838013838013838,
+      "eval_cos_sim": 0.2378445714712143,
+      "eval_loss": 0.7633227577422804,
+      "eval_runtime": 89.5913,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.357,
+      "step": 340
+    },
+    {
+      "epoch": 0.14245014245014245,
+      "grad_norm": 1.5341211557388306,
+      "learning_rate": 1.1870845204178537e-07,
+      "loss": 0.7651,
+      "step": 350
+    },
+    {
+      "epoch": 0.14245014245014245,
+      "eval_cos_sim": 0.23813165724277496,
+      "eval_loss": 0.7630358362411207,
+      "eval_runtime": 89.7534,
+      "eval_samples_per_second": 11.142,
+      "eval_steps_per_second": 0.357,
+      "step": 350
+    },
+    {
+      "epoch": 0.14652014652014653,
+      "grad_norm": 1.7832329273223877,
+      "learning_rate": 1.221001221001221e-07,
+      "loss": 0.7567,
+      "step": 360
+    },
+    {
+      "epoch": 0.14652014652014653,
+      "eval_cos_sim": 0.23842589557170868,
+      "eval_loss": 0.762741819403047,
+      "eval_runtime": 89.9866,
+      "eval_samples_per_second": 11.113,
+      "eval_steps_per_second": 0.356,
+      "step": 360
+    },
+    {
+      "epoch": 0.1505901505901506,
+      "grad_norm": 1.7850264310836792,
+      "learning_rate": 1.2549179215845883e-07,
+      "loss": 0.7426,
+      "step": 370
+    },
+    {
+      "epoch": 0.1505901505901506,
+      "eval_cos_sim": 0.23873232305049896,
+      "eval_loss": 0.7624356103156752,
+      "eval_runtime": 90.494,
+      "eval_samples_per_second": 11.05,
+      "eval_steps_per_second": 0.354,
+      "step": 370
+    },
+    {
+      "epoch": 0.15466015466015465,
+      "grad_norm": 1.7699724435806274,
+      "learning_rate": 1.2888346221679555e-07,
+      "loss": 0.7522,
+      "step": 380
+    },
+    {
+      "epoch": 0.15466015466015465,
+      "eval_cos_sim": 0.23904503881931305,
+      "eval_loss": 0.7621231146072096,
+      "eval_runtime": 90.1381,
+      "eval_samples_per_second": 11.094,
+      "eval_steps_per_second": 0.355,
+      "step": 380
+    },
+    {
+      "epoch": 0.15873015873015872,
+      "grad_norm": 1.8207930326461792,
+      "learning_rate": 1.3227513227513228e-07,
+      "loss": 0.7439,
+      "step": 390
+    },
+    {
+      "epoch": 0.15873015873015872,
+      "eval_cos_sim": 0.23936401307582855,
+      "eval_loss": 0.7618043742393201,
+      "eval_runtime": 90.3651,
+      "eval_samples_per_second": 11.066,
+      "eval_steps_per_second": 0.354,
+      "step": 390
+    },
+    {
+      "epoch": 0.1628001628001628,
+      "grad_norm": 1.792629599571228,
+      "learning_rate": 1.35666802333469e-07,
+      "loss": 0.745,
+      "step": 400
+    },
+    {
+      "epoch": 0.1628001628001628,
+      "eval_cos_sim": 0.23968373239040375,
+      "eval_loss": 0.7614848485206313,
+      "eval_runtime": 90.0633,
+      "eval_samples_per_second": 11.103,
+      "eval_steps_per_second": 0.355,
+      "step": 400
+    },
+    {
+      "epoch": 0.16687016687016687,
+      "grad_norm": 1.403818964958191,
+      "learning_rate": 1.3905847239180572e-07,
+      "loss": 0.76,
+      "step": 410
+    },
+    {
+      "epoch": 0.16687016687016687,
+      "eval_cos_sim": 0.24001312255859375,
+      "eval_loss": 0.7611556487296766,
+      "eval_runtime": 90.3972,
+      "eval_samples_per_second": 11.062,
+      "eval_steps_per_second": 0.354,
+      "step": 410
+    },
+    {
+      "epoch": 0.17094017094017094,
+      "grad_norm": 1.7909486293792725,
+      "learning_rate": 1.4245014245014247e-07,
+      "loss": 0.7466,
+      "step": 420
+    },
+    {
+      "epoch": 0.17094017094017094,
+      "eval_cos_sim": 0.24035318195819855,
+      "eval_loss": 0.7608158207153028,
+      "eval_runtime": 89.8381,
+      "eval_samples_per_second": 11.131,
+      "eval_steps_per_second": 0.356,
+      "step": 420
+    },
+    {
+      "epoch": 0.17501017501017502,
+      "grad_norm": 1.7875357866287231,
+      "learning_rate": 1.4584181250847917e-07,
+      "loss": 0.7594,
+      "step": 430
+    },
+    {
+      "epoch": 0.17501017501017502,
+      "eval_cos_sim": 0.2407049685716629,
+      "eval_loss": 0.7604642462943739,
+      "eval_runtime": 89.828,
+      "eval_samples_per_second": 11.132,
+      "eval_steps_per_second": 0.356,
+      "step": 430
+    },
+    {
+      "epoch": 0.1790801790801791,
+      "grad_norm": 1.5114662647247314,
+      "learning_rate": 1.492334825668159e-07,
+      "loss": 0.7591,
+      "step": 440
+    },
+    {
+      "epoch": 0.1790801790801791,
+      "eval_cos_sim": 0.24106334149837494,
+      "eval_loss": 0.7601061339591688,
+      "eval_runtime": 90.7177,
+      "eval_samples_per_second": 11.023,
+      "eval_steps_per_second": 0.353,
+      "step": 440
+    },
+    {
+      "epoch": 0.18315018315018314,
+      "grad_norm": 1.795444369316101,
+      "learning_rate": 1.5262515262515264e-07,
+      "loss": 0.7422,
+      "step": 450
+    },
+    {
+      "epoch": 0.18315018315018314,
+      "eval_cos_sim": 0.24143525958061218,
+      "eval_loss": 0.7597345195029921,
+      "eval_runtime": 90.5392,
+      "eval_samples_per_second": 11.045,
+      "eval_steps_per_second": 0.353,
+      "step": 450
+    },
+    {
+      "epoch": 0.1872201872201872,
+      "grad_norm": 1.8110040426254272,
+      "learning_rate": 1.5601682268348936e-07,
+      "loss": 0.7393,
+      "step": 460
+    },
+    {
+      "epoch": 0.1872201872201872,
+      "eval_cos_sim": 0.2418150007724762,
+      "eval_loss": 0.7593550896857924,
+      "eval_runtime": 90.1931,
+      "eval_samples_per_second": 11.087,
+      "eval_steps_per_second": 0.355,
+      "step": 460
+    },
+    {
+      "epoch": 0.19129019129019129,
+      "grad_norm": 1.4468168020248413,
+      "learning_rate": 1.594084927418261e-07,
+      "loss": 0.7473,
+      "step": 470
+    },
+    {
+      "epoch": 0.19129019129019129,
+      "eval_cos_sim": 0.24221277236938477,
+      "eval_loss": 0.7589576378081984,
+      "eval_runtime": 89.5878,
+      "eval_samples_per_second": 11.162,
+      "eval_steps_per_second": 0.357,
+      "step": 470
+    },
+    {
+      "epoch": 0.19536019536019536,
+      "grad_norm": 1.514156460762024,
+      "learning_rate": 1.628001628001628e-07,
+      "loss": 0.7449,
+      "step": 480
+    },
+    {
+      "epoch": 0.19536019536019536,
+      "eval_cos_sim": 0.2426101416349411,
+      "eval_loss": 0.7585605402206129,
+      "eval_runtime": 89.9539,
+      "eval_samples_per_second": 11.117,
+      "eval_steps_per_second": 0.356,
+      "step": 480
+    },
+    {
+      "epoch": 0.19943019943019943,
+      "grad_norm": 1.8006784915924072,
+      "learning_rate": 1.6619183285849953e-07,
+      "loss": 0.737,
+      "step": 490
+    },
+    {
+      "epoch": 0.19943019943019943,
+      "eval_cos_sim": 0.24302691221237183,
+      "eval_loss": 0.7581440701698011,
+      "eval_runtime": 90.2665,
+      "eval_samples_per_second": 11.078,
+      "eval_steps_per_second": 0.355,
+      "step": 490
+    },
+    {
+      "epoch": 0.2035002035002035,
+      "grad_norm": 1.8056854009628296,
+      "learning_rate": 1.6958350291683626e-07,
+      "loss": 0.739,
+      "step": 500
+    },
+    {
+      "epoch": 0.2035002035002035,
+      "eval_cos_sim": 0.24345554411411285,
+      "eval_loss": 0.7577157569144911,
+      "eval_runtime": 90.7307,
+      "eval_samples_per_second": 11.022,
+      "eval_steps_per_second": 0.353,
+      "step": 500
+    },
+    {
+      "epoch": 0.20757020757020758,
+      "grad_norm": 1.5370985269546509,
+      "learning_rate": 1.7297517297517298e-07,
+      "loss": 0.7486,
+      "step": 510
+    },
+    {
+      "epoch": 0.20757020757020758,
+      "eval_cos_sim": 0.24388501048088074,
+      "eval_loss": 0.7572865553115553,
+      "eval_runtime": 90.6051,
+      "eval_samples_per_second": 11.037,
+      "eval_steps_per_second": 0.353,
+      "step": 510
+    },
+    {
+      "epoch": 0.21164021164021163,
+      "grad_norm": 1.5251612663269043,
+      "learning_rate": 1.763668430335097e-07,
+      "loss": 0.7547,
+      "step": 520
+    },
+    {
+      "epoch": 0.21164021164021163,
+      "eval_cos_sim": 0.24431298673152924,
+      "eval_loss": 0.75685892250287,
+      "eval_runtime": 90.2899,
+      "eval_samples_per_second": 11.075,
+      "eval_steps_per_second": 0.354,
+      "step": 520
+    },
+    {
+      "epoch": 0.2157102157102157,
+      "grad_norm": 1.521409034729004,
+      "learning_rate": 1.7975851309184642e-07,
+      "loss": 0.7462,
+      "step": 530
+    },
+    {
+      "epoch": 0.2157102157102157,
+      "eval_cos_sim": 0.24473965167999268,
+      "eval_loss": 0.7564325490211194,
+      "eval_runtime": 90.2737,
+      "eval_samples_per_second": 11.077,
+      "eval_steps_per_second": 0.354,
+      "step": 530
+    },
+    {
+      "epoch": 0.21978021978021978,
+      "grad_norm": 1.4248371124267578,
+      "learning_rate": 1.8315018315018315e-07,
+      "loss": 0.7462,
+      "step": 540
+    },
+    {
+      "epoch": 0.21978021978021978,
+      "eval_cos_sim": 0.2451799064874649,
+      "eval_loss": 0.7559925694678968,
+      "eval_runtime": 90.578,
+      "eval_samples_per_second": 11.04,
+      "eval_steps_per_second": 0.353,
+      "step": 540
+    },
+    {
+      "epoch": 0.22385022385022385,
+      "grad_norm": 1.8004443645477295,
+      "learning_rate": 1.865418532085199e-07,
+      "loss": 0.7459,
+      "step": 550
+    },
+    {
+      "epoch": 0.22385022385022385,
+      "eval_cos_sim": 0.24562880396842957,
+      "eval_loss": 0.7555439458106703,
+      "eval_runtime": 90.9564,
+      "eval_samples_per_second": 10.994,
+      "eval_steps_per_second": 0.352,
+      "step": 550
+    },
+    {
+      "epoch": 0.22792022792022792,
+      "grad_norm": 1.4445558786392212,
+      "learning_rate": 1.8993352326685662e-07,
+      "loss": 0.7554,
+      "step": 560
+    },
+    {
+      "epoch": 0.22792022792022792,
+      "eval_cos_sim": 0.24609394371509552,
+      "eval_loss": 0.7550791173194593,
+      "eval_runtime": 90.5968,
+      "eval_samples_per_second": 11.038,
+      "eval_steps_per_second": 0.353,
+      "step": 560
+    },
+    {
+      "epoch": 0.231990231990232,
+      "grad_norm": 1.533172369003296,
+      "learning_rate": 1.9332519332519332e-07,
+      "loss": 0.7494,
+      "step": 570
+    },
+    {
+      "epoch": 0.231990231990232,
+      "eval_cos_sim": 0.24655570089817047,
+      "eval_loss": 0.7546177897666639,
+      "eval_runtime": 91.1212,
+      "eval_samples_per_second": 10.974,
+      "eval_steps_per_second": 0.351,
+      "step": 570
+    },
+    {
+      "epoch": 0.23606023606023607,
+      "grad_norm": 1.8101106882095337,
+      "learning_rate": 1.9671686338353007e-07,
+      "loss": 0.7454,
+      "step": 580
+    },
+    {
+      "epoch": 0.23606023606023607,
+      "eval_cos_sim": 0.24702411890029907,
+      "eval_loss": 0.7541497187827771,
+      "eval_runtime": 91.5084,
+      "eval_samples_per_second": 10.928,
+      "eval_steps_per_second": 0.35,
+      "step": 580
+    },
+    {
+      "epoch": 0.24013024013024012,
+      "grad_norm": 1.5267221927642822,
+      "learning_rate": 2.001085334418668e-07,
+      "loss": 0.7404,
+      "step": 590
+    },
+    {
+      "epoch": 0.24013024013024012,
+      "eval_cos_sim": 0.2475021332502365,
+      "eval_loss": 0.7536720900748914,
+      "eval_runtime": 91.351,
+      "eval_samples_per_second": 10.947,
+      "eval_steps_per_second": 0.35,
+      "step": 590
+    },
+    {
+      "epoch": 0.2442002442002442,
+      "grad_norm": 1.820921540260315,
+      "learning_rate": 2.0350020350020349e-07,
+      "loss": 0.7452,
+      "step": 600
+    },
+    {
+      "epoch": 0.2442002442002442,
+      "eval_cos_sim": 0.24799831211566925,
+      "eval_loss": 0.7531762728904432,
+      "eval_runtime": 91.5221,
+      "eval_samples_per_second": 10.926,
+      "eval_steps_per_second": 0.35,
+      "step": 600
+    },
+    {
+      "epoch": 0.24827024827024827,
+      "grad_norm": 1.5125783681869507,
+      "learning_rate": 2.0689187355854024e-07,
+      "loss": 0.7383,
+      "step": 610
+    },
+    {
+      "epoch": 0.24827024827024827,
+      "eval_cos_sim": 0.24849534034729004,
+      "eval_loss": 0.7526795602058118,
+      "eval_runtime": 91.6467,
+      "eval_samples_per_second": 10.911,
+      "eval_steps_per_second": 0.349,
+      "step": 610
+    },
+    {
+      "epoch": 0.2523402523402523,
+      "grad_norm": 1.8262513875961304,
+      "learning_rate": 2.1028354361687696e-07,
+      "loss": 0.735,
+      "step": 620
+    },
+    {
+      "epoch": 0.2523402523402523,
+      "eval_cos_sim": 0.24900716543197632,
+      "eval_loss": 0.7521681246970838,
+      "eval_runtime": 91.2799,
+      "eval_samples_per_second": 10.955,
+      "eval_steps_per_second": 0.351,
+      "step": 620
+    },
+    {
+      "epoch": 0.2564102564102564,
+      "grad_norm": 1.799322485923767,
+      "learning_rate": 2.136752136752137e-07,
+      "loss": 0.7293,
+      "step": 630
+    },
+    {
+      "epoch": 0.2564102564102564,
+      "eval_cos_sim": 0.24952581524848938,
+      "eval_loss": 0.7516498799537367,
+      "eval_runtime": 91.735,
+      "eval_samples_per_second": 10.901,
+      "eval_steps_per_second": 0.349,
+      "step": 630
+    },
+    {
+      "epoch": 0.26048026048026046,
+      "grad_norm": 1.8142882585525513,
+      "learning_rate": 2.170668837335504e-07,
+      "loss": 0.7328,
+      "step": 640
+    },
+    {
+      "epoch": 0.26048026048026046,
+      "eval_cos_sim": 0.2500477731227875,
+      "eval_loss": 0.7511283297752088,
+      "eval_runtime": 91.7025,
+      "eval_samples_per_second": 10.905,
+      "eval_steps_per_second": 0.349,
+      "step": 640
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1474200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 600,
+  "save_steps": 10,
+  "total_flos": 0.0,
+  "train_batch_size": 160,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3257d343204feadede9ba0ad44e8c5d1d068eea3546c0f7fada59a453ee6a1a6
+size 5048