Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +432 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c03dfe3ff98720b641d5b3253f189443475f90c5848bfce1ee42b4e25e9a06d9
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:92c7c2466e9547634a505ccaf2590f9e4d9d15d2f31d94aa4c0cfe5f155dc10b
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:781ca001e4eef0894d5dc0a043ec1d7414e5f687b44a3bb27578a66df794e142
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:05b07ba25a847922c59fe9c0ee222039fd2b55eb27e7164ec80572760094d906
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cd02421b7ec256714ec03c37d51589e92544068eeda4bae107d407e8dfd0cb9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b8a0379bdd10765d4926325b17779ba084884beedfbdf271680e1d1bd136b43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8785b8509dc9a197581e45af973f623b343ec6de3eb0eeab89b29a64ed0e10d5
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea8c56402fe28ab6610db127ee707a0d7bbb7e8371ebb7f77b59566a41c7f5ef
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.640112464854733,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3017,6 +3017,436 @@
       "eval_spearman_manhattan": 0.8222685344671697,
       "eval_steps_per_second": 15.727,
       "step": 3500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8744142455482662,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8222685344671697,
       "eval_steps_per_second": 15.727,
       "step": 3500
+    },
+    {
+      "epoch": 1.6447985004686037,
+      "grad_norm": 0.9714635610580444,
+      "learning_rate": 4.486000468603562e-05,
+      "loss": 0.1841,
+      "step": 3510
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 1.4874918460845947,
+      "learning_rate": 4.484536082474227e-05,
+      "loss": 0.1833,
+      "step": 3520
+    },
+    {
+      "epoch": 1.6541705716963448,
+      "grad_norm": 1.3226478099822998,
+      "learning_rate": 4.4830716963448926e-05,
+      "loss": 0.1946,
+      "step": 3530
+    },
+    {
+      "epoch": 1.6588566073102156,
+      "grad_norm": 1.6590946912765503,
+      "learning_rate": 4.481607310215558e-05,
+      "loss": 0.192,
+      "step": 3540
+    },
+    {
+      "epoch": 1.6635426429240863,
+      "grad_norm": 1.8779162168502808,
+      "learning_rate": 4.480142924086223e-05,
+      "loss": 0.1841,
+      "step": 3550
+    },
+    {
+      "epoch": 1.668228678537957,
+      "grad_norm": 1.6211146116256714,
+      "learning_rate": 4.478678537956888e-05,
+      "loss": 0.1943,
+      "step": 3560
+    },
+    {
+      "epoch": 1.6729147141518275,
+      "grad_norm": 1.4703700542449951,
+      "learning_rate": 4.477214151827554e-05,
+      "loss": 0.1728,
+      "step": 3570
+    },
+    {
+      "epoch": 1.6776007497656982,
+      "grad_norm": 1.689462661743164,
+      "learning_rate": 4.47574976569822e-05,
+      "loss": 0.1857,
+      "step": 3580
+    },
+    {
+      "epoch": 1.6822867853795689,
+      "grad_norm": 1.7197692394256592,
+      "learning_rate": 4.474285379568885e-05,
+      "loss": 0.2084,
+      "step": 3590
+    },
+    {
+      "epoch": 1.6869728209934396,
+      "grad_norm": 1.2906155586242676,
+      "learning_rate": 4.4728209934395506e-05,
+      "loss": 0.1982,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6869728209934396,
+      "eval_loss": 0.03799282759428024,
+      "eval_pearson_cosine": 0.8220264449208883,
+      "eval_pearson_dot": 0.7551673016916052,
+      "eval_pearson_euclidean": 0.818234030509938,
+      "eval_pearson_manhattan": 0.8196075002869208,
+      "eval_runtime": 5.9912,
+      "eval_samples_per_second": 250.368,
+      "eval_spearman_cosine": 0.8233208131275441,
+      "eval_spearman_dot": 0.7535137341757772,
+      "eval_spearman_euclidean": 0.8248668260426036,
+      "eval_spearman_manhattan": 0.825693429330301,
+      "eval_steps_per_second": 15.69,
+      "step": 3600
+    },
+    {
+      "epoch": 1.6916588566073103,
+      "grad_norm": 1.595618724822998,
+      "learning_rate": 4.471356607310216e-05,
+      "loss": 0.1828,
+      "step": 3610
+    },
+    {
+      "epoch": 1.6963448922211808,
+      "grad_norm": 1.280032753944397,
+      "learning_rate": 4.4698922211808815e-05,
+      "loss": 0.1748,
+      "step": 3620
+    },
+    {
+      "epoch": 1.7010309278350515,
+      "grad_norm": 1.2117244005203247,
+      "learning_rate": 4.468427835051547e-05,
+      "loss": 0.1758,
+      "step": 3630
+    },
+    {
+      "epoch": 1.7057169634489222,
+      "grad_norm": 1.7422757148742676,
+      "learning_rate": 4.466963448922212e-05,
+      "loss": 0.17,
+      "step": 3640
+    },
+    {
+      "epoch": 1.710402999062793,
+      "grad_norm": 1.6089109182357788,
+      "learning_rate": 4.465499062792877e-05,
+      "loss": 0.1745,
+      "step": 3650
+    },
+    {
+      "epoch": 1.7150890346766636,
+      "grad_norm": 1.664401650428772,
+      "learning_rate": 4.4640346766635425e-05,
+      "loss": 0.153,
+      "step": 3660
+    },
+    {
+      "epoch": 1.7197750702905341,
+      "grad_norm": 1.5395989418029785,
+      "learning_rate": 4.462570290534208e-05,
+      "loss": 0.2049,
+      "step": 3670
+    },
+    {
+      "epoch": 1.7244611059044048,
+      "grad_norm": 1.8465495109558105,
+      "learning_rate": 4.4611059044048734e-05,
+      "loss": 0.208,
+      "step": 3680
+    },
+    {
+      "epoch": 1.7291471415182755,
+      "grad_norm": 1.6127640008926392,
+      "learning_rate": 4.459641518275539e-05,
+      "loss": 0.1732,
+      "step": 3690
+    },
+    {
+      "epoch": 1.7338331771321462,
+      "grad_norm": 1.2604060173034668,
+      "learning_rate": 4.458177132146205e-05,
+      "loss": 0.1824,
+      "step": 3700
+    },
+    {
+      "epoch": 1.7338331771321462,
+      "eval_loss": 0.03523562103509903,
+      "eval_pearson_cosine": 0.8246188621544412,
+      "eval_pearson_dot": 0.7566728482844667,
+      "eval_pearson_euclidean": 0.816607137727027,
+      "eval_pearson_manhattan": 0.8181353811719987,
+      "eval_runtime": 6.4257,
+      "eval_samples_per_second": 233.438,
+      "eval_spearman_cosine": 0.8251725549021353,
+      "eval_spearman_dot": 0.7553705266499796,
+      "eval_spearman_euclidean": 0.8232824851511874,
+      "eval_spearman_manhattan": 0.8242087634144919,
+      "eval_steps_per_second": 14.629,
+      "step": 3700
+    },
+    {
+      "epoch": 1.738519212746017,
+      "grad_norm": 1.4244945049285889,
+      "learning_rate": 4.45671274601687e-05,
+      "loss": 0.1704,
+      "step": 3710
+    },
+    {
+      "epoch": 1.7432052483598874,
+      "grad_norm": 1.5206220149993896,
+      "learning_rate": 4.455248359887536e-05,
+      "loss": 0.1921,
+      "step": 3720
+    },
+    {
+      "epoch": 1.7478912839737581,
+      "grad_norm": 1.596449375152588,
+      "learning_rate": 4.453783973758201e-05,
+      "loss": 0.1714,
+      "step": 3730
+    },
+    {
+      "epoch": 1.7525773195876289,
+      "grad_norm": 1.6774275302886963,
+      "learning_rate": 4.452319587628866e-05,
+      "loss": 0.1889,
+      "step": 3740
+    },
+    {
+      "epoch": 1.7572633552014996,
+      "grad_norm": 1.4467116594314575,
+      "learning_rate": 4.4508552014995314e-05,
+      "loss": 0.2031,
+      "step": 3750
+    },
+    {
+      "epoch": 1.7619493908153703,
+      "grad_norm": 1.722493290901184,
+      "learning_rate": 4.449390815370197e-05,
+      "loss": 0.1931,
+      "step": 3760
+    },
+    {
+      "epoch": 1.7666354264292408,
+      "grad_norm": 1.8555185794830322,
+      "learning_rate": 4.447926429240862e-05,
+      "loss": 0.211,
+      "step": 3770
+    },
+    {
+      "epoch": 1.7713214620431117,
+      "grad_norm": 1.5005462169647217,
+      "learning_rate": 4.4464620431115277e-05,
+      "loss": 0.1939,
+      "step": 3780
+    },
+    {
+      "epoch": 1.7760074976569822,
+      "grad_norm": 1.88517165184021,
+      "learning_rate": 4.444997656982193e-05,
+      "loss": 0.1868,
+      "step": 3790
+    },
+    {
+      "epoch": 1.780693533270853,
+      "grad_norm": 1.7735782861709595,
+      "learning_rate": 4.4435332708528585e-05,
+      "loss": 0.2009,
+      "step": 3800
+    },
+    {
+      "epoch": 1.780693533270853,
+      "eval_loss": 0.03577423095703125,
+      "eval_pearson_cosine": 0.8269622117688868,
+      "eval_pearson_dot": 0.7668511969090961,
+      "eval_pearson_euclidean": 0.8089875954267027,
+      "eval_pearson_manhattan": 0.8104624503351374,
+      "eval_runtime": 6.3923,
+      "eval_samples_per_second": 234.659,
+      "eval_spearman_cosine": 0.8277880382919593,
+      "eval_spearman_dot": 0.7654651690867051,
+      "eval_spearman_euclidean": 0.8164441074213089,
+      "eval_spearman_manhattan": 0.8181458418663312,
+      "eval_steps_per_second": 14.705,
+      "step": 3800
+    },
+    {
+      "epoch": 1.7853795688847236,
+      "grad_norm": 1.697729229927063,
+      "learning_rate": 4.442068884723524e-05,
+      "loss": 0.1902,
+      "step": 3810
+    },
+    {
+      "epoch": 1.790065604498594,
+      "grad_norm": 1.3950953483581543,
+      "learning_rate": 4.44060449859419e-05,
+      "loss": 0.1937,
+      "step": 3820
+    },
+    {
+      "epoch": 1.794751640112465,
+      "grad_norm": 2.385718584060669,
+      "learning_rate": 4.4391401124648555e-05,
+      "loss": 0.2259,
+      "step": 3830
+    },
+    {
+      "epoch": 1.7994376757263355,
+      "grad_norm": 1.0628514289855957,
+      "learning_rate": 4.43767572633552e-05,
+      "loss": 0.1611,
+      "step": 3840
+    },
+    {
+      "epoch": 1.8041237113402062,
+      "grad_norm": 1.6918362379074097,
+      "learning_rate": 4.4362113402061856e-05,
+      "loss": 0.1767,
+      "step": 3850
+    },
+    {
+      "epoch": 1.808809746954077,
+      "grad_norm": 1.2459661960601807,
+      "learning_rate": 4.434746954076851e-05,
+      "loss": 0.1477,
+      "step": 3860
+    },
+    {
+      "epoch": 1.8134957825679474,
+      "grad_norm": 1.2925353050231934,
+      "learning_rate": 4.4332825679475165e-05,
+      "loss": 0.1848,
+      "step": 3870
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 1.3787219524383545,
+      "learning_rate": 4.431818181818182e-05,
+      "loss": 0.2216,
+      "step": 3880
+    },
+    {
+      "epoch": 1.8228678537956888,
+      "grad_norm": 1.531141996383667,
+      "learning_rate": 4.4303537956888473e-05,
+      "loss": 0.2087,
+      "step": 3890
+    },
+    {
+      "epoch": 1.8275538894095595,
+      "grad_norm": 1.4053128957748413,
+      "learning_rate": 4.428889409559513e-05,
+      "loss": 0.1899,
+      "step": 3900
+    },
+    {
+      "epoch": 1.8275538894095595,
+      "eval_loss": 0.03851017728447914,
+      "eval_pearson_cosine": 0.8239765523882259,
+      "eval_pearson_dot": 0.7418402003946696,
+      "eval_pearson_euclidean": 0.8110650670007509,
+      "eval_pearson_manhattan": 0.8133011255650899,
+      "eval_runtime": 6.2641,
+      "eval_samples_per_second": 239.46,
+      "eval_spearman_cosine": 0.8252211874177356,
+      "eval_spearman_dot": 0.7383247864885149,
+      "eval_spearman_euclidean": 0.8180097764566381,
+      "eval_spearman_manhattan": 0.8202301926079525,
+      "eval_steps_per_second": 15.006,
+      "step": 3900
+    },
+    {
+      "epoch": 1.8322399250234302,
+      "grad_norm": 1.564635157585144,
+      "learning_rate": 4.427425023430178e-05,
+      "loss": 0.1912,
+      "step": 3910
+    },
+    {
+      "epoch": 1.8369259606373007,
+      "grad_norm": 1.525820255279541,
+      "learning_rate": 4.4259606373008436e-05,
+      "loss": 0.1725,
+      "step": 3920
+    },
+    {
+      "epoch": 1.8416119962511717,
+      "grad_norm": 1.6183199882507324,
+      "learning_rate": 4.424496251171509e-05,
+      "loss": 0.1771,
+      "step": 3930
+    },
+    {
+      "epoch": 1.8462980318650422,
+      "grad_norm": 1.614140510559082,
+      "learning_rate": 4.4230318650421745e-05,
+      "loss": 0.2085,
+      "step": 3940
+    },
+    {
+      "epoch": 1.8509840674789129,
+      "grad_norm": 1.6187098026275635,
+      "learning_rate": 4.42156747891284e-05,
+      "loss": 0.1841,
+      "step": 3950
+    },
+    {
+      "epoch": 1.8556701030927836,
+      "grad_norm": 1.9337131977081299,
+      "learning_rate": 4.4201030927835053e-05,
+      "loss": 0.1814,
+      "step": 3960
+    },
+    {
+      "epoch": 1.860356138706654,
+      "grad_norm": 1.4200247526168823,
+      "learning_rate": 4.418638706654171e-05,
+      "loss": 0.2138,
+      "step": 3970
+    },
+    {
+      "epoch": 1.865042174320525,
+      "grad_norm": 1.2319873571395874,
+      "learning_rate": 4.417174320524836e-05,
+      "loss": 0.1811,
+      "step": 3980
+    },
+    {
+      "epoch": 1.8697282099343955,
+      "grad_norm": 1.5090093612670898,
+      "learning_rate": 4.4157099343955016e-05,
+      "loss": 0.2013,
+      "step": 3990
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "grad_norm": 1.4747837781906128,
+      "learning_rate": 4.414245548266167e-05,
+      "loss": 0.1858,
+      "step": 4000
+    },
+    {
+      "epoch": 1.8744142455482662,
+      "eval_loss": 0.03368546813726425,
+      "eval_pearson_cosine": 0.8281146927252365,
+      "eval_pearson_dot": 0.761976509126896,
+      "eval_pearson_euclidean": 0.810243447652832,
+      "eval_pearson_manhattan": 0.8121517436135477,
+      "eval_runtime": 7.0014,
+      "eval_samples_per_second": 214.242,
+      "eval_spearman_cosine": 0.8273786901092443,
+      "eval_spearman_dot": 0.7590219133940205,
+      "eval_spearman_euclidean": 0.8180153411946929,
+      "eval_spearman_manhattan": 0.8198041702608989,
+      "eval_steps_per_second": 13.426,
+      "step": 4000
     }
   ],
   "logging_steps": 10,