Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +432 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52bd40e312864d51c8095645c37fe8af576516dc9f393de626a8443d07a0adff
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:0336b9d4a5405b35eb41810e914f8235995602c3b470eb98cb5172e5614a1617
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d3cdcded26c7cf7845b27eeae770160912071edb99917b5e8879b5d146204b1
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb14199c8ed85d5530890aaca81a88b88623101addc71c4dba17e1262410aecb
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e59fd29507b0a3f94de60acf1485068cfbd28d4220459a98545dc01f241293d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9819055317e0aa1215ad120239bc4cecc175225c0dc18c98ca0bffe9f465133f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aa7a9e3bf08de96609cd484c170a699c16678f8aed43f535a9ffcc2c3940322
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:7947fe218b4344129921368e2448c6474704c87d577f328a448eabc5c93d4cc3
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1715089034676662,
   "eval_steps": 100,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2157,6 +2157,436 @@
       "eval_spearman_manhattan": 0.8206493433328421,
       "eval_steps_per_second": 18.5,
       "step": 2500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4058106841611997,
   "eval_steps": 100,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8206493433328421,
       "eval_steps_per_second": 18.5,
       "step": 2500
+    },
+    {
+      "epoch": 1.176194939081537,
+      "grad_norm": 1.3612301349639893,
+      "learning_rate": 4.63243908153702e-05,
+      "loss": 0.1851,
+      "step": 2510
+    },
+    {
+      "epoch": 1.1808809746954076,
+      "grad_norm": 1.376557469367981,
+      "learning_rate": 4.630974695407685e-05,
+      "loss": 0.1848,
+      "step": 2520
+    },
+    {
+      "epoch": 1.1855670103092784,
+      "grad_norm": 1.7185298204421997,
+      "learning_rate": 4.6295103092783506e-05,
+      "loss": 0.1797,
+      "step": 2530
+    },
+    {
+      "epoch": 1.190253045923149,
+      "grad_norm": 1.4754388332366943,
+      "learning_rate": 4.628045923149017e-05,
+      "loss": 0.1684,
+      "step": 2540
+    },
+    {
+      "epoch": 1.1949390815370198,
+      "grad_norm": 1.6029070615768433,
+      "learning_rate": 4.6265815370196815e-05,
+      "loss": 0.2004,
+      "step": 2550
+    },
+    {
+      "epoch": 1.1996251171508903,
+      "grad_norm": 1.8501805067062378,
+      "learning_rate": 4.625117150890347e-05,
+      "loss": 0.1961,
+      "step": 2560
+    },
+    {
+      "epoch": 1.204311152764761,
+      "grad_norm": 1.721009373664856,
+      "learning_rate": 4.623652764761012e-05,
+      "loss": 0.2011,
+      "step": 2570
+    },
+    {
+      "epoch": 1.2089971883786317,
+      "grad_norm": 1.4581866264343262,
+      "learning_rate": 4.622188378631678e-05,
+      "loss": 0.1767,
+      "step": 2580
+    },
+    {
+      "epoch": 1.2136832239925024,
+      "grad_norm": 1.7804685831069946,
+      "learning_rate": 4.620723992502343e-05,
+      "loss": 0.2001,
+      "step": 2590
+    },
+    {
+      "epoch": 1.218369259606373,
+      "grad_norm": 1.4118379354476929,
+      "learning_rate": 4.6192596063730086e-05,
+      "loss": 0.1828,
+      "step": 2600
+    },
+    {
+      "epoch": 1.218369259606373,
+      "eval_loss": 0.03557514026761055,
+      "eval_pearson_cosine": 0.8245837692334135,
+      "eval_pearson_dot": 0.7684124588445229,
+      "eval_pearson_euclidean": 0.8153574244852146,
+      "eval_pearson_manhattan": 0.8162493723270217,
+      "eval_runtime": 5.8306,
+      "eval_samples_per_second": 257.263,
+      "eval_spearman_cosine": 0.8266121706817625,
+      "eval_spearman_dot": 0.7673501753109182,
+      "eval_spearman_euclidean": 0.8215235813615567,
+      "eval_spearman_manhattan": 0.8216899493490951,
+      "eval_steps_per_second": 16.122,
+      "step": 2600
+    },
+    {
+      "epoch": 1.2230552952202436,
+      "grad_norm": 2.07022762298584,
+      "learning_rate": 4.617795220243674e-05,
+      "loss": 0.2239,
+      "step": 2610
+    },
+    {
+      "epoch": 1.2277413308341143,
+      "grad_norm": 1.2374054193496704,
+      "learning_rate": 4.6163308341143395e-05,
+      "loss": 0.2037,
+      "step": 2620
+    },
+    {
+      "epoch": 1.232427366447985,
+      "grad_norm": 1.5975677967071533,
+      "learning_rate": 4.614866447985005e-05,
+      "loss": 0.178,
+      "step": 2630
+    },
+    {
+      "epoch": 1.2371134020618557,
+      "grad_norm": 1.7808302640914917,
+      "learning_rate": 4.61340206185567e-05,
+      "loss": 0.2349,
+      "step": 2640
+    },
+    {
+      "epoch": 1.2417994376757264,
+      "grad_norm": 1.4256142377853394,
+      "learning_rate": 4.611937675726336e-05,
+      "loss": 0.1775,
+      "step": 2650
+    },
+    {
+      "epoch": 1.246485473289597,
+      "grad_norm": 1.526659607887268,
+      "learning_rate": 4.610473289597001e-05,
+      "loss": 0.1929,
+      "step": 2660
+    },
+    {
+      "epoch": 1.2511715089034676,
+      "grad_norm": 1.5862327814102173,
+      "learning_rate": 4.6090089034676666e-05,
+      "loss": 0.1936,
+      "step": 2670
+    },
+    {
+      "epoch": 1.2558575445173383,
+      "grad_norm": 1.5287206172943115,
+      "learning_rate": 4.607544517338332e-05,
+      "loss": 0.2,
+      "step": 2680
+    },
+    {
+      "epoch": 1.260543580131209,
+      "grad_norm": 1.8908789157867432,
+      "learning_rate": 4.6060801312089974e-05,
+      "loss": 0.181,
+      "step": 2690
+    },
+    {
+      "epoch": 1.2652296157450795,
+      "grad_norm": 1.5627946853637695,
+      "learning_rate": 4.604615745079663e-05,
+      "loss": 0.2069,
+      "step": 2700
+    },
+    {
+      "epoch": 1.2652296157450795,
+      "eval_loss": 0.036834895610809326,
+      "eval_pearson_cosine": 0.81713630802534,
+      "eval_pearson_dot": 0.7548895992723743,
+      "eval_pearson_euclidean": 0.8115847405548919,
+      "eval_pearson_manhattan": 0.8127917876351205,
+      "eval_runtime": 4.9833,
+      "eval_samples_per_second": 301.004,
+      "eval_spearman_cosine": 0.8195765518778169,
+      "eval_spearman_dot": 0.7543605112183749,
+      "eval_spearman_euclidean": 0.8179210742039561,
+      "eval_spearman_manhattan": 0.8186720969386952,
+      "eval_steps_per_second": 18.863,
+      "step": 2700
+    },
+    {
+      "epoch": 1.2699156513589505,
+      "grad_norm": 1.3397817611694336,
+      "learning_rate": 4.603151358950328e-05,
+      "loss": 0.1853,
+      "step": 2710
+    },
+    {
+      "epoch": 1.274601686972821,
+      "grad_norm": 1.2182811498641968,
+      "learning_rate": 4.601686972820994e-05,
+      "loss": 0.1605,
+      "step": 2720
+    },
+    {
+      "epoch": 1.2792877225866917,
+      "grad_norm": 1.3814051151275635,
+      "learning_rate": 4.600222586691659e-05,
+      "loss": 0.1891,
+      "step": 2730
+    },
+    {
+      "epoch": 1.2839737582005624,
+      "grad_norm": 1.5402768850326538,
+      "learning_rate": 4.5987582005623246e-05,
+      "loss": 0.2003,
+      "step": 2740
+    },
+    {
+      "epoch": 1.2886597938144329,
+      "grad_norm": 2.1603922843933105,
+      "learning_rate": 4.59729381443299e-05,
+      "loss": 0.2135,
+      "step": 2750
+    },
+    {
+      "epoch": 1.2933458294283038,
+      "grad_norm": 1.5168280601501465,
+      "learning_rate": 4.5958294283036554e-05,
+      "loss": 0.2082,
+      "step": 2760
+    },
+    {
+      "epoch": 1.2980318650421743,
+      "grad_norm": 1.4614285230636597,
+      "learning_rate": 4.594365042174321e-05,
+      "loss": 0.1666,
+      "step": 2770
+    },
+    {
+      "epoch": 1.302717900656045,
+      "grad_norm": 1.7025336027145386,
+      "learning_rate": 4.592900656044986e-05,
+      "loss": 0.1968,
+      "step": 2780
+    },
+    {
+      "epoch": 1.3074039362699157,
+      "grad_norm": 1.6786755323410034,
+      "learning_rate": 4.591436269915652e-05,
+      "loss": 0.1807,
+      "step": 2790
+    },
+    {
+      "epoch": 1.3120899718837864,
+      "grad_norm": 1.3550318479537964,
+      "learning_rate": 4.589971883786317e-05,
+      "loss": 0.1957,
+      "step": 2800
+    },
+    {
+      "epoch": 1.3120899718837864,
+      "eval_loss": 0.039760004729032516,
+      "eval_pearson_cosine": 0.8185279801679428,
+      "eval_pearson_dot": 0.747374497646847,
+      "eval_pearson_euclidean": 0.816034100619575,
+      "eval_pearson_manhattan": 0.8168064451822818,
+      "eval_runtime": 6.0018,
+      "eval_samples_per_second": 249.926,
+      "eval_spearman_cosine": 0.8216325084204806,
+      "eval_spearman_dot": 0.7458600705129738,
+      "eval_spearman_euclidean": 0.8234026528716193,
+      "eval_spearman_manhattan": 0.8240265815824191,
+      "eval_steps_per_second": 15.662,
+      "step": 2800
+    },
+    {
+      "epoch": 1.316776007497657,
+      "grad_norm": 1.5915249586105347,
+      "learning_rate": 4.5885074976569826e-05,
+      "loss": 0.1972,
+      "step": 2810
+    },
+    {
+      "epoch": 1.3214620431115276,
+      "grad_norm": 1.377953290939331,
+      "learning_rate": 4.587043111527648e-05,
+      "loss": 0.178,
+      "step": 2820
+    },
+    {
+      "epoch": 1.3261480787253983,
+      "grad_norm": 1.458254337310791,
+      "learning_rate": 4.5855787253983134e-05,
+      "loss": 0.1795,
+      "step": 2830
+    },
+    {
+      "epoch": 1.330834114339269,
+      "grad_norm": 1.6020787954330444,
+      "learning_rate": 4.584114339268979e-05,
+      "loss": 0.1925,
+      "step": 2840
+    },
+    {
+      "epoch": 1.3355201499531397,
+      "grad_norm": 1.5305688381195068,
+      "learning_rate": 4.5826499531396436e-05,
+      "loss": 0.1764,
+      "step": 2850
+    },
+    {
+      "epoch": 1.3402061855670104,
+      "grad_norm": 1.6562731266021729,
+      "learning_rate": 4.581185567010309e-05,
+      "loss": 0.1838,
+      "step": 2860
+    },
+    {
+      "epoch": 1.344892221180881,
+      "grad_norm": 1.2753900289535522,
+      "learning_rate": 4.5797211808809745e-05,
+      "loss": 0.1814,
+      "step": 2870
+    },
+    {
+      "epoch": 1.3495782567947516,
+      "grad_norm": 1.702071189880371,
+      "learning_rate": 4.5782567947516406e-05,
+      "loss": 0.1946,
+      "step": 2880
+    },
+    {
+      "epoch": 1.3542642924086223,
+      "grad_norm": 1.2827301025390625,
+      "learning_rate": 4.576792408622306e-05,
+      "loss": 0.1597,
+      "step": 2890
+    },
+    {
+      "epoch": 1.358950328022493,
+      "grad_norm": 1.7702302932739258,
+      "learning_rate": 4.5753280224929714e-05,
+      "loss": 0.1917,
+      "step": 2900
+    },
+    {
+      "epoch": 1.358950328022493,
+      "eval_loss": 0.03551251068711281,
+      "eval_pearson_cosine": 0.8240420723863338,
+      "eval_pearson_dot": 0.7591715678324817,
+      "eval_pearson_euclidean": 0.8108149056355918,
+      "eval_pearson_manhattan": 0.8124676242018225,
+      "eval_runtime": 6.0763,
+      "eval_samples_per_second": 246.859,
+      "eval_spearman_cosine": 0.8255553040970393,
+      "eval_spearman_dot": 0.7606600789247023,
+      "eval_spearman_euclidean": 0.8186055770843518,
+      "eval_spearman_manhattan": 0.8199282003068918,
+      "eval_steps_per_second": 15.47,
+      "step": 2900
+    },
+    {
+      "epoch": 1.3636363636363638,
+      "grad_norm": 1.4522427320480347,
+      "learning_rate": 4.573863636363637e-05,
+      "loss": 0.1994,
+      "step": 2910
+    },
+    {
+      "epoch": 1.3683223992502342,
+      "grad_norm": 1.6747633218765259,
+      "learning_rate": 4.572399250234302e-05,
+      "loss": 0.1608,
+      "step": 2920
+    },
+    {
+      "epoch": 1.373008434864105,
+      "grad_norm": 1.9356324672698975,
+      "learning_rate": 4.570934864104968e-05,
+      "loss": 0.2216,
+      "step": 2930
+    },
+    {
+      "epoch": 1.3776944704779757,
+      "grad_norm": 1.3150924444198608,
+      "learning_rate": 4.569470477975633e-05,
+      "loss": 0.1755,
+      "step": 2940
+    },
+    {
+      "epoch": 1.3823805060918464,
+      "grad_norm": 1.466535210609436,
+      "learning_rate": 4.568006091846298e-05,
+      "loss": 0.2097,
+      "step": 2950
+    },
+    {
+      "epoch": 1.387066541705717,
+      "grad_norm": 1.5124356746673584,
+      "learning_rate": 4.566541705716963e-05,
+      "loss": 0.1874,
+      "step": 2960
+    },
+    {
+      "epoch": 1.3917525773195876,
+      "grad_norm": 1.4657456874847412,
+      "learning_rate": 4.565077319587629e-05,
+      "loss": 0.1818,
+      "step": 2970
+    },
+    {
+      "epoch": 1.3964386129334583,
+      "grad_norm": 1.0131442546844482,
+      "learning_rate": 4.563612933458294e-05,
+      "loss": 0.2018,
+      "step": 2980
+    },
+    {
+      "epoch": 1.401124648547329,
+      "grad_norm": 1.6073145866394043,
+      "learning_rate": 4.5621485473289596e-05,
+      "loss": 0.1823,
+      "step": 2990
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "grad_norm": 1.0797163248062134,
+      "learning_rate": 4.560684161199626e-05,
+      "loss": 0.1944,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4058106841611997,
+      "eval_loss": 0.03550059348344803,
+      "eval_pearson_cosine": 0.8271464556841153,
+      "eval_pearson_dot": 0.7621466950928664,
+      "eval_pearson_euclidean": 0.8148266069217982,
+      "eval_pearson_manhattan": 0.8163309873805886,
+      "eval_runtime": 6.1003,
+      "eval_samples_per_second": 245.888,
+      "eval_spearman_cosine": 0.8292279657552445,
+      "eval_spearman_dot": 0.7643385930827495,
+      "eval_spearman_euclidean": 0.822998286159295,
+      "eval_spearman_manhattan": 0.8242741076199507,
+      "eval_steps_per_second": 15.409,
+      "step": 3000
     }
   ],
   "logging_steps": 10,