rbelanec
/

train_copa_456_1760637763

@@ -360,3 +360,22 @@
 {"current_steps": 1710, "total_steps": 1800, "loss": 0.2756, "lr": 3.88271165317694e-07, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:03:59", "remaining_time": "0:00:12", "throughput": 2236.23, "total_tokens": 534528}
 {"current_steps": 1710, "total_steps": 1800, "eval_loss": 0.3642454743385315, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:03:59", "remaining_time": "0:00:12", "throughput": 2231.56, "total_tokens": 534528}
 {"current_steps": 1715, "total_steps": 1800, "loss": 0.5039, "lr": 3.468724188498751e-07, "epoch": 19.055555555555557, "percentage": 95.28, "elapsed_time": "0:04:01", "remaining_time": "0:00:11", "throughput": 2223.0, "total_tokens": 536064}

 {"current_steps": 1710, "total_steps": 1800, "loss": 0.2756, "lr": 3.88271165317694e-07, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:03:59", "remaining_time": "0:00:12", "throughput": 2236.23, "total_tokens": 534528}
 {"current_steps": 1710, "total_steps": 1800, "eval_loss": 0.3642454743385315, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:03:59", "remaining_time": "0:00:12", "throughput": 2231.56, "total_tokens": 534528}
 {"current_steps": 1715, "total_steps": 1800, "loss": 0.5039, "lr": 3.468724188498751e-07, "epoch": 19.055555555555557, "percentage": 95.28, "elapsed_time": "0:04:01", "remaining_time": "0:00:11", "throughput": 2223.0, "total_tokens": 536064}
+{"current_steps": 1720, "total_steps": 1800, "loss": 0.364, "lr": 3.077914851215585e-07, "epoch": 19.11111111111111, "percentage": 95.56, "elapsed_time": "0:04:01", "remaining_time": "0:00:11", "throughput": 2223.56, "total_tokens": 537600}
+{"current_steps": 1725, "total_steps": 1800, "loss": 0.3894, "lr": 2.71032038404323e-07, "epoch": 19.166666666666668, "percentage": 95.83, "elapsed_time": "0:04:02", "remaining_time": "0:00:10", "throughput": 2224.35, "total_tokens": 539168}
+{"current_steps": 1730, "total_steps": 1800, "loss": 0.2489, "lr": 2.365975347105448e-07, "epoch": 19.22222222222222, "percentage": 96.11, "elapsed_time": "0:04:03", "remaining_time": "0:00:09", "throughput": 2225.03, "total_tokens": 540704}
+{"current_steps": 1735, "total_steps": 1800, "loss": 0.3602, "lr": 2.0449121146845774e-07, "epoch": 19.27777777777778, "percentage": 96.39, "elapsed_time": "0:04:03", "remaining_time": "0:00:09", "throughput": 2225.94, "total_tokens": 542304}
+{"current_steps": 1740, "total_steps": 1800, "loss": 0.5902, "lr": 1.747160872177883e-07, "epoch": 19.333333333333332, "percentage": 96.67, "elapsed_time": "0:04:04", "remaining_time": "0:00:08", "throughput": 2226.85, "total_tokens": 543904}
+{"current_steps": 1745, "total_steps": 1800, "loss": 0.3497, "lr": 1.472749613259661e-07, "epoch": 19.38888888888889, "percentage": 96.94, "elapsed_time": "0:04:04", "remaining_time": "0:00:07", "throughput": 2227.63, "total_tokens": 545472}
+{"current_steps": 1750, "total_steps": 1800, "loss": 0.2054, "lr": 1.22170413724923e-07, "epoch": 19.444444444444443, "percentage": 97.22, "elapsed_time": "0:04:05", "remaining_time": "0:00:07", "throughput": 2228.41, "total_tokens": 547040}
+{"current_steps": 1755, "total_steps": 1800, "loss": 0.3082, "lr": 9.940480466855417e-08, "epoch": 19.5, "percentage": 97.5, "elapsed_time": "0:04:06", "remaining_time": "0:00:06", "throughput": 2229.19, "total_tokens": 548608}
+{"current_steps": 1760, "total_steps": 1800, "loss": 0.2985, "lr": 7.898027451078982e-08, "epoch": 19.555555555555557, "percentage": 97.78, "elapsed_time": "0:04:06", "remaining_time": "0:00:05", "throughput": 2229.85, "total_tokens": 550144}
+{"current_steps": 1765, "total_steps": 1800, "loss": 0.3387, "lr": 6.089874350439506e-08, "epoch": 19.61111111111111, "percentage": 98.06, "elapsed_time": "0:04:07", "remaining_time": "0:00:04", "throughput": 2230.74, "total_tokens": 551744}
+{"current_steps": 1770, "total_steps": 1800, "loss": 0.4676, "lr": 4.516191162040051e-08, "epoch": 19.666666666666668, "percentage": 98.33, "elapsed_time": "0:04:07", "remaining_time": "0:00:04", "throughput": 2231.62, "total_tokens": 553344}
+{"current_steps": 1775, "total_steps": 1800, "loss": 0.3552, "lr": 3.177125838830786e-08, "epoch": 19.72222222222222, "percentage": 98.61, "elapsed_time": "0:04:08", "remaining_time": "0:00:03", "throughput": 2232.25, "total_tokens": 554880}
+{"current_steps": 1780, "total_steps": 1800, "loss": 0.3389, "lr": 2.0728042756967824e-08, "epoch": 19.77777777777778, "percentage": 98.89, "elapsed_time": "0:04:09", "remaining_time": "0:00:02", "throughput": 2232.98, "total_tokens": 556448}
+{"current_steps": 1785, "total_steps": 1800, "loss": 0.2984, "lr": 1.2033302976222071e-08, "epoch": 19.833333333333332, "percentage": 99.17, "elapsed_time": "0:04:09", "remaining_time": "0:00:02", "throughput": 2233.57, "total_tokens": 557984}
+{"current_steps": 1790, "total_steps": 1800, "loss": 0.2776, "lr": 5.687856499297928e-09, "epoch": 19.88888888888889, "percentage": 99.44, "elapsed_time": "0:04:10", "remaining_time": "0:00:01", "throughput": 2234.32, "total_tokens": 559584}
+{"current_steps": 1795, "total_steps": 1800, "loss": 0.2722, "lr": 1.692299905944883e-09, "epoch": 19.944444444444443, "percentage": 99.72, "elapsed_time": "0:04:11", "remaining_time": "0:00:00", "throughput": 2235.05, "total_tokens": 561152}
+{"current_steps": 1800, "total_steps": 1800, "loss": 0.2657, "lr": 4.700884634611935e-11, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:11", "remaining_time": "0:00:00", "throughput": 2235.47, "total_tokens": 562720}
+{"current_steps": 1800, "total_steps": 1800, "eval_loss": 0.3741356432437897, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:12", "remaining_time": "0:00:00", "throughput": 2231.02, "total_tokens": 562720}
+{"current_steps": 1800, "total_steps": 1800, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:12", "remaining_time": "0:00:00", "throughput": 2224.64, "total_tokens": 562720}