rbelanec
/

train_cb_101112_1760637982

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:757ee9eabfa88efc9505aa7cea3a9ba0e66aa754d02f554701bef5d68a107952
 size 1638528

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bae98b5e45ddcd99ce915bd3845558168d9e03e608a6c09abf6e83e32824716
 size 1638528

trainer_log.jsonl CHANGED Viewed

@@ -235,3 +235,15 @@
 {"current_steps": 1083, "total_steps": 1140, "eval_loss": 0.005799786187708378, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:04:30", "remaining_time": "0:00:14", "throughput": 2544.64, "total_tokens": 687976}
 {"current_steps": 1085, "total_steps": 1140, "loss": 0.0006, "lr": 7.332578507216469e-06, "epoch": 19.035087719298247, "percentage": 95.18, "elapsed_time": "0:04:31", "remaining_time": "0:00:13", "throughput": 2536.27, "total_tokens": 689128}
 {"current_steps": 1090, "total_steps": 1140, "loss": 0.0009, "lr": 6.084188161890325e-06, "epoch": 19.12280701754386, "percentage": 95.61, "elapsed_time": "0:04:32", "remaining_time": "0:00:12", "throughput": 2537.17, "total_tokens": 692136}

 {"current_steps": 1083, "total_steps": 1140, "eval_loss": 0.005799786187708378, "epoch": 19.0, "percentage": 95.0, "elapsed_time": "0:04:30", "remaining_time": "0:00:14", "throughput": 2544.64, "total_tokens": 687976}
 {"current_steps": 1085, "total_steps": 1140, "loss": 0.0006, "lr": 7.332578507216469e-06, "epoch": 19.035087719298247, "percentage": 95.18, "elapsed_time": "0:04:31", "remaining_time": "0:00:13", "throughput": 2536.27, "total_tokens": 689128}
 {"current_steps": 1090, "total_steps": 1140, "loss": 0.0009, "lr": 6.084188161890325e-06, "epoch": 19.12280701754386, "percentage": 95.61, "elapsed_time": "0:04:32", "remaining_time": "0:00:12", "throughput": 2537.17, "total_tokens": 692136}
+{"current_steps": 1095, "total_steps": 1140, "loss": 0.0007, "lr": 4.95156606941688e-06, "epoch": 19.210526315789473, "percentage": 96.05, "elapsed_time": "0:04:33", "remaining_time": "0:00:11", "throughput": 2538.04, "total_tokens": 695112}
+{"current_steps": 1100, "total_steps": 1140, "loss": 0.0005, "lr": 3.9349777035421194e-06, "epoch": 19.29824561403509, "percentage": 96.49, "elapsed_time": "0:04:35", "remaining_time": "0:00:10", "throughput": 2540.01, "total_tokens": 698600}
+{"current_steps": 1105, "total_steps": 1140, "loss": 0.0014, "lr": 3.034661341025258e-06, "epoch": 19.385964912280702, "percentage": 96.93, "elapsed_time": "0:04:36", "remaining_time": "0:00:08", "throughput": 2541.14, "total_tokens": 701640}
+{"current_steps": 1110, "total_steps": 1140, "loss": 0.0006, "lr": 2.250828005789518e-06, "epoch": 19.473684210526315, "percentage": 97.37, "elapsed_time": "0:04:37", "remaining_time": "0:00:07", "throughput": 2541.8, "total_tokens": 704488}
+{"current_steps": 1115, "total_steps": 1140, "loss": 0.0007, "lr": 1.5836614194602028e-06, "epoch": 19.56140350877193, "percentage": 97.81, "elapsed_time": "0:04:38", "remaining_time": "0:00:06", "throughput": 2543.45, "total_tokens": 707848}
+{"current_steps": 1120, "total_steps": 1140, "loss": 0.0005, "lr": 1.033317958302693e-06, "epoch": 19.649122807017545, "percentage": 98.25, "elapsed_time": "0:04:39", "remaining_time": "0:00:04", "throughput": 2545.03, "total_tokens": 711112}
+{"current_steps": 1125, "total_steps": 1140, "loss": 0.0008, "lr": 5.999266165694906e-07, "epoch": 19.736842105263158, "percentage": 98.68, "elapsed_time": "0:04:40", "remaining_time": "0:00:03", "throughput": 2546.44, "total_tokens": 714344}
+{"current_steps": 1130, "total_steps": 1140, "loss": 0.0006, "lr": 2.8358897626556966e-07, "epoch": 19.82456140350877, "percentage": 99.12, "elapsed_time": "0:04:41", "remaining_time": "0:00:02", "throughput": 2549.35, "total_tokens": 718280}
+{"current_steps": 1135, "total_steps": 1140, "loss": 0.0008, "lr": 8.437918333864537e-08, "epoch": 19.912280701754387, "percentage": 99.56, "elapsed_time": "0:04:42", "remaining_time": "0:00:01", "throughput": 2549.69, "total_tokens": 720968}
+{"current_steps": 1140, "total_steps": 1140, "loss": 0.0019, "lr": 2.343930299963937e-09, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:43", "remaining_time": "0:00:00", "throughput": 2549.99, "total_tokens": 723584}
+{"current_steps": 1140, "total_steps": 1140, "eval_loss": 0.00623272405937314, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:44", "remaining_time": "0:00:00", "throughput": 2543.09, "total_tokens": 723584}
+{"current_steps": 1140, "total_steps": 1140, "epoch": 20.0, "percentage": 100.0, "elapsed_time": "0:04:45", "remaining_time": "0:00:00", "throughput": 2536.37, "total_tokens": 723584}