rbelanec
/

train_copa_42_1760623607

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b11d3a9a2a842a520b886e6e97ad628f8358a47d566c22f8772acf50037ab63
 size 58745928

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b0443b9b135f0a9747f74e9ff6f5b14c6630b525f4dd33bf72233c83c38e3d8
 size 58745928

trainer_log.jsonl CHANGED Viewed

@@ -121,3 +121,21 @@
 {"current_steps": 575, "total_steps": 1800, "loss": 0.0, "lr": 4.305071555472534e-05, "epoch": 6.388888888888889, "percentage": 31.94, "elapsed_time": "0:02:11", "remaining_time": "0:04:39", "throughput": 1376.35, "total_tokens": 180480}
 {"current_steps": 580, "total_steps": 1800, "loss": 0.0, "lr": 4.288215727665129e-05, "epoch": 6.444444444444445, "percentage": 32.22, "elapsed_time": "0:02:12", "remaining_time": "0:04:37", "throughput": 1377.79, "total_tokens": 182048}
 {"current_steps": 585, "total_steps": 1800, "loss": 0.0, "lr": 4.2711917772055e-05, "epoch": 6.5, "percentage": 32.5, "elapsed_time": "0:02:13", "remaining_time": "0:04:36", "throughput": 1379.4, "total_tokens": 183648}

 {"current_steps": 575, "total_steps": 1800, "loss": 0.0, "lr": 4.305071555472534e-05, "epoch": 6.388888888888889, "percentage": 31.94, "elapsed_time": "0:02:11", "remaining_time": "0:04:39", "throughput": 1376.35, "total_tokens": 180480}
 {"current_steps": 580, "total_steps": 1800, "loss": 0.0, "lr": 4.288215727665129e-05, "epoch": 6.444444444444445, "percentage": 32.22, "elapsed_time": "0:02:12", "remaining_time": "0:04:37", "throughput": 1377.79, "total_tokens": 182048}
 {"current_steps": 585, "total_steps": 1800, "loss": 0.0, "lr": 4.2711917772055e-05, "epoch": 6.5, "percentage": 32.5, "elapsed_time": "0:02:13", "remaining_time": "0:04:36", "throughput": 1379.4, "total_tokens": 183648}
+{"current_steps": 590, "total_steps": 1800, "loss": 0.0, "lr": 4.254001304634151e-05, "epoch": 6.555555555555555, "percentage": 32.78, "elapsed_time": "0:02:14", "remaining_time": "0:04:35", "throughput": 1381.13, "total_tokens": 185248}
+{"current_steps": 595, "total_steps": 1800, "loss": 0.0, "lr": 4.2366459261474933e-05, "epoch": 6.611111111111111, "percentage": 33.06, "elapsed_time": "0:02:15", "remaining_time": "0:04:33", "throughput": 1381.92, "total_tokens": 186720}
+{"current_steps": 600, "total_steps": 1800, "loss": 0.0, "lr": 4.2191272734458955e-05, "epoch": 6.666666666666667, "percentage": 33.33, "elapsed_time": "0:02:16", "remaining_time": "0:04:32", "throughput": 1383.42, "total_tokens": 188288}
+{"current_steps": 605, "total_steps": 1800, "loss": 0.0, "lr": 4.201446993580276e-05, "epoch": 6.722222222222222, "percentage": 33.61, "elapsed_time": "0:02:17", "remaining_time": "0:04:30", "throughput": 1385.17, "total_tokens": 189888}
+{"current_steps": 610, "total_steps": 1800, "loss": 0.0, "lr": 4.183606748797251e-05, "epoch": 6.777777777777778, "percentage": 33.89, "elapsed_time": "0:02:18", "remaining_time": "0:04:29", "throughput": 1386.36, "total_tokens": 191424}
+{"current_steps": 615, "total_steps": 1800, "loss": 0.0, "lr": 4.1656082163828566e-05, "epoch": 6.833333333333333, "percentage": 34.17, "elapsed_time": "0:02:19", "remaining_time": "0:04:27", "throughput": 1388.26, "total_tokens": 193056}
+{"current_steps": 620, "total_steps": 1800, "loss": 0.0, "lr": 4.147453088504854e-05, "epoch": 6.888888888888889, "percentage": 34.44, "elapsed_time": "0:02:20", "remaining_time": "0:04:26", "throughput": 1389.47, "total_tokens": 194592}
+{"current_steps": 625, "total_steps": 1800, "loss": 0.0, "lr": 4.129143072053638e-05, "epoch": 6.944444444444445, "percentage": 34.72, "elapsed_time": "0:02:21", "remaining_time": "0:04:25", "throughput": 1391.08, "total_tokens": 196192}
+{"current_steps": 630, "total_steps": 1800, "loss": 0.0, "lr": 4.110679888481763e-05, "epoch": 7.0, "percentage": 35.0, "elapsed_time": "0:02:22", "remaining_time": "0:04:23", "throughput": 1392.35, "total_tokens": 197792}
+{"current_steps": 630, "total_steps": 1800, "eval_loss": 0.09356953203678131, "epoch": 7.0, "percentage": 35.0, "elapsed_time": "0:02:22", "remaining_time": "0:04:24", "throughput": 1386.4, "total_tokens": 197792}
+{"current_steps": 635, "total_steps": 1800, "loss": 0.0, "lr": 4.09206527364209e-05, "epoch": 7.055555555555555, "percentage": 35.28, "elapsed_time": "0:02:25", "remaining_time": "0:04:27", "throughput": 1367.14, "total_tokens": 199392}
+{"current_steps": 640, "total_steps": 1800, "loss": 0.0, "lr": 4.073300977624594e-05, "epoch": 7.111111111111111, "percentage": 35.56, "elapsed_time": "0:02:26", "remaining_time": "0:04:26", "throughput": 1368.63, "total_tokens": 200992}
+{"current_steps": 645, "total_steps": 1800, "loss": 0.0, "lr": 4.054388764591822e-05, "epoch": 7.166666666666667, "percentage": 35.83, "elapsed_time": "0:02:27", "remaining_time": "0:04:24", "throughput": 1370.12, "total_tokens": 202592}
+{"current_steps": 650, "total_steps": 1800, "loss": 0.0, "lr": 4.035330412613035e-05, "epoch": 7.222222222222222, "percentage": 36.11, "elapsed_time": "0:02:29", "remaining_time": "0:04:24", "throughput": 1367.41, "total_tokens": 204064}
+{"current_steps": 655, "total_steps": 1800, "loss": 0.0, "lr": 4.0161277134970345e-05, "epoch": 7.277777777777778, "percentage": 36.39, "elapsed_time": "0:02:30", "remaining_time": "0:04:22", "throughput": 1368.95, "total_tokens": 205664}
+{"current_steps": 660, "total_steps": 1800, "loss": 0.0, "lr": 3.996782472623705e-05, "epoch": 7.333333333333333, "percentage": 36.67, "elapsed_time": "0:02:31", "remaining_time": "0:04:21", "throughput": 1370.5, "total_tokens": 207264}
+{"current_steps": 665, "total_steps": 1800, "loss": 0.0, "lr": 3.977296508774278e-05, "epoch": 7.388888888888889, "percentage": 36.94, "elapsed_time": "0:02:32", "remaining_time": "0:04:19", "throughput": 1371.91, "total_tokens": 208832}
+{"current_steps": 670, "total_steps": 1800, "loss": 0.0, "lr": 3.957671653960337e-05, "epoch": 7.444444444444445, "percentage": 37.22, "elapsed_time": "0:02:33", "remaining_time": "0:04:18", "throughput": 1373.09, "total_tokens": 210368}