rbelanec
/

train_copa_42_1760623607

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22a206e11c03b43cd0053b7f9522719606dc0dc991af01ae82bdf484bf45be83
 size 58745928

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c188fc63bbb131a8476cae6f99f9ace622cc6e99dd61c04b1b4651729ff1671
 size 58745928

trainer_log.jsonl CHANGED Viewed

@@ -255,3 +255,22 @@
 {"current_steps": 1210, "total_steps": 1800, "loss": 0.0, "lr": 1.4698886953328292e-05, "epoch": 13.444444444444445, "percentage": 67.22, "elapsed_time": "0:04:36", "remaining_time": "0:02:14", "throughput": 1371.86, "total_tokens": 379424}
 {"current_steps": 1215, "total_steps": 1800, "loss": 0.0, "lr": 1.4478502337184274e-05, "epoch": 13.5, "percentage": 67.5, "elapsed_time": "0:04:37", "remaining_time": "0:02:13", "throughput": 1372.6, "total_tokens": 380992}
 {"current_steps": 1220, "total_steps": 1800, "loss": 0.0, "lr": 1.4259106920533955e-05, "epoch": 13.555555555555555, "percentage": 67.78, "elapsed_time": "0:04:38", "remaining_time": "0:02:12", "throughput": 1373.41, "total_tokens": 382592}

 {"current_steps": 1210, "total_steps": 1800, "loss": 0.0, "lr": 1.4698886953328292e-05, "epoch": 13.444444444444445, "percentage": 67.22, "elapsed_time": "0:04:36", "remaining_time": "0:02:14", "throughput": 1371.86, "total_tokens": 379424}
 {"current_steps": 1215, "total_steps": 1800, "loss": 0.0, "lr": 1.4478502337184274e-05, "epoch": 13.5, "percentage": 67.5, "elapsed_time": "0:04:37", "remaining_time": "0:02:13", "throughput": 1372.6, "total_tokens": 380992}
 {"current_steps": 1220, "total_steps": 1800, "loss": 0.0, "lr": 1.4259106920533955e-05, "epoch": 13.555555555555555, "percentage": 67.78, "elapsed_time": "0:04:38", "remaining_time": "0:02:12", "throughput": 1373.41, "total_tokens": 382592}
+{"current_steps": 1225, "total_steps": 1800, "loss": 0.0, "lr": 1.4040721330273062e-05, "epoch": 13.61111111111111, "percentage": 68.06, "elapsed_time": "0:04:39", "remaining_time": "0:02:11", "throughput": 1374.18, "total_tokens": 384192}
+{"current_steps": 1230, "total_steps": 1800, "loss": 0.0, "lr": 1.3823366098356487e-05, "epoch": 13.666666666666666, "percentage": 68.33, "elapsed_time": "0:04:40", "remaining_time": "0:02:10", "throughput": 1374.93, "total_tokens": 385760}
+{"current_steps": 1235, "total_steps": 1800, "loss": 0.0, "lr": 1.3607061659867892e-05, "epoch": 13.722222222222221, "percentage": 68.61, "elapsed_time": "0:04:41", "remaining_time": "0:02:08", "throughput": 1375.67, "total_tokens": 387328}
+{"current_steps": 1240, "total_steps": 1800, "loss": 0.0, "lr": 1.3391828351098578e-05, "epoch": 13.777777777777779, "percentage": 68.89, "elapsed_time": "0:04:42", "remaining_time": "0:02:07", "throughput": 1376.41, "total_tokens": 388896}
+{"current_steps": 1245, "total_steps": 1800, "loss": 0.0, "lr": 1.3177686407635417e-05, "epoch": 13.833333333333334, "percentage": 69.17, "elapsed_time": "0:04:43", "remaining_time": "0:02:06", "throughput": 1377.29, "total_tokens": 390496}
+{"current_steps": 1250, "total_steps": 1800, "loss": 0.0, "lr": 1.29646559624584e-05, "epoch": 13.88888888888889, "percentage": 69.44, "elapsed_time": "0:04:44", "remaining_time": "0:02:05", "throughput": 1378.0, "total_tokens": 392064}
+{"current_steps": 1255, "total_steps": 1800, "loss": 0.0, "lr": 1.2752757044047827e-05, "epoch": 13.944444444444445, "percentage": 69.72, "elapsed_time": "0:04:45", "remaining_time": "0:02:03", "throughput": 1378.69, "total_tokens": 393632}
+{"current_steps": 1260, "total_steps": 1800, "loss": 0.0, "lr": 1.2542009574501246e-05, "epoch": 14.0, "percentage": 70.0, "elapsed_time": "0:04:46", "remaining_time": "0:02:02", "throughput": 1378.9, "total_tokens": 395104}
+{"current_steps": 1260, "total_steps": 1800, "eval_loss": 0.1015445813536644, "epoch": 14.0, "percentage": 70.0, "elapsed_time": "0:04:47", "remaining_time": "0:02:03", "throughput": 1376.01, "total_tokens": 395104}
+{"current_steps": 1265, "total_steps": 1800, "loss": 0.0, "lr": 1.2332433367660442e-05, "epoch": 14.055555555555555, "percentage": 70.28, "elapsed_time": "0:04:49", "remaining_time": "0:02:02", "throughput": 1369.69, "total_tokens": 396672}
+{"current_steps": 1270, "total_steps": 1800, "loss": 0.0, "lr": 1.2124048127248644e-05, "epoch": 14.11111111111111, "percentage": 70.56, "elapsed_time": "0:04:50", "remaining_time": "0:02:01", "throughput": 1370.55, "total_tokens": 398304}
+{"current_steps": 1275, "total_steps": 1800, "loss": 0.0, "lr": 1.1916873445017982e-05, "epoch": 14.166666666666666, "percentage": 70.83, "elapsed_time": "0:04:51", "remaining_time": "0:02:00", "throughput": 1371.09, "total_tokens": 399840}
+{"current_steps": 1280, "total_steps": 1800, "loss": 0.0, "lr": 1.1710928798907556e-05, "epoch": 14.222222222222221, "percentage": 71.11, "elapsed_time": "0:04:53", "remaining_time": "0:01:59", "throughput": 1370.07, "total_tokens": 401440}
+{"current_steps": 1285, "total_steps": 1800, "loss": 0.0, "lr": 1.1506233551212186e-05, "epoch": 14.277777777777779, "percentage": 71.39, "elapsed_time": "0:04:54", "remaining_time": "0:01:57", "throughput": 1370.86, "total_tokens": 403040}
+{"current_steps": 1290, "total_steps": 1800, "loss": 0.0, "lr": 1.1302806946762004e-05, "epoch": 14.333333333333334, "percentage": 71.67, "elapsed_time": "0:04:55", "remaining_time": "0:01:56", "throughput": 1371.61, "total_tokens": 404640}
+{"current_steps": 1295, "total_steps": 1800, "loss": 0.0, "lr": 1.1100668111113166e-05, "epoch": 14.38888888888889, "percentage": 71.94, "elapsed_time": "0:04:56", "remaining_time": "0:01:55", "throughput": 1372.29, "total_tokens": 406208}
+{"current_steps": 1300, "total_steps": 1800, "loss": 0.0, "lr": 1.0899836048749645e-05, "epoch": 14.444444444444445, "percentage": 72.22, "elapsed_time": "0:04:57", "remaining_time": "0:01:54", "throughput": 1372.93, "total_tokens": 407776}
+{"current_steps": 1305, "total_steps": 1800, "loss": 0.0, "lr": 1.0700329641296541e-05, "epoch": 14.5, "percentage": 72.5, "elapsed_time": "0:04:58", "remaining_time": "0:01:53", "throughput": 1373.51, "total_tokens": 409312}
+{"current_steps": 1310, "total_steps": 1800, "loss": 0.0, "lr": 1.0502167645744895e-05, "epoch": 14.555555555555555, "percentage": 72.78, "elapsed_time": "0:04:59", "remaining_time": "0:01:51", "throughput": 1373.96, "total_tokens": 410816}