rbelanec
/

train_svamp_42_1763998313

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bf18babd02ee87ad5f9ff9721d0c1dc2331b7d862498563cf61d25bf60f060e
 size 335717200

 version https://git-lfs.github.com/spec/v1
+oid sha256:95546a3aa4852e765eb96e4d58c7aaa4b75c6a37aac6c9c95a10942e25152ae5
 size 335717200

trainer_log.jsonl CHANGED Viewed

@@ -627,3 +627,24 @@
 {"current_steps": 3040, "total_steps": 3150, "loss": 0.0853, "lr": 1.8888694681081787e-07, "epoch": 9.65079365079365, "percentage": 96.51, "elapsed_time": "0:04:45", "remaining_time": "0:00:10", "throughput": 2323.23, "total_tokens": 662560}
 {"current_steps": 3045, "total_steps": 3150, "loss": 0.1221, "lr": 1.7227249800789713e-07, "epoch": 9.666666666666666, "percentage": 96.67, "elapsed_time": "0:04:45", "remaining_time": "0:00:09", "throughput": 2324.44, "total_tokens": 663664}
 {"current_steps": 3050, "total_steps": 3150, "loss": 0.1901, "lr": 1.5642025015660533e-07, "epoch": 9.682539682539682, "percentage": 96.83, "elapsed_time": "0:04:45", "remaining_time": "0:00:09", "throughput": 2325.72, "total_tokens": 664784}

 {"current_steps": 3040, "total_steps": 3150, "loss": 0.0853, "lr": 1.8888694681081787e-07, "epoch": 9.65079365079365, "percentage": 96.51, "elapsed_time": "0:04:45", "remaining_time": "0:00:10", "throughput": 2323.23, "total_tokens": 662560}
 {"current_steps": 3045, "total_steps": 3150, "loss": 0.1221, "lr": 1.7227249800789713e-07, "epoch": 9.666666666666666, "percentage": 96.67, "elapsed_time": "0:04:45", "remaining_time": "0:00:09", "throughput": 2324.44, "total_tokens": 663664}
 {"current_steps": 3050, "total_steps": 3150, "loss": 0.1901, "lr": 1.5642025015660533e-07, "epoch": 9.682539682539682, "percentage": 96.83, "elapsed_time": "0:04:45", "remaining_time": "0:00:09", "throughput": 2325.72, "total_tokens": 664784}
+{"current_steps": 3055, "total_steps": 3150, "loss": 0.1983, "lr": 1.4133068991437902e-07, "epoch": 9.698412698412698, "percentage": 96.98, "elapsed_time": "0:04:46", "remaining_time": "0:00:08", "throughput": 2326.91, "total_tokens": 665888}
+{"current_steps": 3060, "total_steps": 3150, "loss": 0.121, "lr": 1.2700428052447033e-07, "epoch": 9.714285714285714, "percentage": 97.14, "elapsed_time": "0:04:46", "remaining_time": "0:00:08", "throughput": 2328.2, "total_tokens": 667008}
+{"current_steps": 3065, "total_steps": 3150, "loss": 0.0609, "lr": 1.13441461801711e-07, "epoch": 9.73015873015873, "percentage": 97.3, "elapsed_time": "0:04:46", "remaining_time": "0:00:07", "throughput": 2329.2, "total_tokens": 668048}
+{"current_steps": 3070, "total_steps": 3150, "loss": 0.1131, "lr": 1.006426501190233e-07, "epoch": 9.746031746031747, "percentage": 97.46, "elapsed_time": "0:04:47", "remaining_time": "0:00:07", "throughput": 2330.54, "total_tokens": 669184}
+{"current_steps": 3075, "total_steps": 3150, "loss": 0.0093, "lr": 8.860823839462461e-08, "epoch": 9.761904761904763, "percentage": 97.62, "elapsed_time": "0:04:47", "remaining_time": "0:00:07", "throughput": 2331.53, "total_tokens": 670224}
+{"current_steps": 3080, "total_steps": 3150, "loss": 0.1658, "lr": 7.733859607997052e-08, "epoch": 9.777777777777779, "percentage": 97.78, "elapsed_time": "0:04:47", "remaining_time": "0:00:06", "throughput": 2332.75, "total_tokens": 671328}
+{"current_steps": 3085, "total_steps": 3150, "loss": 0.1017, "lr": 6.683406914840818e-08, "epoch": 9.793650793650794, "percentage": 97.94, "elapsed_time": "0:04:48", "remaining_time": "0:00:06", "throughput": 2333.76, "total_tokens": 672384}
+{"current_steps": 3090, "total_steps": 3150, "loss": 0.1323, "lr": 5.709498008456826e-08, "epoch": 9.80952380952381, "percentage": 98.1, "elapsed_time": "0:04:48", "remaining_time": "0:00:05", "throughput": 2335.19, "total_tokens": 673552}
+{"current_steps": 3095, "total_steps": 3150, "loss": 0.1722, "lr": 4.8121627874450625e-08, "epoch": 9.825396825396826, "percentage": 98.25, "elapsed_time": "0:04:48", "remaining_time": "0:00:05", "throughput": 2336.41, "total_tokens": 674656}
+{"current_steps": 3100, "total_steps": 3150, "loss": 0.0714, "lr": 3.9914287996251074e-08, "epoch": 9.841269841269842, "percentage": 98.41, "elapsed_time": "0:04:49", "remaining_time": "0:00:04", "throughput": 2337.52, "total_tokens": 675728}
+{"current_steps": 3105, "total_steps": 3150, "loss": 0.1622, "lr": 3.2473212411904264e-08, "epoch": 9.857142857142858, "percentage": 98.57, "elapsed_time": "0:04:49", "remaining_time": "0:00:04", "throughput": 2338.75, "total_tokens": 676832}
+{"current_steps": 3110, "total_steps": 3150, "loss": 0.0367, "lr": 2.5798629559350974e-08, "epoch": 9.873015873015873, "percentage": 98.73, "elapsed_time": "0:04:49", "remaining_time": "0:00:03", "throughput": 2339.86, "total_tokens": 677904}
+{"current_steps": 3115, "total_steps": 3150, "loss": 0.0972, "lr": 1.9890744345518742e-08, "epoch": 9.88888888888889, "percentage": 98.89, "elapsed_time": "0:04:50", "remaining_time": "0:00:03", "throughput": 2340.9, "total_tokens": 678960}
+{"current_steps": 3120, "total_steps": 3150, "loss": 0.073, "lr": 1.4749738140037994e-08, "epoch": 9.904761904761905, "percentage": 99.05, "elapsed_time": "0:04:50", "remaining_time": "0:00:02", "throughput": 2341.99, "total_tokens": 680032}
+{"current_steps": 3125, "total_steps": 3150, "loss": 0.0596, "lr": 1.0375768769668725e-08, "epoch": 9.920634920634921, "percentage": 99.21, "elapsed_time": "0:04:50", "remaining_time": "0:00:02", "throughput": 2342.96, "total_tokens": 681072}
+{"current_steps": 3130, "total_steps": 3150, "loss": 0.0684, "lr": 6.768970513457151e-09, "epoch": 9.936507936507937, "percentage": 99.37, "elapsed_time": "0:04:51", "remaining_time": "0:00:01", "throughput": 2344.16, "total_tokens": 682176}
+{"current_steps": 3135, "total_steps": 3150, "loss": 0.0599, "lr": 3.929454098619556e-09, "epoch": 9.952380952380953, "percentage": 99.52, "elapsed_time": "0:04:51", "remaining_time": "0:00:01", "throughput": 2345.47, "total_tokens": 683312}
+{"current_steps": 3140, "total_steps": 3150, "loss": 0.1508, "lr": 1.8573066971339092e-09, "epoch": 9.968253968253968, "percentage": 99.68, "elapsed_time": "0:04:51", "remaining_time": "0:00:00", "throughput": 2346.56, "total_tokens": 684384}
+{"current_steps": 3145, "total_steps": 3150, "loss": 0.0829, "lr": 5.525919230670029e-10, "epoch": 9.984126984126984, "percentage": 99.84, "elapsed_time": "0:04:51", "remaining_time": "0:00:00", "throughput": 2347.7, "total_tokens": 685472}
+{"current_steps": 3150, "total_steps": 3150, "loss": 0.1723, "lr": 1.534983061768358e-11, "epoch": 10.0, "percentage": 100.0, "elapsed_time": "0:04:52", "remaining_time": "0:00:00", "throughput": 2348.61, "total_tokens": 686560}
+{"current_steps": 3150, "total_steps": 3150, "epoch": 10.0, "percentage": 100.0, "elapsed_time": "0:04:54", "remaining_time": "0:00:00", "throughput": 2332.45, "total_tokens": 686560}