Training in progress, step 39800

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
trainer_log.jsonl +41 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c897be3e4dece1f6219bd8097d3b30b1071ac3200457750e112d439a33a8dc2
 size 460928

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5d34a56cc489163ede17027d5ba19bed2bba07db5eb4dccebeccece9bf22e6e
 size 460928

trainer_log.jsonl CHANGED Viewed

@@ -8117,3 +8117,44 @@
 {"current_steps": 39600, "total_steps": 40000, "loss": 0.5154, "lr": 7.4386456836667e-05, "epoch": 1.2675244862684847, "percentage": 99.0, "elapsed_time": "20:34:31", "remaining_time": "0:12:28", "throughput": 735.16, "total_tokens": 54454880}
 {"current_steps": 39600, "total_steps": 40000, "eval_loss": 0.49425679445266724, "epoch": 1.2675244862684847, "percentage": 99.0, "elapsed_time": "20:40:03", "remaining_time": "0:12:31", "throughput": 731.88, "total_tokens": 54454880}
 {"current_steps": 39605, "total_steps": 40000, "loss": 0.4264, "lr": 7.254314656586214e-05, "epoch": 1.2676845272389732, "percentage": 99.01, "elapsed_time": "20:40:06", "remaining_time": "0:12:22", "throughput": 731.95, "total_tokens": 54462032}

 {"current_steps": 39600, "total_steps": 40000, "loss": 0.5154, "lr": 7.4386456836667e-05, "epoch": 1.2675244862684847, "percentage": 99.0, "elapsed_time": "20:34:31", "remaining_time": "0:12:28", "throughput": 735.16, "total_tokens": 54454880}
 {"current_steps": 39600, "total_steps": 40000, "eval_loss": 0.49425679445266724, "epoch": 1.2675244862684847, "percentage": 99.0, "elapsed_time": "20:40:03", "remaining_time": "0:12:31", "throughput": 731.88, "total_tokens": 54454880}
 {"current_steps": 39605, "total_steps": 40000, "loss": 0.4264, "lr": 7.254314656586214e-05, "epoch": 1.2676845272389732, "percentage": 99.01, "elapsed_time": "20:40:06", "remaining_time": "0:12:22", "throughput": 731.95, "total_tokens": 54462032}
+{"current_steps": 39610, "total_steps": 40000, "loss": 0.5466, "lr": 7.07229569929968e-05, "epoch": 1.2678445682094617, "percentage": 99.02, "elapsed_time": "20:40:07", "remaining_time": "0:12:12", "throughput": 732.03, "total_tokens": 54468704}
+{"current_steps": 39615, "total_steps": 40000, "loss": 0.3139, "lr": 6.892588839879643e-05, "epoch": 1.26800460917995, "percentage": 99.04, "elapsed_time": "20:40:08", "remaining_time": "0:12:03", "throughput": 732.11, "total_tokens": 54475296}
+{"current_steps": 39620, "total_steps": 40000, "loss": 0.5573, "lr": 6.71519410603727e-05, "epoch": 1.2681646501504384, "percentage": 99.05, "elapsed_time": "20:40:09", "remaining_time": "0:11:53", "throughput": 732.19, "total_tokens": 54481920}
+{"current_steps": 39625, "total_steps": 40000, "loss": 0.4725, "lr": 6.540111525129011e-05, "epoch": 1.268324691120927, "percentage": 99.06, "elapsed_time": "20:40:10", "remaining_time": "0:11:44", "throughput": 732.27, "total_tokens": 54488688}
+{"current_steps": 39630, "total_steps": 40000, "loss": 0.2573, "lr": 6.367341124154934e-05, "epoch": 1.2684847320914154, "percentage": 99.08, "elapsed_time": "20:40:11", "remaining_time": "0:11:34", "throughput": 732.35, "total_tokens": 54495296}
+{"current_steps": 39635, "total_steps": 40000, "loss": 0.4343, "lr": 6.19688292975873e-05, "epoch": 1.268644773061904, "percentage": 99.09, "elapsed_time": "20:40:12", "remaining_time": "0:11:25", "throughput": 732.43, "total_tokens": 54502112}
+{"current_steps": 39640, "total_steps": 40000, "loss": 0.542, "lr": 6.0287369682260336e-05, "epoch": 1.2688048140323924, "percentage": 99.1, "elapsed_time": "20:40:13", "remaining_time": "0:11:15", "throughput": 732.51, "total_tokens": 54508928}
+{"current_steps": 39645, "total_steps": 40000, "loss": 0.6147, "lr": 5.8629032654894384e-05, "epoch": 1.2689648550028807, "percentage": 99.11, "elapsed_time": "20:40:14", "remaining_time": "0:11:06", "throughput": 732.59, "total_tokens": 54515536}
+{"current_steps": 39650, "total_steps": 40000, "loss": 0.4272, "lr": 5.699381847120155e-05, "epoch": 1.2691248959733692, "percentage": 99.12, "elapsed_time": "20:40:15", "remaining_time": "0:10:56", "throughput": 732.68, "total_tokens": 54522912}
+{"current_steps": 39655, "total_steps": 40000, "loss": 0.405, "lr": 5.5381727383380094e-05, "epoch": 1.2692849369438577, "percentage": 99.14, "elapsed_time": "20:40:17", "remaining_time": "0:10:47", "throughput": 732.76, "total_tokens": 54529600}
+{"current_steps": 39660, "total_steps": 40000, "loss": 0.5075, "lr": 5.379275964001451e-05, "epoch": 1.269444977914346, "percentage": 99.15, "elapsed_time": "20:40:18", "remaining_time": "0:10:37", "throughput": 732.84, "total_tokens": 54536256}
+{"current_steps": 39665, "total_steps": 40000, "loss": 0.3254, "lr": 5.222691548614211e-05, "epoch": 1.2696050188848345, "percentage": 99.16, "elapsed_time": "20:40:19", "remaining_time": "0:10:28", "throughput": 732.92, "total_tokens": 54543056}
+{"current_steps": 39670, "total_steps": 40000, "loss": 0.5417, "lr": 5.068419516323641e-05, "epoch": 1.269765059855323, "percentage": 99.17, "elapsed_time": "20:40:20", "remaining_time": "0:10:19", "throughput": 733.0, "total_tokens": 54550016}
+{"current_steps": 39675, "total_steps": 40000, "loss": 0.4782, "lr": 4.91645989092071e-05, "epoch": 1.2699251008258114, "percentage": 99.19, "elapsed_time": "20:40:21", "remaining_time": "0:10:09", "throughput": 733.08, "total_tokens": 54556960}
+{"current_steps": 39680, "total_steps": 40000, "loss": 0.5752, "lr": 4.7668126958400056e-05, "epoch": 1.2700851417963, "percentage": 99.2, "elapsed_time": "20:40:22", "remaining_time": "0:10:00", "throughput": 733.16, "total_tokens": 54563760}
+{"current_steps": 39685, "total_steps": 40000, "loss": 0.4432, "lr": 4.619477954159734e-05, "epoch": 1.2702451827667882, "percentage": 99.21, "elapsed_time": "20:40:23", "remaining_time": "0:09:50", "throughput": 733.25, "total_tokens": 54570768}
+{"current_steps": 39690, "total_steps": 40000, "loss": 0.4194, "lr": 4.4744556885983884e-05, "epoch": 1.2704052237372767, "percentage": 99.22, "elapsed_time": "20:40:24", "remaining_time": "0:09:41", "throughput": 733.33, "total_tokens": 54577712}
+{"current_steps": 39695, "total_steps": 40000, "loss": 0.6034, "lr": 4.331745921523078e-05, "epoch": 1.2705652647077652, "percentage": 99.24, "elapsed_time": "20:40:25", "remaining_time": "0:09:31", "throughput": 733.41, "total_tokens": 54584176}
+{"current_steps": 39700, "total_steps": 40000, "loss": 0.4523, "lr": 4.191348674937867e-05, "epoch": 1.2707253056782537, "percentage": 99.25, "elapsed_time": "20:40:26", "remaining_time": "0:09:22", "throughput": 733.48, "total_tokens": 54590512}
+{"current_steps": 39705, "total_steps": 40000, "loss": 0.6051, "lr": 4.0532639704971006e-05, "epoch": 1.270885346648742, "percentage": 99.26, "elapsed_time": "20:40:27", "remaining_time": "0:09:12", "throughput": 733.57, "total_tokens": 54597568}
+{"current_steps": 39710, "total_steps": 40000, "loss": 0.4743, "lr": 3.917491829493747e-05, "epoch": 1.2710453876192305, "percentage": 99.28, "elapsed_time": "20:40:28", "remaining_time": "0:09:03", "throughput": 733.65, "total_tokens": 54604624}
+{"current_steps": 39715, "total_steps": 40000, "loss": 0.5159, "lr": 3.78403227286439e-05, "epoch": 1.271205428589719, "percentage": 99.29, "elapsed_time": "20:40:29", "remaining_time": "0:08:54", "throughput": 733.73, "total_tokens": 54611008}
+{"current_steps": 39720, "total_steps": 40000, "loss": 0.5207, "lr": 3.652885321192567e-05, "epoch": 1.2713654695602075, "percentage": 99.3, "elapsed_time": "20:40:30", "remaining_time": "0:08:44", "throughput": 733.81, "total_tokens": 54618160}
+{"current_steps": 39725, "total_steps": 40000, "loss": 0.5696, "lr": 3.524050994702099e-05, "epoch": 1.271525510530696, "percentage": 99.31, "elapsed_time": "20:40:31", "remaining_time": "0:08:35", "throughput": 733.89, "total_tokens": 54624560}
+{"current_steps": 39730, "total_steps": 40000, "loss": 0.3557, "lr": 3.3975293132604276e-05, "epoch": 1.2716855515011842, "percentage": 99.33, "elapsed_time": "20:40:32", "remaining_time": "0:08:25", "throughput": 733.97, "total_tokens": 54630960}
+{"current_steps": 39735, "total_steps": 40000, "loss": 0.3694, "lr": 3.2733202963786125e-05, "epoch": 1.2718455924716727, "percentage": 99.34, "elapsed_time": "20:40:33", "remaining_time": "0:08:16", "throughput": 734.05, "total_tokens": 54637952}
+{"current_steps": 39740, "total_steps": 40000, "loss": 0.5741, "lr": 3.15142396321133e-05, "epoch": 1.2720056334421612, "percentage": 99.35, "elapsed_time": "20:40:34", "remaining_time": "0:08:06", "throughput": 734.13, "total_tokens": 54644960}
+{"current_steps": 39745, "total_steps": 40000, "loss": 0.5077, "lr": 3.0318403325552132e-05, "epoch": 1.2721656744126497, "percentage": 99.36, "elapsed_time": "20:40:35", "remaining_time": "0:07:57", "throughput": 734.22, "total_tokens": 54651872}
+{"current_steps": 39750, "total_steps": 40000, "loss": 0.3884, "lr": 2.914569422855506e-05, "epoch": 1.272325715383138, "percentage": 99.38, "elapsed_time": "20:40:36", "remaining_time": "0:07:48", "throughput": 734.3, "total_tokens": 54658704}
+{"current_steps": 39755, "total_steps": 40000, "loss": 0.5561, "lr": 2.7996112521927462e-05, "epoch": 1.2724857563536265, "percentage": 99.39, "elapsed_time": "20:40:37", "remaining_time": "0:07:38", "throughput": 734.38, "total_tokens": 54665632}
+{"current_steps": 39760, "total_steps": 40000, "loss": 0.4389, "lr": 2.68696583829775e-05, "epoch": 1.272645797324115, "percentage": 99.4, "elapsed_time": "20:40:38", "remaining_time": "0:07:29", "throughput": 734.46, "total_tokens": 54672432}
+{"current_steps": 39765, "total_steps": 40000, "loss": 0.4598, "lr": 2.576633198539957e-05, "epoch": 1.2728058382946035, "percentage": 99.41, "elapsed_time": "20:40:39", "remaining_time": "0:07:19", "throughput": 734.54, "total_tokens": 54679136}
+{"current_steps": 39770, "total_steps": 40000, "loss": 0.371, "lr": 2.46861334993409e-05, "epoch": 1.272965879265092, "percentage": 99.42, "elapsed_time": "20:40:40", "remaining_time": "0:07:10", "throughput": 734.62, "total_tokens": 54685456}
+{"current_steps": 39775, "total_steps": 40000, "loss": 0.4899, "lr": 2.3629063091384903e-05, "epoch": 1.2731259202355802, "percentage": 99.44, "elapsed_time": "20:40:41", "remaining_time": "0:07:01", "throughput": 734.69, "total_tokens": 54691936}
+{"current_steps": 39780, "total_steps": 40000, "loss": 0.6072, "lr": 2.2595120924567834e-05, "epoch": 1.2732859612060687, "percentage": 99.45, "elapsed_time": "20:40:43", "remaining_time": "0:06:51", "throughput": 734.78, "total_tokens": 54698944}
+{"current_steps": 39785, "total_steps": 40000, "loss": 0.3807, "lr": 2.158430715829551e-05, "epoch": 1.2734460021765572, "percentage": 99.46, "elapsed_time": "20:40:44", "remaining_time": "0:06:42", "throughput": 734.86, "total_tokens": 54706176}
+{"current_steps": 39790, "total_steps": 40000, "loss": 0.4142, "lr": 2.059662194849321e-05, "epoch": 1.2736060431470455, "percentage": 99.48, "elapsed_time": "20:40:45", "remaining_time": "0:06:32", "throughput": 734.95, "total_tokens": 54713360}
+{"current_steps": 39795, "total_steps": 40000, "loss": 0.3596, "lr": 1.9632065447422463e-05, "epoch": 1.273766084117534, "percentage": 99.49, "elapsed_time": "20:40:46", "remaining_time": "0:06:23", "throughput": 735.03, "total_tokens": 54720384}
+{"current_steps": 39800, "total_steps": 40000, "loss": 0.4841, "lr": 1.8690637803880916e-05, "epoch": 1.2739261250880225, "percentage": 99.5, "elapsed_time": "20:40:47", "remaining_time": "0:06:14", "throughput": 735.12, "total_tokens": 54727600}
+{"current_steps": 39800, "total_steps": 40000, "eval_loss": 0.49426430463790894, "epoch": 1.2739261250880225, "percentage": 99.5, "elapsed_time": "20:46:19", "remaining_time": "0:06:15", "throughput": 731.85, "total_tokens": 54727600}
+{"current_steps": 39805, "total_steps": 40000, "loss": 0.5417, "lr": 1.7772339163019123e-05, "epoch": 1.274086166058511, "percentage": 99.51, "elapsed_time": "20:46:22", "remaining_time": "0:06:06", "throughput": 731.92, "total_tokens": 54734624}