rbelanec
/

train_mnli_1744880657

@@ -203,3 +203,44 @@
 {"current_steps": 995, "total_steps": 20000, "loss": 0.1991, "lr": 4.969588344797478e-05, "epoch": 0.18017610176780824, "percentage": 4.98, "elapsed_time": "0:39:36", "remaining_time": "12:36:40", "throughput": 2963.72, "total_tokens": 7044608}
 {"current_steps": 1000, "total_steps": 20000, "loss": 0.2311, "lr": 4.969282252695568e-05, "epoch": 0.18108150931438013, "percentage": 5.0, "elapsed_time": "0:39:43", "remaining_time": "12:34:51", "throughput": 2970.47, "total_tokens": 7080832}
 {"current_steps": 1000, "total_steps": 20000, "eval_loss": 0.2153281569480896, "epoch": 0.18108150931438013, "percentage": 5.0, "elapsed_time": "0:43:56", "remaining_time": "13:54:58", "throughput": 2685.4, "total_tokens": 7080832}

 {"current_steps": 995, "total_steps": 20000, "loss": 0.1991, "lr": 4.969588344797478e-05, "epoch": 0.18017610176780824, "percentage": 4.98, "elapsed_time": "0:39:36", "remaining_time": "12:36:40", "throughput": 2963.72, "total_tokens": 7044608}
 {"current_steps": 1000, "total_steps": 20000, "loss": 0.2311, "lr": 4.969282252695568e-05, "epoch": 0.18108150931438013, "percentage": 5.0, "elapsed_time": "0:39:43", "remaining_time": "12:34:51", "throughput": 2970.47, "total_tokens": 7080832}
 {"current_steps": 1000, "total_steps": 20000, "eval_loss": 0.2153281569480896, "epoch": 0.18108150931438013, "percentage": 5.0, "elapsed_time": "0:43:56", "remaining_time": "13:54:58", "throughput": 2685.4, "total_tokens": 7080832}
+{"current_steps": 1005, "total_steps": 20000, "loss": 0.2004, "lr": 4.9689746374163e-05, "epoch": 0.18198691686095203, "percentage": 5.03, "elapsed_time": "0:44:05", "remaining_time": "13:53:13", "throughput": 2689.63, "total_tokens": 7114304}
+{"current_steps": 1010, "total_steps": 20000, "loss": 0.2073, "lr": 4.9686654991494254e-05, "epoch": 0.18289232440752393, "percentage": 5.05, "elapsed_time": "0:44:11", "remaining_time": "13:51:01", "throughput": 2695.59, "total_tokens": 7148544}
+{"current_steps": 1015, "total_steps": 20000, "loss": 0.223, "lr": 4.968354838085637e-05, "epoch": 0.18379773195409585, "percentage": 5.08, "elapsed_time": "0:44:18", "remaining_time": "13:48:51", "throughput": 2701.81, "total_tokens": 7183552}
+{"current_steps": 1020, "total_steps": 20000, "loss": 0.2282, "lr": 4.968042654416566e-05, "epoch": 0.18470313950066775, "percentage": 5.1, "elapsed_time": "0:44:25", "remaining_time": "13:46:41", "throughput": 2707.86, "total_tokens": 7218112}
+{"current_steps": 1025, "total_steps": 20000, "loss": 0.1956, "lr": 4.967728948334784e-05, "epoch": 0.18560854704723964, "percentage": 5.12, "elapsed_time": "0:44:32", "remaining_time": "13:44:33", "throughput": 2714.31, "total_tokens": 7253888}
+{"current_steps": 1030, "total_steps": 20000, "loss": 0.2483, "lr": 4.967413720033799e-05, "epoch": 0.18651395459381154, "percentage": 5.15, "elapsed_time": "0:44:39", "remaining_time": "13:42:25", "throughput": 2720.59, "total_tokens": 7289152}
+{"current_steps": 1035, "total_steps": 20000, "loss": 0.2145, "lr": 4.96709696970806e-05, "epoch": 0.18741936214038343, "percentage": 5.17, "elapsed_time": "0:44:46", "remaining_time": "13:40:18", "throughput": 2727.04, "total_tokens": 7324992}
+{"current_steps": 1040, "total_steps": 20000, "loss": 0.1941, "lr": 4.9667786975529554e-05, "epoch": 0.18832476968695533, "percentage": 5.2, "elapsed_time": "0:44:52", "remaining_time": "13:38:12", "throughput": 2733.19, "total_tokens": 7360064}
+{"current_steps": 1045, "total_steps": 20000, "loss": 0.2357, "lr": 4.96645890376481e-05, "epoch": 0.18923017723352725, "percentage": 5.22, "elapsed_time": "0:44:59", "remaining_time": "13:36:08", "throughput": 2738.93, "total_tokens": 7394112}
+{"current_steps": 1050, "total_steps": 20000, "loss": 0.218, "lr": 4.96613758854089e-05, "epoch": 0.19013558478009915, "percentage": 5.25, "elapsed_time": "0:45:06", "remaining_time": "13:34:04", "throughput": 2744.95, "total_tokens": 7428992}
+{"current_steps": 1055, "total_steps": 20000, "loss": 0.1953, "lr": 4.965814752079399e-05, "epoch": 0.19104099232667104, "percentage": 5.27, "elapsed_time": "0:45:13", "remaining_time": "13:32:01", "throughput": 2750.75, "total_tokens": 7463360}
+{"current_steps": 1060, "total_steps": 20000, "loss": 0.202, "lr": 4.965490394579477e-05, "epoch": 0.19194639987324294, "percentage": 5.3, "elapsed_time": "0:45:19", "remaining_time": "13:30:00", "throughput": 2756.24, "total_tokens": 7496960}
+{"current_steps": 1065, "total_steps": 20000, "loss": 0.2231, "lr": 4.965164516241206e-05, "epoch": 0.19285180741981484, "percentage": 5.33, "elapsed_time": "0:45:26", "remaining_time": "13:28:00", "throughput": 2762.58, "total_tokens": 7532992}
+{"current_steps": 1070, "total_steps": 20000, "loss": 0.2196, "lr": 4.9648371172656036e-05, "epoch": 0.19375721496638673, "percentage": 5.35, "elapsed_time": "0:45:33", "remaining_time": "13:26:01", "throughput": 2769.04, "total_tokens": 7569408}
+{"current_steps": 1075, "total_steps": 20000, "loss": 0.2209, "lr": 4.964508197854625e-05, "epoch": 0.19466262251295866, "percentage": 5.38, "elapsed_time": "0:45:40", "remaining_time": "13:24:03", "throughput": 2775.81, "total_tokens": 7606784}
+{"current_steps": 1080, "total_steps": 20000, "loss": 0.2207, "lr": 4.964177758211165e-05, "epoch": 0.19556803005953055, "percentage": 5.4, "elapsed_time": "0:45:47", "remaining_time": "13:22:07", "throughput": 2782.14, "total_tokens": 7643136}
+{"current_steps": 1085, "total_steps": 20000, "loss": 0.2165, "lr": 4.963845798539054e-05, "epoch": 0.19647343760610245, "percentage": 5.42, "elapsed_time": "0:45:53", "remaining_time": "13:20:10", "throughput": 2788.23, "total_tokens": 7678784}
+{"current_steps": 1090, "total_steps": 20000, "loss": 0.1988, "lr": 4.9635123190430636e-05, "epoch": 0.19737884515267434, "percentage": 5.45, "elapsed_time": "0:46:00", "remaining_time": "13:18:16", "throughput": 2794.04, "total_tokens": 7713792}
+{"current_steps": 1095, "total_steps": 20000, "loss": 0.2389, "lr": 4.9631773199289e-05, "epoch": 0.19828425269924624, "percentage": 5.47, "elapsed_time": "0:46:07", "remaining_time": "13:16:22", "throughput": 2799.8, "total_tokens": 7748736}
+{"current_steps": 1100, "total_steps": 20000, "loss": 0.1978, "lr": 4.9628408014032066e-05, "epoch": 0.19918966024581816, "percentage": 5.5, "elapsed_time": "0:46:14", "remaining_time": "13:14:29", "throughput": 2805.86, "total_tokens": 7784576}
+{"current_steps": 1105, "total_steps": 20000, "loss": 0.2081, "lr": 4.962502763673565e-05, "epoch": 0.20009506779239006, "percentage": 5.53, "elapsed_time": "0:46:21", "remaining_time": "13:12:37", "throughput": 2811.07, "total_tokens": 7818112}
+{"current_steps": 1110, "total_steps": 20000, "loss": 0.2164, "lr": 4.962163206948496e-05, "epoch": 0.20100047533896195, "percentage": 5.55, "elapsed_time": "0:46:27", "remaining_time": "13:10:45", "throughput": 2817.41, "total_tokens": 7854912}
+{"current_steps": 1115, "total_steps": 20000, "loss": 0.1997, "lr": 4.9618221314374526e-05, "epoch": 0.20190588288553385, "percentage": 5.58, "elapsed_time": "0:46:34", "remaining_time": "13:08:55", "throughput": 2823.04, "total_tokens": 7889792}
+{"current_steps": 1120, "total_steps": 20000, "loss": 0.2168, "lr": 4.9614795373508276e-05, "epoch": 0.20281129043210575, "percentage": 5.6, "elapsed_time": "0:46:41", "remaining_time": "13:07:06", "throughput": 2828.83, "total_tokens": 7925184}
+{"current_steps": 1125, "total_steps": 20000, "loss": 0.2171, "lr": 4.961135424899952e-05, "epoch": 0.20371669797867764, "percentage": 5.62, "elapsed_time": "0:46:48", "remaining_time": "13:05:18", "throughput": 2834.39, "total_tokens": 7960064}
+{"current_steps": 1130, "total_steps": 20000, "loss": 0.2065, "lr": 4.96078979429709e-05, "epoch": 0.20462210552524956, "percentage": 5.65, "elapsed_time": "0:46:55", "remaining_time": "13:03:30", "throughput": 2840.08, "total_tokens": 7995328}
+{"current_steps": 1135, "total_steps": 20000, "loss": 0.2064, "lr": 4.9604426457554445e-05, "epoch": 0.20552751307182146, "percentage": 5.67, "elapsed_time": "0:47:01", "remaining_time": "13:01:44", "throughput": 2845.71, "total_tokens": 8030528}
+{"current_steps": 1140, "total_steps": 20000, "loss": 0.2014, "lr": 4.960093979489155e-05, "epoch": 0.20643292061839336, "percentage": 5.7, "elapsed_time": "0:47:08", "remaining_time": "12:59:59", "throughput": 2851.96, "total_tokens": 8067584}
+{"current_steps": 1145, "total_steps": 20000, "loss": 0.2092, "lr": 4.9597437957132955e-05, "epoch": 0.20733832816496525, "percentage": 5.73, "elapsed_time": "0:47:15", "remaining_time": "12:58:14", "throughput": 2857.5, "total_tokens": 8102720}
+{"current_steps": 1150, "total_steps": 20000, "loss": 0.2308, "lr": 4.959392094643876e-05, "epoch": 0.20824373571153715, "percentage": 5.75, "elapsed_time": "0:47:22", "remaining_time": "12:56:30", "throughput": 2863.31, "total_tokens": 8138688}
+{"current_steps": 1155, "total_steps": 20000, "loss": 0.2148, "lr": 4.9590388764978446e-05, "epoch": 0.20914914325810904, "percentage": 5.78, "elapsed_time": "0:47:29", "remaining_time": "12:54:47", "throughput": 2868.58, "total_tokens": 8173184}
+{"current_steps": 1160, "total_steps": 20000, "loss": 0.1849, "lr": 4.958684141493084e-05, "epoch": 0.21005455080468097, "percentage": 5.8, "elapsed_time": "0:47:36", "remaining_time": "12:53:05", "throughput": 2873.56, "total_tokens": 8206912}
+{"current_steps": 1165, "total_steps": 20000, "loss": 0.1819, "lr": 4.958327889848413e-05, "epoch": 0.21095995835125286, "percentage": 5.83, "elapsed_time": "0:47:42", "remaining_time": "12:51:24", "throughput": 2879.78, "total_tokens": 8244288}
+{"current_steps": 1170, "total_steps": 20000, "loss": 0.2021, "lr": 4.9579701217835846e-05, "epoch": 0.21186536589782476, "percentage": 5.85, "elapsed_time": "0:47:49", "remaining_time": "12:49:44", "throughput": 2885.61, "total_tokens": 8280704}
+{"current_steps": 1175, "total_steps": 20000, "loss": 0.205, "lr": 4.957610837519288e-05, "epoch": 0.21277077344439665, "percentage": 5.88, "elapsed_time": "0:47:56", "remaining_time": "12:48:04", "throughput": 2890.39, "total_tokens": 8314048}
+{"current_steps": 1180, "total_steps": 20000, "loss": 0.1751, "lr": 4.957250037277148e-05, "epoch": 0.21367618099096855, "percentage": 5.9, "elapsed_time": "0:48:03", "remaining_time": "12:46:25", "throughput": 2895.67, "total_tokens": 8348928}
+{"current_steps": 1185, "total_steps": 20000, "loss": 0.1975, "lr": 4.956887721279726e-05, "epoch": 0.21458158853754047, "percentage": 5.92, "elapsed_time": "0:48:10", "remaining_time": "12:44:47", "throughput": 2900.92, "total_tokens": 8383808}
+{"current_steps": 1190, "total_steps": 20000, "loss": 0.2118, "lr": 4.956523889750514e-05, "epoch": 0.21548699608411237, "percentage": 5.95, "elapsed_time": "0:48:16", "remaining_time": "12:43:09", "throughput": 2905.48, "total_tokens": 8416768}
+{"current_steps": 1195, "total_steps": 20000, "loss": 0.2153, "lr": 4.9561585429139426e-05, "epoch": 0.21639240363068427, "percentage": 5.97, "elapsed_time": "0:48:23", "remaining_time": "12:41:33", "throughput": 2910.96, "total_tokens": 8452480}
+{"current_steps": 1200, "total_steps": 20000, "loss": 0.2152, "lr": 4.955791680995376e-05, "epoch": 0.21729781117725616, "percentage": 6.0, "elapsed_time": "0:48:30", "remaining_time": "12:39:58", "throughput": 2916.55, "total_tokens": 8488704}
+{"current_steps": 1200, "total_steps": 20000, "eval_loss": 0.20722079277038574, "epoch": 0.21729781117725616, "percentage": 6.0, "elapsed_time": "0:52:44", "remaining_time": "13:46:23", "throughput": 2682.13, "total_tokens": 8488704}