type train | step 10 | loss 42.2510 23.8122 19.0490 9.7810 16.0240 | lr 1.0e-03 | norm 103.3222 | dt 0.078 type train | step 20 | loss 27.6462 14.3643 10.7521 5.7119 10.6747 | lr 1.0e-03 | norm 56.0402 | dt 0.078 type train | step 30 | loss 17.9919 8.3798 6.0790 3.1747 6.8561 | lr 1.0e-03 | norm 34.5370 | dt 0.077 type train | step 40 | loss 11.2504 4.5555 3.3423 1.6378 4.1298 | lr 1.0e-03 | norm 23.1961 | dt 0.078 type train | step 50 | loss 6.7020 2.2798 1.7727 0.8196 2.3277 | lr 1.0e-03 | norm 15.6862 | dt 0.078 type train | step 60 | loss 3.8047 1.0886 0.9311 0.4576 1.2682 | lr 1.0e-03 | norm 10.0218 | dt 0.077 type train | step 70 | loss 2.0790 0.5652 0.5321 0.3293 0.7206 | lr 1.0e-03 | norm 5.6790 | dt 0.078 type train | step 80 | loss 1.1181 0.3803 0.3858 0.2865 0.4840 | lr 1.0e-03 | norm 2.6371 | dt 0.078 type train | step 90 | loss 0.6778 0.3147 0.3367 0.2523 0.3916 | lr 1.0e-03 | norm 1.2022 | dt 0.078 type train | step 100 | loss 0.4513 0.2659 0.2972 0.2226 0.3439 | lr 1.0e-03 | norm 0.6569 | dt 0.077 type train | step 110 | loss 0.3598 0.2341 0.2689 0.2017 0.3073 | lr 1.0e-03 | norm 0.4462 | dt 0.077 type train | step 120 | loss 0.2993 0.2104 0.2460 0.1838 0.2810 | lr 1.0e-03 | norm 0.3411 | dt 0.078 type train | step 130 | loss 0.2616 0.1935 0.2314 0.1747 0.2677 | lr 1.0e-03 | norm 0.2573 | dt 0.078 type train | step 140 | loss 0.2267 0.1785 0.2169 0.1643 0.2509 | lr 1.0e-03 | norm 0.1998 | dt 0.078 type train | step 150 | loss 0.2049 0.1670 0.2063 0.1575 0.2379 | lr 1.0e-03 | norm 0.1621 | dt 0.078 type train | step 160 | loss 0.1831 0.1551 0.1970 0.1516 0.2294 | lr 1.0e-03 | norm 0.1297 | dt 0.078 type train | step 170 | loss 0.1676 0.1463 0.1891 0.1468 0.2221 | lr 1.0e-03 | norm 0.1082 | dt 0.078 type train | step 180 | loss 0.1536 0.1377 0.1820 0.1428 0.2147 | lr 1.0e-03 | norm 0.0830 | dt 0.078 type train | step 190 | loss 0.1409 0.1303 0.1761 0.1391 0.2087 | lr 1.0e-03 | norm 0.0659 | dt 0.078 type train | step 200 | loss 0.1322 0.1245 0.1716 0.1364 0.2057 | lr 1.0e-03 | norm 0.0478 | dt 0.078 type train | step 210 | loss 0.1235 0.1189 0.1673 0.1336 0.2027 | lr 1.0e-03 | norm 0.0400 | dt 0.078 type train | step 220 | loss 0.1159 0.1141 0.1638 0.1316 0.2023 | lr 1.0e-03 | norm 0.0315 | dt 0.078 type train | step 230 | loss 0.1090 0.1093 0.1596 0.1291 0.1999 | lr 1.0e-03 | norm 0.0316 | dt 0.078 type train | step 240 | loss 0.1030 0.1055 0.1566 0.1270 0.1990 | lr 9.9e-04 | norm 0.0311 | dt 0.078 type train | step 250 | loss 0.0972 0.1016 0.1532 0.1247 0.1974 | lr 9.9e-04 | norm 0.0247 | dt 0.078 type train | step 260 | loss 0.0925 0.0985 0.1504 0.1229 0.1968 | lr 9.9e-04 | norm 0.0256 | dt 0.078 type train | step 270 | loss 0.0881 0.0958 0.1479 0.1213 0.1962 | lr 9.9e-04 | norm 0.0222 | dt 0.078 type train | step 280 | loss 0.0847 0.0934 0.1453 0.1197 0.1956 | lr 9.9e-04 | norm 0.0278 | dt 0.078 type train | step 290 | loss 0.0805 0.0907 0.1431 0.1184 0.1946 | lr 9.9e-04 | norm 0.0283 | dt 0.078 type train | step 300 | loss 0.0774 0.0887 0.1410 0.1171 0.1943 | lr 9.9e-04 | norm 0.0268 | dt 0.078 type train | step 310 | loss 0.0747 0.0868 0.1393 0.1163 0.1945 | lr 9.9e-04 | norm 0.0241 | dt 0.079 type train | step 320 | loss 0.0723 0.0852 0.1373 0.1149 0.1941 | lr 9.9e-04 | norm 0.0176 | dt 0.079 type train | step 330 | loss 0.0698 0.0836 0.1354 0.1137 0.1930 | lr 9.9e-04 | norm 0.0257 | dt 0.079 type train | step 340 | loss 0.0676 0.0821 0.1342 0.1131 0.1927 | lr 9.9e-04 | norm 0.0256 | dt 0.079 type train | step 350 | loss 0.0653 0.0806 0.1322 0.1117 0.1915 | lr 9.9e-04 | norm 0.0167 | dt 0.079 type train | step 360 | loss 0.0639 0.0797 0.1314 0.1115 0.1923 | lr 9.9e-04 | norm 0.0189 | dt 0.079 type train | step 370 | loss 0.0625 0.0786 0.1303 0.1109 0.1921 | lr 9.9e-04 | norm 0.0206 | dt 0.079 type train | step 380 | loss 0.0606 0.0773 0.1286 0.1095 0.1904 | lr 9.9e-04 | norm 0.0156 | dt 0.079 type train | step 390 | loss 0.0590 0.0761 0.1275 0.1087 0.1890 | lr 9.9e-04 | norm 0.0273 | dt 0.079 type train | step 400 | loss 0.0584 0.0759 0.1271 0.1090 0.1910 | lr 9.9e-04 | norm 0.0201 | dt 0.080 type train | step 410 | loss 0.0570 0.0747 0.1260 0.1079 0.1893 | lr 9.9e-04 | norm 0.0160 | dt 0.080 type train | step 420 | loss 0.0559 0.0739 0.1250 0.1071 0.1878 | lr 9.8e-04 | norm 0.0216 | dt 0.080 type train | step 430 | loss 0.0552 0.0735 0.1246 0.1071 0.1892 | lr 9.8e-04 | norm 0.0224 | dt 0.080 type train | step 440 | loss 0.0537 0.0721 0.1231 0.1063 0.1883 | lr 9.8e-04 | norm 0.0245 | dt 0.080 type train | step 450 | loss 0.0537 0.0723 0.1236 0.1068 0.1890 | lr 9.8e-04 | norm 0.0256 | dt 0.081 type train | step 460 | loss 0.0525 0.0714 0.1223 0.1057 0.1869 | lr 9.8e-04 | norm 0.0197 | dt 0.081 type train | step 470 | loss 0.0521 0.0709 0.1220 0.1055 0.1877 | lr 9.8e-04 | norm 0.0188 | dt 0.080 type train | step 480 | loss 0.0520 0.0711 0.1221 0.1057 0.1884 | lr 9.8e-04 | norm 0.0233 | dt 0.080 type train | step 490 | loss 0.0508 0.0699 0.1210 0.1048 0.1869 | lr 9.8e-04 | norm 0.0199 | dt 0.081 type train | step 500 | loss 0.0501 0.0693 0.1206 0.1046 0.1867 | lr 9.8e-04 | norm 0.0224 | dt 0.080 type train | step 510 | loss 0.0495 0.0687 0.1200 0.1040 0.1864 | lr 9.8e-04 | norm 0.0201 | dt 0.080 type train | step 520 | loss 0.0492 0.0683 0.1194 0.1038 0.1863 | lr 9.8e-04 | norm 0.0227 | dt 0.081 type train | step 530 | loss 0.0488 0.0682 0.1194 0.1037 0.1856 | lr 9.8e-04 | norm 0.0159 | dt 0.081 type train | step 540 | loss 0.0487 0.0683 0.1195 0.1041 0.1862 | lr 9.7e-04 | norm 0.0200 | dt 0.081 type train | step 550 | loss 0.0478 0.0672 0.1185 0.1035 0.1855 | lr 9.7e-04 | norm 0.0167 | dt 0.082 type train | step 560 | loss 0.0474 0.0670 0.1183 0.1030 0.1852 | lr 9.7e-04 | norm 0.0166 | dt 0.082 type train | step 570 | loss 0.0472 0.0669 0.1183 0.1033 0.1854 | lr 9.7e-04 | norm 0.0236 | dt 0.081 type train | step 580 | loss 0.0471 0.0668 0.1182 0.1032 0.1851 | lr 9.7e-04 | norm 0.0163 | dt 0.082 type train | step 590 | loss 0.0464 0.0662 0.1174 0.1027 0.1850 | lr 9.7e-04 | norm 0.0178 | dt 0.081 type train | step 600 | loss 0.0467 0.0665 0.1178 0.1029 0.1852 | lr 9.7e-04 | norm 0.0197 | dt 0.083 type train | step 610 | loss 0.0460 0.0657 0.1170 0.1025 0.1847 | lr 9.7e-04 | norm 0.0232 | dt 0.184 type train | step 620 | loss 0.0457 0.0655 0.1171 0.1026 0.1853 | lr 9.7e-04 | norm 0.0209 | dt 0.080 type train | step 630 | loss 0.0458 0.0655 0.1169 0.1025 0.1851 | lr 9.7e-04 | norm 0.0195 | dt 0.081 type train | step 640 | loss 0.0455 0.0652 0.1166 0.1020 0.1843 | lr 9.6e-04 | norm 0.0227 | dt 0.081 type train | step 650 | loss 0.0455 0.0652 0.1165 0.1022 0.1851 | lr 9.6e-04 | norm 0.0228 | dt 0.083 type train | step 660 | loss 0.0453 0.0650 0.1164 0.1021 0.1845 | lr 9.6e-04 | norm 0.0243 | dt 0.082 type train | step 670 | loss 0.0451 0.0648 0.1164 0.1023 0.1848 | lr 9.6e-04 | norm 0.0234 | dt 0.081 type train | step 680 | loss 0.0449 0.0648 0.1162 0.1020 0.1848 | lr 9.6e-04 | norm 0.0210 | dt 0.082 type train | step 690 | loss 0.0449 0.0646 0.1158 0.1019 0.1846 | lr 9.6e-04 | norm 0.0250 | dt 0.082 type train | step 700 | loss 0.0445 0.0642 0.1155 0.1014 0.1838 | lr 9.6e-04 | norm 0.0154 | dt 0.082 type train | step 710 | loss 0.0445 0.0643 0.1156 0.1016 0.1844 | lr 9.6e-04 | norm 0.0172 | dt 0.080 type train | step 720 | loss 0.0444 0.0641 0.1155 0.1016 0.1840 | lr 9.5e-04 | norm 0.0163 | dt 0.080 type train | step 730 | loss 0.0442 0.0638 0.1151 0.1011 0.1833 | lr 9.5e-04 | norm 0.0165 | dt 0.081 type train | step 740 | loss 0.0447 0.0645 0.1159 0.1022 0.1851 | lr 9.5e-04 | norm 0.0268 | dt 0.083 type train | step 750 | loss 0.0441 0.0638 0.1154 0.1017 0.1845 | lr 9.5e-04 | norm 0.0181 | dt 0.081 type train | step 760 | loss 0.0440 0.0637 0.1152 0.1014 0.1833 | lr 9.5e-04 | norm 0.0198 | dt 0.080 type train | step 770 | loss 0.0439 0.0636 0.1151 0.1015 0.1840 | lr 9.5e-04 | norm 0.0184 | dt 0.081 type train | step 780 | loss 0.0440 0.0636 0.1150 0.1014 0.1842 | lr 9.5e-04 | norm 0.0177 | dt 0.081 type train | step 790 | loss 0.0435 0.0632 0.1147 0.1014 0.1835 | lr 9.5e-04 | norm 0.0194 | dt 0.081 type train | step 800 | loss 0.0431 0.0625 0.1141 0.1009 0.1827 | lr 9.4e-04 | norm 0.0181 | dt 0.080 type train | step 810 | loss 0.0433 0.0629 0.1147 0.1012 0.1833 | lr 9.4e-04 | norm 0.0187 | dt 0.081 type train | step 820 | loss 0.0433 0.0629 0.1145 0.1010 0.1831 | lr 9.4e-04 | norm 0.0177 | dt 0.081 type train | step 830 | loss 0.0433 0.0630 0.1148 0.1014 0.1843 | lr 9.4e-04 | norm 0.0155 | dt 0.081 type train | step 840 | loss 0.0431 0.0627 0.1144 0.1012 0.1837 | lr 9.4e-04 | norm 0.0207 | dt 0.080 type train | step 850 | loss 0.0432 0.0628 0.1148 0.1012 0.1836 | lr 9.4e-04 | norm 0.0212 | dt 0.081 type train | step 860 | loss 0.0426 0.0622 0.1139 0.1006 0.1828 | lr 9.4e-04 | norm 0.0170 | dt 0.080 type train | step 870 | loss 0.0426 0.0622 0.1141 0.1007 0.1828 | lr 9.3e-04 | norm 0.0206 | dt 0.081 type train | step 880 | loss 0.0426 0.0622 0.1141 0.1007 0.1830 | lr 9.3e-04 | norm 0.0186 | dt 0.081 type train | step 890 | loss 0.0429 0.0624 0.1140 0.1006 0.1830 | lr 9.3e-04 | norm 0.0242 | dt 0.081 type train | step 900 | loss 0.0424 0.0619 0.1138 0.1005 0.1825 | lr 9.3e-04 | norm 0.0236 | dt 0.082 type train | step 910 | loss 0.0426 0.0621 0.1139 0.1008 0.1828 | lr 9.3e-04 | norm 0.0232 | dt 0.081 type train | step 920 | loss 0.0426 0.0621 0.1142 0.1010 0.1837 | lr 9.3e-04 | norm 0.0211 | dt 0.080 type train | step 930 | loss 0.0427 0.0622 0.1140 0.1008 0.1836 | lr 9.3e-04 | norm 0.0147 | dt 0.085 type train | step 940 | loss 0.0425 0.0620 0.1138 0.1007 0.1832 | lr 9.2e-04 | norm 0.0234 | dt 0.081 type train | step 950 | loss 0.0424 0.0620 0.1140 0.1009 0.1833 | lr 9.2e-04 | norm 0.0234 | dt 0.081 type train | step 960 | loss 0.0422 0.0616 0.1135 0.1004 0.1828 | lr 9.2e-04 | norm 0.0141 | dt 0.083 type train | step 970 | loss 0.0425 0.0619 0.1140 0.1011 0.1839 | lr 9.2e-04 | norm 0.0187 | dt 0.082 type train | step 980 | loss 0.0424 0.0620 0.1141 0.1011 0.1842 | lr 9.2e-04 | norm 0.0206 | dt 0.081 type train | step 990 | loss 0.0421 0.0616 0.1134 0.1003 0.1831 | lr 9.2e-04 | norm 0.0162 | dt 0.083 type train | step 1000 | loss 0.0418 0.0613 0.1132 0.1002 0.1821 | lr 9.1e-04 | norm 0.0252 | dt 0.082 type train | step 1010 | loss 0.0424 0.0619 0.1140 0.1010 0.1843 | lr 9.1e-04 | norm 0.0191 | dt 0.080 type train | step 1020 | loss 0.0421 0.0616 0.1136 0.1007 0.1831 | lr 9.1e-04 | norm 0.0151 | dt 0.081 type train | step 1030 | loss 0.0419 0.0614 0.1134 0.1003 0.1819 | lr 9.1e-04 | norm 0.0201 | dt 0.082 type train | step 1040 | loss 0.0421 0.0616 0.1137 0.1007 0.1836 | lr 9.1e-04 | norm 0.0211 | dt 0.082 type train | step 1050 | loss 0.0415 0.0609 0.1128 0.1002 0.1829 | lr 9.1e-04 | norm 0.0233 | dt 0.081 type train | step 1060 | loss 0.0422 0.0617 0.1140 0.1011 0.1840 | lr 9.0e-04 | norm 0.0247 | dt 0.080 type train | step 1070 | loss 0.0417 0.0612 0.1133 0.1003 0.1823 | lr 9.0e-04 | norm 0.0189 | dt 0.080 type train | step 1080 | loss 0.0418 0.0613 0.1135 0.1004 0.1832 | lr 9.0e-04 | norm 0.0205 | dt 0.081 type train | step 1090 | loss 0.0424 0.0619 0.1141 0.1011 0.1841 | lr 9.0e-04 | norm 0.0225 | dt 0.083 type train | step 1100 | loss 0.0418 0.0612 0.1134 0.1004 0.1828 | lr 9.0e-04 | norm 0.0192 | dt 0.081 type train | step 1110 | loss 0.0416 0.0610 0.1132 0.1004 0.1828 | lr 8.9e-04 | norm 0.0215 | dt 0.082 type train | step 1120 | loss 0.0415 0.0608 0.1130 0.1001 0.1827 | lr 8.9e-04 | norm 0.0201 | dt 0.081 type train | step 1130 | loss 0.0414 0.0607 0.1129 0.1001 0.1828 | lr 8.9e-04 | norm 0.0215 | dt 0.083 type train | step 1140 | loss 0.0415 0.0610 0.1132 0.1002 0.1823 | lr 8.9e-04 | norm 0.0159 | dt 0.081 type train | step 1150 | loss 0.0418 0.0614 0.1135 0.1007 0.1830 | lr 8.9e-04 | norm 0.0192 | dt 0.082 type train | step 1160 | loss 0.0412 0.0606 0.1129 0.1002 0.1825 | lr 8.9e-04 | norm 0.0159 | dt 0.082 type train | step 1170 | loss 0.0412 0.0606 0.1130 0.1000 0.1823 | lr 8.8e-04 | norm 0.0160 | dt 0.082 type train | step 1180 | loss 0.0414 0.0608 0.1132 0.1004 0.1826 | lr 8.8e-04 | norm 0.0229 | dt 0.081 type train | step 1190 | loss 0.0415 0.0610 0.1135 0.1005 0.1825 | lr 8.8e-04 | norm 0.0172 | dt 0.083 type train | step 1200 | loss 0.0412 0.0605 0.1128 0.1000 0.1825 | lr 8.8e-04 | norm 0.0176 | dt 0.082 type train | step 1210 | loss 0.0416 0.0610 0.1135 0.1004 0.1828 | lr 8.8e-04 | norm 0.0196 | dt 0.083 type train | step 1220 | loss 0.0411 0.0605 0.1128 0.1001 0.1824 | lr 8.7e-04 | norm 0.0239 | dt 0.187 type train | step 1230 | loss 0.0410 0.0605 0.1131 0.1003 0.1831 | lr 8.7e-04 | norm 0.0197 | dt 0.090 type train | step 1240 | loss 0.0412 0.0607 0.1131 0.1003 0.1830 | lr 8.7e-04 | norm 0.0202 | dt 0.086 type train | step 1250 | loss 0.0411 0.0605 0.1129 0.0999 0.1823 | lr 8.7e-04 | norm 0.0215 | dt 0.086 type train | step 1260 | loss 0.0413 0.0606 0.1130 0.1002 0.1832 | lr 8.7e-04 | norm 0.0224 | dt 0.081 type train | step 1270 | loss 0.0412 0.0606 0.1131 0.1002 0.1828 | lr 8.6e-04 | norm 0.0239 | dt 0.080 type train | step 1280 | loss 0.0412 0.0606 0.1133 0.1004 0.1831 | lr 8.6e-04 | norm 0.0247 | dt 0.081 type train | step 1290 | loss 0.0412 0.0607 0.1131 0.1003 0.1831 | lr 8.6e-04 | norm 0.0215 | dt 0.083 type train | step 1300 | loss 0.0413 0.0606 0.1129 0.1002 0.1831 | lr 8.6e-04 | norm 0.0255 | dt 0.081 type train | step 1310 | loss 0.0409 0.0604 0.1128 0.0998 0.1823 | lr 8.6e-04 | norm 0.0160 | dt 0.087 type train | step 1320 | loss 0.0411 0.0605 0.1129 0.1001 0.1830 | lr 8.5e-04 | norm 0.0176 | dt 0.085 type train | step 1330 | loss 0.0410 0.0605 0.1129 0.1001 0.1826 | lr 8.5e-04 | norm 0.0167 | dt 0.081 type train | step 1340 | loss 0.0409 0.0603 0.1126 0.0997 0.1819 | lr 8.5e-04 | norm 0.0174 | dt 0.081 type train | step 1350 | loss 0.0416 0.0611 0.1136 0.1008 0.1839 | lr 8.5e-04 | norm 0.0271 | dt 0.082 type train | step 1360 | loss 0.0411 0.0605 0.1131 0.1003 0.1833 | lr 8.5e-04 | norm 0.0170 | dt 0.083 type train | step 1370 | loss 0.0410 0.0604 0.1130 0.1001 0.1821 | lr 8.4e-04 | norm 0.0216 | dt 0.081 type train | step 1380 | loss 0.0410 0.0605 0.1130 0.1003 0.1828 | lr 8.4e-04 | norm 0.0177 | dt 0.081 type train | step 1390 | loss 0.0412 0.0606 0.1130 0.1001 0.1831 | lr 8.4e-04 | norm 0.0169 | dt 0.080 type train | step 1400 | loss 0.0408 0.0603 0.1128 0.1002 0.1825 | lr 8.4e-04 | norm 0.0204 | dt 0.081 type train | step 1410 | loss 0.0404 0.0597 0.1122 0.0997 0.1817 | lr 8.3e-04 | norm 0.0177 | dt 0.082 type train | step 1420 | loss 0.0408 0.0602 0.1129 0.1001 0.1824 | lr 8.3e-04 | norm 0.0192 | dt 0.081 type train | step 1430 | loss 0.0408 0.0602 0.1128 0.0999 0.1822 | lr 8.3e-04 | norm 0.0190 | dt 0.082 type train | step 1440 | loss 0.0409 0.0604 0.1132 0.1003 0.1833 | lr 8.3e-04 | norm 0.0151 | dt 0.083 type train | step 1450 | loss 0.0407 0.0602 0.1128 0.1002 0.1829 | lr 8.3e-04 | norm 0.0200 | dt 0.081 type train | step 1460 | loss 0.0409 0.0604 0.1132 0.1002 0.1828 | lr 8.2e-04 | norm 0.0214 | dt 0.083 type train | step 1470 | loss 0.0404 0.0598 0.1124 0.0997 0.1820 | lr 8.2e-04 | norm 0.0168 | dt 0.082 type train | step 1480 | loss 0.0404 0.0599 0.1126 0.0998 0.1820 | lr 8.2e-04 | norm 0.0200 | dt 0.083 type train | step 1490 | loss 0.0405 0.0600 0.1127 0.0998 0.1822 | lr 8.2e-04 | norm 0.0164 | dt 0.082 type train | step 1500 | loss 0.0408 0.0602 0.1127 0.0997 0.1823 | lr 8.1e-04 | norm 0.0240 | dt 0.082 type train | step 1510 | loss 0.0403 0.0598 0.1125 0.0996 0.1818 | lr 8.1e-04 | norm 0.0235 | dt 0.081 type train | step 1520 | loss 0.0406 0.0600 0.1127 0.0999 0.1822 | lr 8.1e-04 | norm 0.0252 | dt 0.081 type train | step 1530 | loss 0.0406 0.0601 0.1129 0.1002 0.1831 | lr 8.1e-04 | norm 0.0198 | dt 0.086 type train | step 1540 | loss 0.0408 0.0602 0.1128 0.1000 0.1831 | lr 8.1e-04 | norm 0.0159 | dt 0.081 type train | step 1550 | loss 0.0406 0.0601 0.1126 0.0999 0.1826 | lr 8.0e-04 | norm 0.0231 | dt 0.081 type train | step 1560 | loss 0.0405 0.0601 0.1129 0.1001 0.1827 | lr 8.0e-04 | norm 0.0223 | dt 0.082 type train | step 1570 | loss 0.0403 0.0598 0.1124 0.0997 0.1822 | lr 8.0e-04 | norm 0.0136 | dt 0.082 type train | step 1580 | loss 0.0406 0.0602 0.1129 0.1003 0.1834 | lr 8.0e-04 | norm 0.0173 | dt 0.081 type train | step 1590 | loss 0.0406 0.0602 0.1131 0.1004 0.1837 | lr 7.9e-04 | norm 0.0200 | dt 0.083 type train | step 1600 | loss 0.0404 0.0599 0.1124 0.0997 0.1826 | lr 7.9e-04 | norm 0.0145 | dt 0.082 type train | step 1610 | loss 0.0401 0.0596 0.1123 0.0995 0.1816 | lr 7.9e-04 | norm 0.0250 | dt 0.082 type train | step 1620 | loss 0.0407 0.0602 0.1130 0.1004 0.1838 | lr 7.9e-04 | norm 0.0196 | dt 0.082 type train | step 1630 | loss 0.0404 0.0600 0.1127 0.1000 0.1827 | lr 7.8e-04 | norm 0.0148 | dt 0.083 type train | step 1640 | loss 0.0403 0.0599 0.1125 0.0996 0.1815 | lr 7.8e-04 | norm 0.0205 | dt 0.081 type train | step 1650 | loss 0.0406 0.0601 0.1128 0.1001 0.1832 | lr 7.8e-04 | norm 0.0213 | dt 0.080 type train | step 1660 | loss 0.0399 0.0594 0.1120 0.0996 0.1825 | lr 7.8e-04 | norm 0.0232 | dt 0.081 type train | step 1670 | loss 0.0406 0.0602 0.1131 0.1005 0.1836 | lr 7.7e-04 | norm 0.0246 | dt 0.081 type train | step 1680 | loss 0.0402 0.0598 0.1125 0.0998 0.1819 | lr 7.7e-04 | norm 0.0198 | dt 0.080 type train | step 1690 | loss 0.0403 0.0599 0.1126 0.0999 0.1828 | lr 7.7e-04 | norm 0.0195 | dt 0.081 type train | step 1700 | loss 0.0409 0.0606 0.1133 0.1005 0.1838 | lr 7.7e-04 | norm 0.0218 | dt 0.081 type train | step 1710 | loss 0.0403 0.0599 0.1127 0.0999 0.1824 | lr 7.6e-04 | norm 0.0177 | dt 0.081 type train | step 1720 | loss 0.0401 0.0597 0.1124 0.0999 0.1825 | lr 7.6e-04 | norm 0.0202 | dt 0.081 type train | step 1730 | loss 0.0401 0.0596 0.1123 0.0995 0.1824 | lr 7.6e-04 | norm 0.0221 | dt 0.085 type train | step 1740 | loss 0.0400 0.0595 0.1122 0.0996 0.1825 | lr 7.6e-04 | norm 0.0215 | dt 0.081 type train | step 1750 | loss 0.0401 0.0598 0.1126 0.0997 0.1820 | lr 7.5e-04 | norm 0.0164 | dt 0.081 type train | step 1760 | loss 0.0404 0.0602 0.1129 0.1002 0.1827 | lr 7.5e-04 | norm 0.0188 | dt 0.080 type train | step 1770 | loss 0.0399 0.0594 0.1123 0.0997 0.1822 | lr 7.5e-04 | norm 0.0166 | dt 0.081 type train | step 1780 | loss 0.0399 0.0595 0.1123 0.0995 0.1820 | lr 7.5e-04 | norm 0.0166 | dt 0.083 type train | step 1790 | loss 0.0401 0.0597 0.1125 0.0999 0.1823 | lr 7.4e-04 | norm 0.0217 | dt 0.082 type train | step 1800 | loss 0.0402 0.0599 0.1128 0.1000 0.1822 | lr 7.4e-04 | norm 0.0171 | dt 0.082 type train | step 1810 | loss 0.0399 0.0594 0.1122 0.0996 0.1822 | lr 7.4e-04 | norm 0.0180 | dt 0.081 type train | step 1820 | loss 0.0403 0.0600 0.1129 0.1000 0.1825 | lr 7.4e-04 | norm 0.0183 | dt 0.080 type train | step 1830 | loss 0.0399 0.0595 0.1123 0.0997 0.1821 | lr 7.3e-04 | norm 0.0237 | dt 0.289 type train | step 1840 | loss 0.0397 0.0595 0.1125 0.0999 0.1828 | lr 7.3e-04 | norm 0.0184 | dt 0.086 type train | step 1850 | loss 0.0400 0.0597 0.1126 0.0999 0.1827 | lr 7.3e-04 | norm 0.0209 | dt 0.088 type train | step 1860 | loss 0.0399 0.0595 0.1124 0.0995 0.1821 | lr 7.3e-04 | norm 0.0209 | dt 0.085 type train | step 1870 | loss 0.0401 0.0597 0.1124 0.0998 0.1830 | lr 7.2e-04 | norm 0.0230 | dt 0.082 type train | step 1880 | loss 0.0401 0.0597 0.1126 0.0998 0.1825 | lr 7.2e-04 | norm 0.0235 | dt 0.081 type train | step 1890 | loss 0.0400 0.0597 0.1127 0.1001 0.1829 | lr 7.2e-04 | norm 0.0232 | dt 0.082 type train | step 1900 | loss 0.0401 0.0598 0.1126 0.0999 0.1829 | lr 7.2e-04 | norm 0.0204 | dt 0.081 type train | step 1910 | loss 0.0401 0.0598 0.1125 0.0999 0.1828 | lr 7.1e-04 | norm 0.0252 | dt 0.081 type train | step 1920 | loss 0.0398 0.0595 0.1123 0.0995 0.1821 | lr 7.1e-04 | norm 0.0161 | dt 0.081 type train | step 1930 | loss 0.0400 0.0597 0.1124 0.0997 0.1828 | lr 7.1e-04 | norm 0.0177 | dt 0.081 type train | step 1940 | loss 0.0400 0.0597 0.1125 0.0998 0.1824 | lr 7.1e-04 | norm 0.0159 | dt 0.082 type train | step 1950 | loss 0.0398 0.0595 0.1122 0.0994 0.1817 | lr 7.0e-04 | norm 0.0174 | dt 0.082 type train | step 1960 | loss 0.0406 0.0603 0.1131 0.1005 0.1836 | lr 7.0e-04 | norm 0.0269 | dt 0.081 type train | step 1970 | loss 0.0400 0.0598 0.1127 0.1000 0.1831 | lr 7.0e-04 | norm 0.0163 | dt 0.081 type train | step 1980 | loss 0.0400 0.0597 0.1126 0.0998 0.1819 | lr 6.9e-04 | norm 0.0217 | dt 0.081 type train | step 1990 | loss 0.0400 0.0597 0.1126 0.1000 0.1826 | lr 6.9e-04 | norm 0.0168 | dt 0.081 type train | step 2000 | loss 0.0402 0.0599 0.1126 0.0999 0.1829 | lr 6.9e-04 | norm 0.0175 | dt 0.081 type train | step 2010 | loss 0.0398 0.0596 0.1124 0.0999 0.1824 | lr 6.9e-04 | norm 0.0208 | dt 0.085 type train | step 2020 | loss 0.0394 0.0590 0.1118 0.0995 0.1814 | lr 6.8e-04 | norm 0.0175 | dt 0.080 type train | step 2030 | loss 0.0398 0.0594 0.1125 0.0999 0.1822 | lr 6.8e-04 | norm 0.0182 | dt 0.081 type train | step 2040 | loss 0.0399 0.0596 0.1124 0.0997 0.1820 | lr 6.8e-04 | norm 0.0178 | dt 0.082 type train | step 2050 | loss 0.0399 0.0597 0.1128 0.1001 0.1832 | lr 6.8e-04 | norm 0.0152 | dt 0.080 type train | step 2060 | loss 0.0398 0.0596 0.1125 0.1000 0.1827 | lr 6.7e-04 | norm 0.0200 | dt 0.084 type train | step 2070 | loss 0.0400 0.0597 0.1128 0.1000 0.1826 | lr 6.7e-04 | norm 0.0211 | dt 0.088 type train | step 2080 | loss 0.0394 0.0592 0.1121 0.0995 0.1818 | lr 6.7e-04 | norm 0.0165 | dt 0.085 type train | step 2090 | loss 0.0395 0.0593 0.1123 0.0996 0.1818 | lr 6.6e-04 | norm 0.0195 | dt 0.082 type train | step 2100 | loss 0.0396 0.0593 0.1123 0.0996 0.1821 | lr 6.6e-04 | norm 0.0158 | dt 0.081 type train | step 2110 | loss 0.0399 0.0596 0.1123 0.0996 0.1821 | lr 6.6e-04 | norm 0.0233 | dt 0.082 type train | step 2120 | loss 0.0394 0.0592 0.1122 0.0995 0.1816 | lr 6.6e-04 | norm 0.0238 | dt 0.081 type train | step 2130 | loss 0.0397 0.0594 0.1123 0.0997 0.1820 | lr 6.5e-04 | norm 0.0246 | dt 0.082 type train | step 2140 | loss 0.0397 0.0596 0.1126 0.1000 0.1830 | lr 6.5e-04 | norm 0.0213 | dt 0.086 type train | step 2150 | loss 0.0399 0.0597 0.1125 0.0999 0.1829 | lr 6.5e-04 | norm 0.0170 | dt 0.086 type train | step 2160 | loss 0.0398 0.0595 0.1123 0.0997 0.1825 | lr 6.5e-04 | norm 0.0219 | dt 0.085 type train | step 2170 | loss 0.0397 0.0595 0.1125 0.1000 0.1826 | lr 6.4e-04 | norm 0.0221 | dt 0.081 type train | step 2180 | loss 0.0395 0.0593 0.1121 0.0995 0.1821 | lr 6.4e-04 | norm 0.0144 | dt 0.081 type train | step 2190 | loss 0.0399 0.0597 0.1127 0.1002 0.1832 | lr 6.4e-04 | norm 0.0186 | dt 0.081 type train | step 2200 | loss 0.0398 0.0597 0.1128 0.1002 0.1836 | lr 6.3e-04 | norm 0.0191 | dt 0.081 type train | step 2210 | loss 0.0396 0.0593 0.1121 0.0995 0.1825 | lr 6.3e-04 | norm 0.0144 | dt 0.082 type train | step 2220 | loss 0.0393 0.0591 0.1120 0.0993 0.1815 | lr 6.3e-04 | norm 0.0235 | dt 0.086 type train | step 2230 | loss 0.0399 0.0597 0.1127 0.1002 0.1837 | lr 6.3e-04 | norm 0.0205 | dt 0.086 type train | step 2240 | loss 0.0397 0.0595 0.1124 0.0998 0.1825 | lr 6.2e-04 | norm 0.0150 | dt 0.087 type train | step 2250 | loss 0.0395 0.0594 0.1123 0.0995 0.1814 | lr 6.2e-04 | norm 0.0200 | dt 0.085 type train | step 2260 | loss 0.0398 0.0596 0.1125 0.0999 0.1830 | lr 6.2e-04 | norm 0.0216 | dt 0.081 type train | step 2270 | loss 0.0392 0.0589 0.1117 0.0994 0.1824 | lr 6.1e-04 | norm 0.0221 | dt 0.082 type train | step 2280 | loss 0.0399 0.0598 0.1128 0.1003 0.1834 | lr 6.1e-04 | norm 0.0244 | dt 0.081 type train | step 2290 | loss 0.0395 0.0594 0.1122 0.0996 0.1818 | lr 6.1e-04 | norm 0.0169 | dt 0.089 type train | step 2300 | loss 0.0395 0.0595 0.1124 0.0997 0.1827 | lr 6.1e-04 | norm 0.0193 | dt 0.081 type train | step 2310 | loss 0.0402 0.0602 0.1130 0.1004 0.1837 | lr 6.0e-04 | norm 0.0207 | dt 0.081 type train | step 2320 | loss 0.0396 0.0595 0.1124 0.0997 0.1823 | lr 6.0e-04 | norm 0.0161 | dt 0.081 type train | step 2330 | loss 0.0394 0.0593 0.1122 0.0998 0.1824 | lr 6.0e-04 | norm 0.0199 | dt 0.083 type train | step 2340 | loss 0.0394 0.0592 0.1121 0.0994 0.1823 | lr 6.0e-04 | norm 0.0218 | dt 0.081 type train | step 2350 | loss 0.0394 0.0591 0.1119 0.0995 0.1824 | lr 5.9e-04 | norm 0.0214 | dt 0.081 type train | step 2360 | loss 0.0395 0.0593 0.1123 0.0995 0.1819 | lr 5.9e-04 | norm 0.0164 | dt 0.083 type train | step 2370 | loss 0.0398 0.0598 0.1126 0.1000 0.1826 | lr 5.9e-04 | norm 0.0190 | dt 0.084 type train | step 2380 | loss 0.0392 0.0590 0.1120 0.0996 0.1821 | lr 5.8e-04 | norm 0.0167 | dt 0.081 type train | step 2390 | loss 0.0392 0.0591 0.1121 0.0994 0.1818 | lr 5.8e-04 | norm 0.0157 | dt 0.081 type train | step 2400 | loss 0.0395 0.0593 0.1123 0.0998 0.1822 | lr 5.8e-04 | norm 0.0208 | dt 0.082 type train | step 2410 | loss 0.0396 0.0595 0.1126 0.0999 0.1821 | lr 5.8e-04 | norm 0.0167 | dt 0.082 type train | step 2420 | loss 0.0392 0.0591 0.1119 0.0994 0.1821 | lr 5.7e-04 | norm 0.0178 | dt 0.081 type train | step 2430 | loss 0.0397 0.0596 0.1126 0.0999 0.1824 | lr 5.7e-04 | norm 0.0180 | dt 0.081 type train | step 2440 | loss 0.0392 0.0591 0.1121 0.0996 0.1820 | lr 5.7e-04 | norm 0.0220 | dt 0.370 type train | step 2450 | loss 0.0391 0.0591 0.1123 0.0997 0.1827 | lr 5.6e-04 | norm 0.0174 | dt 0.081 type train | step 2460 | loss 0.0394 0.0594 0.1123 0.0997 0.1827 | lr 5.6e-04 | norm 0.0202 | dt 0.081 type train | step 2470 | loss 0.0393 0.0592 0.1122 0.0994 0.1820 | lr 5.6e-04 | norm 0.0208 | dt 0.081 type train | step 2480 | loss 0.0395 0.0593 0.1122 0.0997 0.1829 | lr 5.6e-04 | norm 0.0217 | dt 0.081 type train | step 2490 | loss 0.0395 0.0593 0.1124 0.0997 0.1824 | lr 5.5e-04 | norm 0.0217 | dt 0.081 type train | step 2500 | loss 0.0394 0.0594 0.1125 0.0999 0.1828 | lr 5.5e-04 | norm 0.0216 | dt 0.081 type train | step 2510 | loss 0.0395 0.0595 0.1125 0.0998 0.1828 | lr 5.5e-04 | norm 0.0185 | dt 0.085 type train | step 2520 | loss 0.0396 0.0594 0.1123 0.0997 0.1828 | lr 5.4e-04 | norm 0.0253 | dt 0.085 type train | step 2530 | loss 0.0393 0.0592 0.1121 0.0993 0.1820 | lr 5.4e-04 | norm 0.0143 | dt 0.081 type train | step 2540 | loss 0.0394 0.0594 0.1122 0.0996 0.1827 | lr 5.4e-04 | norm 0.0174 | dt 0.083 type train | step 2550 | loss 0.0395 0.0594 0.1123 0.0996 0.1823 | lr 5.4e-04 | norm 0.0156 | dt 0.084 type train | step 2560 | loss 0.0393 0.0592 0.1120 0.0992 0.1817 | lr 5.3e-04 | norm 0.0170 | dt 0.081 type train | step 2570 | loss 0.0401 0.0600 0.1129 0.1004 0.1836 | lr 5.3e-04 | norm 0.0256 | dt 0.083 type train | step 2580 | loss 0.0395 0.0595 0.1125 0.0999 0.1830 | lr 5.3e-04 | norm 0.0153 | dt 0.081 type train | step 2590 | loss 0.0395 0.0594 0.1124 0.0997 0.1818 | lr 5.2e-04 | norm 0.0184 | dt 0.081 type train | step 2600 | loss 0.0396 0.0594 0.1124 0.0999 0.1825 | lr 5.2e-04 | norm 0.0176 | dt 0.081 type train | step 2610 | loss 0.0398 0.0596 0.1124 0.0997 0.1828 | lr 5.2e-04 | norm 0.0168 | dt 0.081 type train | step 2620 | loss 0.0393 0.0593 0.1123 0.0998 0.1823 | lr 5.2e-04 | norm 0.0203 | dt 0.081 type train | step 2630 | loss 0.0390 0.0587 0.1117 0.0994 0.1814 | lr 5.1e-04 | norm 0.0178 | dt 0.081 type train | step 2640 | loss 0.0393 0.0592 0.1123 0.0998 0.1821 | lr 5.1e-04 | norm 0.0154 | dt 0.080 type train | step 2650 | loss 0.0394 0.0593 0.1123 0.0996 0.1819 | lr 5.1e-04 | norm 0.0184 | dt 0.081 type train | step 2660 | loss 0.0395 0.0595 0.1126 0.1000 0.1831 | lr 5.0e-04 | norm 0.0163 | dt 0.081 type train | step 2670 | loss 0.0394 0.0593 0.1123 0.0999 0.1826 | lr 5.0e-04 | norm 0.0210 | dt 0.084 type train | step 2680 | loss 0.0396 0.0595 0.1127 0.0999 0.1826 | lr 5.0e-04 | norm 0.0213 | dt 0.081 type train | step 2690 | loss 0.0390 0.0589 0.1119 0.0994 0.1817 | lr 5.0e-04 | norm 0.0168 | dt 0.083 type train | step 2700 | loss 0.0391 0.0590 0.1121 0.0995 0.1817 | lr 4.9e-04 | norm 0.0190 | dt 0.081 type train | step 2710 | loss 0.0392 0.0591 0.1122 0.0995 0.1820 | lr 4.9e-04 | norm 0.0150 | dt 0.082 type train | step 2720 | loss 0.0395 0.0593 0.1122 0.0995 0.1821 | lr 4.9e-04 | norm 0.0208 | dt 0.081 type train | step 2730 | loss 0.0390 0.0589 0.1120 0.0994 0.1816 | lr 4.9e-04 | norm 0.0237 | dt 0.082 type train | step 2740 | loss 0.0393 0.0592 0.1122 0.0996 0.1820 | lr 4.8e-04 | norm 0.0220 | dt 0.082 type train | step 2750 | loss 0.0393 0.0593 0.1125 0.0999 0.1829 | lr 4.8e-04 | norm 0.0228 | dt 0.087 type train | step 2760 | loss 0.0396 0.0594 0.1124 0.0998 0.1829 | lr 4.8e-04 | norm 0.0142 | dt 0.080 type train | step 2770 | loss 0.0394 0.0593 0.1122 0.0996 0.1824 | lr 4.7e-04 | norm 0.0195 | dt 0.081 type train | step 2780 | loss 0.0393 0.0593 0.1124 0.0999 0.1825 | lr 4.7e-04 | norm 0.0222 | dt 0.081 type train | step 2790 | loss 0.0392 0.0590 0.1119 0.0994 0.1820 | lr 4.7e-04 | norm 0.0145 | dt 0.082 type train | step 2800 | loss 0.0395 0.0594 0.1125 0.1000 0.1831 | lr 4.7e-04 | norm 0.0156 | dt 0.082 type train | step 2810 | loss 0.0395 0.0595 0.1127 0.1002 0.1835 | lr 4.6e-04 | norm 0.0196 | dt 0.080 type train | step 2820 | loss 0.0392 0.0591 0.1119 0.0994 0.1824 | lr 4.6e-04 | norm 0.0151 | dt 0.081 type train | step 2830 | loss 0.0390 0.0588 0.1118 0.0992 0.1814 | lr 4.6e-04 | norm 0.0225 | dt 0.081 type train | step 2840 | loss 0.0396 0.0594 0.1126 0.1001 0.1836 | lr 4.5e-04 | norm 0.0214 | dt 0.082 type train | step 2850 | loss 0.0393 0.0592 0.1123 0.0997 0.1825 | lr 4.5e-04 | norm 0.0157 | dt 0.081 type train | step 2860 | loss 0.0392 0.0592 0.1121 0.0994 0.1814 | lr 4.5e-04 | norm 0.0207 | dt 0.081 type train | step 2870 | loss 0.0395 0.0594 0.1124 0.0998 0.1830 | lr 4.5e-04 | norm 0.0208 | dt 0.085 type train | step 2880 | loss 0.0389 0.0586 0.1116 0.0993 0.1823 | lr 4.4e-04 | norm 0.0214 | dt 0.081 type train | step 2890 | loss 0.0396 0.0596 0.1127 0.1003 0.1834 | lr 4.4e-04 | norm 0.0225 | dt 0.082 type train | step 2900 | loss 0.0391 0.0592 0.1121 0.0995 0.1817 | lr 4.4e-04 | norm 0.0153 | dt 0.085 type train | step 2910 | loss 0.0392 0.0593 0.1123 0.0997 0.1827 | lr 4.4e-04 | norm 0.0204 | dt 0.081 type train | step 2920 | loss 0.0398 0.0600 0.1129 0.1003 0.1837 | lr 4.3e-04 | norm 0.0184 | dt 0.083 type train | step 2930 | loss 0.0393 0.0593 0.1123 0.0996 0.1822 | lr 4.3e-04 | norm 0.0144 | dt 0.088 type train | step 2940 | loss 0.0391 0.0591 0.1121 0.0997 0.1823 | lr 4.3e-04 | norm 0.0186 | dt 0.087 type train | step 2950 | loss 0.0391 0.0590 0.1119 0.0993 0.1822 | lr 4.2e-04 | norm 0.0198 | dt 0.086 type train | step 2960 | loss 0.0391 0.0588 0.1118 0.0994 0.1823 | lr 4.2e-04 | norm 0.0203 | dt 0.086 type train | step 2970 | loss 0.0392 0.0591 0.1122 0.0994 0.1819 | lr 4.2e-04 | norm 0.0154 | dt 0.086 type train | step 2980 | loss 0.0395 0.0596 0.1125 0.0999 0.1826 | lr 4.2e-04 | norm 0.0184 | dt 0.085 type train | step 2990 | loss 0.0389 0.0588 0.1119 0.0995 0.1821 | lr 4.1e-04 | norm 0.0178 | dt 0.086 type train | step 3000 | loss 0.0389 0.0590 0.1120 0.0993 0.1818 | lr 4.1e-04 | norm 0.0155 | dt 0.085 type train | step 3010 | loss 0.0392 0.0591 0.1122 0.0997 0.1822 | lr 4.1e-04 | norm 0.0204 | dt 0.081 type train | step 3020 | loss 0.0393 0.0593 0.1125 0.0998 0.1821 | lr 4.1e-04 | norm 0.0142 | dt 0.080 type train | step 3030 | loss 0.0390 0.0589 0.1119 0.0994 0.1821 | lr 4.0e-04 | norm 0.0172 | dt 0.080 type train | step 3040 | loss 0.0394 0.0594 0.1126 0.0998 0.1824 | lr 4.0e-04 | norm 0.0160 | dt 0.081 type train | step 3050 | loss 0.0390 0.0589 0.1120 0.0995 0.1820 | lr 4.0e-04 | norm 0.0214 | dt 0.169 type train | step 3060 | loss 0.0388 0.0589 0.1122 0.0996 0.1827 | lr 3.9e-04 | norm 0.0164 | dt 0.081 type train | step 3070 | loss 0.0391 0.0592 0.1123 0.0997 0.1826 | lr 3.9e-04 | norm 0.0195 | dt 0.084 type train | step 3080 | loss 0.0391 0.0590 0.1121 0.0993 0.1820 | lr 3.9e-04 | norm 0.0205 | dt 0.086 type train | step 3090 | loss 0.0393 0.0592 0.1122 0.0996 0.1828 | lr 3.9e-04 | norm 0.0204 | dt 0.085 type train | step 3100 | loss 0.0393 0.0592 0.1123 0.0996 0.1824 | lr 3.8e-04 | norm 0.0209 | dt 0.081 type train | step 3110 | loss 0.0392 0.0592 0.1124 0.0998 0.1828 | lr 3.8e-04 | norm 0.0191 | dt 0.081 type train | step 3120 | loss 0.0393 0.0594 0.1124 0.0997 0.1828 | lr 3.8e-04 | norm 0.0186 | dt 0.081 type train | step 3130 | loss 0.0394 0.0593 0.1122 0.0997 0.1827 | lr 3.8e-04 | norm 0.0243 | dt 0.084 type train | step 3140 | loss 0.0391 0.0590 0.1121 0.0992 0.1820 | lr 3.7e-04 | norm 0.0125 | dt 0.081 type train | step 3150 | loss 0.0392 0.0592 0.1121 0.0996 0.1827 | lr 3.7e-04 | norm 0.0156 | dt 0.081 type train | step 3160 | loss 0.0392 0.0592 0.1122 0.0996 0.1823 | lr 3.7e-04 | norm 0.0154 | dt 0.082 type train | step 3170 | loss 0.0391 0.0590 0.1119 0.0992 0.1816 | lr 3.7e-04 | norm 0.0158 | dt 0.088 type train | step 3180 | loss 0.0399 0.0598 0.1129 0.1003 0.1836 | lr 3.6e-04 | norm 0.0262 | dt 0.085 type train | step 3190 | loss 0.0393 0.0593 0.1124 0.0999 0.1830 | lr 3.6e-04 | norm 0.0150 | dt 0.086 type train | step 3200 | loss 0.0393 0.0592 0.1123 0.0996 0.1818 | lr 3.6e-04 | norm 0.0161 | dt 0.086 type train | step 3210 | loss 0.0393 0.0593 0.1123 0.0998 0.1825 | lr 3.6e-04 | norm 0.0161 | dt 0.081 type train | step 3220 | loss 0.0396 0.0595 0.1124 0.0997 0.1828 | lr 3.5e-04 | norm 0.0148 | dt 0.080 type train | step 3230 | loss 0.0391 0.0592 0.1122 0.0998 0.1823 | lr 3.5e-04 | norm 0.0209 | dt 0.081 type train | step 3240 | loss 0.0388 0.0586 0.1116 0.0993 0.1813 | lr 3.5e-04 | norm 0.0179 | dt 0.082 type train | step 3250 | loss 0.0391 0.0590 0.1122 0.0997 0.1821 | lr 3.5e-04 | norm 0.0136 | dt 0.082 type train | step 3260 | loss 0.0392 0.0592 0.1122 0.0995 0.1819 | lr 3.4e-04 | norm 0.0190 | dt 0.080 type train | step 3270 | loss 0.0393 0.0593 0.1126 0.0999 0.1831 | lr 3.4e-04 | norm 0.0172 | dt 0.080 type train | step 3280 | loss 0.0392 0.0592 0.1122 0.0998 0.1826 | lr 3.4e-04 | norm 0.0174 | dt 0.081 type train | step 3290 | loss 0.0394 0.0593 0.1126 0.0998 0.1825 | lr 3.4e-04 | norm 0.0210 | dt 0.084 type train | step 3300 | loss 0.0388 0.0588 0.1119 0.0993 0.1817 | lr 3.3e-04 | norm 0.0159 | dt 0.081 type train | step 3310 | loss 0.0389 0.0589 0.1121 0.0994 0.1817 | lr 3.3e-04 | norm 0.0191 | dt 0.081 type train | step 3320 | loss 0.0390 0.0590 0.1121 0.0995 0.1820 | lr 3.3e-04 | norm 0.0141 | dt 0.084 type train | step 3330 | loss 0.0393 0.0592 0.1122 0.0994 0.1820 | lr 3.3e-04 | norm 0.0185 | dt 0.081 type train | step 3340 | loss 0.0388 0.0588 0.1120 0.0993 0.1816 | lr 3.2e-04 | norm 0.0230 | dt 0.081 type train | step 3350 | loss 0.0391 0.0591 0.1121 0.0996 0.1819 | lr 3.2e-04 | norm 0.0202 | dt 0.082 type train | step 3360 | loss 0.0392 0.0592 0.1124 0.0998 0.1829 | lr 3.2e-04 | norm 0.0207 | dt 0.081 type train | step 3370 | loss 0.0394 0.0593 0.1123 0.0997 0.1828 | lr 3.2e-04 | norm 0.0145 | dt 0.080 type train | step 3380 | loss 0.0392 0.0591 0.1121 0.0996 0.1824 | lr 3.1e-04 | norm 0.0184 | dt 0.081 type train | step 3390 | loss 0.0391 0.0592 0.1123 0.0999 0.1825 | lr 3.1e-04 | norm 0.0209 | dt 0.084 type train | step 3400 | loss 0.0390 0.0589 0.1119 0.0993 0.1820 | lr 3.1e-04 | norm 0.0140 | dt 0.081 type train | step 3410 | loss 0.0393 0.0593 0.1125 0.1000 0.1831 | lr 3.1e-04 | norm 0.0138 | dt 0.081 type train | step 3420 | loss 0.0393 0.0594 0.1126 0.1001 0.1835 | lr 3.0e-04 | norm 0.0177 | dt 0.083 type train | step 3430 | loss 0.0390 0.0590 0.1119 0.0994 0.1824 | lr 3.0e-04 | norm 0.0154 | dt 0.083 type train | step 3440 | loss 0.0388 0.0587 0.1118 0.0992 0.1814 | lr 3.0e-04 | norm 0.0227 | dt 0.082 type train | step 3450 | loss 0.0394 0.0593 0.1126 0.1001 0.1836 | lr 3.0e-04 | norm 0.0222 | dt 0.081 type train | step 3460 | loss 0.0392 0.0591 0.1123 0.0997 0.1824 | lr 2.9e-04 | norm 0.0131 | dt 0.088 type train | step 3470 | loss 0.0390 0.0590 0.1121 0.0994 0.1814 | lr 2.9e-04 | norm 0.0212 | dt 0.087 type train | step 3480 | loss 0.0393 0.0593 0.1123 0.0998 0.1829 | lr 2.9e-04 | norm 0.0195 | dt 0.086 type train | step 3490 | loss 0.0387 0.0585 0.1116 0.0993 0.1823 | lr 2.9e-04 | norm 0.0221 | dt 0.086 type train | step 3500 | loss 0.0394 0.0594 0.1127 0.1002 0.1834 | lr 2.9e-04 | norm 0.0229 | dt 0.086 type train | step 3510 | loss 0.0390 0.0591 0.1120 0.0995 0.1817 | lr 2.8e-04 | norm 0.0138 | dt 0.082 type train | step 3520 | loss 0.0391 0.0591 0.1122 0.0996 0.1827 | lr 2.8e-04 | norm 0.0194 | dt 0.081 type train | step 3530 | loss 0.0397 0.0599 0.1128 0.1003 0.1836 | lr 2.8e-04 | norm 0.0170 | dt 0.081 type train | step 3540 | loss 0.0392 0.0592 0.1122 0.0996 0.1822 | lr 2.8e-04 | norm 0.0132 | dt 0.083 type train | step 3550 | loss 0.0390 0.0590 0.1120 0.0996 0.1823 | lr 2.7e-04 | norm 0.0184 | dt 0.082 type train | step 3560 | loss 0.0389 0.0589 0.1119 0.0993 0.1822 | lr 2.7e-04 | norm 0.0182 | dt 0.081 type train | step 3570 | loss 0.0389 0.0587 0.1118 0.0993 0.1823 | lr 2.7e-04 | norm 0.0188 | dt 0.081 type train | step 3580 | loss 0.0390 0.0590 0.1121 0.0994 0.1818 | lr 2.7e-04 | norm 0.0159 | dt 0.082 type train | step 3590 | loss 0.0394 0.0595 0.1125 0.0999 0.1826 | lr 2.7e-04 | norm 0.0181 | dt 0.081 type train | step 3600 | loss 0.0387 0.0587 0.1119 0.0995 0.1820 | lr 2.6e-04 | norm 0.0169 | dt 0.083 type train | step 3610 | loss 0.0388 0.0588 0.1120 0.0993 0.1818 | lr 2.6e-04 | norm 0.0143 | dt 0.082 type train | step 3620 | loss 0.0391 0.0590 0.1122 0.0997 0.1822 | lr 2.6e-04 | norm 0.0205 | dt 0.081 type train | step 3630 | loss 0.0391 0.0592 0.1124 0.0998 0.1820 | lr 2.6e-04 | norm 0.0133 | dt 0.081 type train | step 3640 | loss 0.0388 0.0588 0.1118 0.0993 0.1821 | lr 2.5e-04 | norm 0.0169 | dt 0.081 type train | step 3650 | loss 0.0393 0.0593 0.1125 0.0998 0.1824 | lr 2.5e-04 | norm 0.0145 | dt 0.082 type train | step 3660 | loss 0.0388 0.0588 0.1119 0.0994 0.1819 | lr 2.5e-04 | norm 0.0204 | dt 0.307 type train | step 3670 | loss 0.0387 0.0588 0.1121 0.0996 0.1827 | lr 2.5e-04 | norm 0.0148 | dt 0.080 type train | step 3680 | loss 0.0390 0.0591 0.1122 0.0996 0.1826 | lr 2.5e-04 | norm 0.0193 | dt 0.081 type train | step 3690 | loss 0.0389 0.0589 0.1121 0.0992 0.1819 | lr 2.4e-04 | norm 0.0205 | dt 0.082 type train | step 3700 | loss 0.0392 0.0591 0.1121 0.0996 0.1828 | lr 2.4e-04 | norm 0.0194 | dt 0.083 type train | step 3710 | loss 0.0391 0.0591 0.1122 0.0996 0.1824 | lr 2.4e-04 | norm 0.0206 | dt 0.081 type train | step 3720 | loss 0.0391 0.0591 0.1124 0.0998 0.1827 | lr 2.4e-04 | norm 0.0172 | dt 0.081 type train | step 3730 | loss 0.0391 0.0592 0.1123 0.0997 0.1828 | lr 2.4e-04 | norm 0.0182 | dt 0.081 type train | step 3740 | loss 0.0392 0.0592 0.1122 0.0996 0.1827 | lr 2.3e-04 | norm 0.0229 | dt 0.081 type train | step 3750 | loss 0.0390 0.0589 0.1120 0.0992 0.1820 | lr 2.3e-04 | norm 0.0118 | dt 0.081 type train | step 3760 | loss 0.0391 0.0591 0.1121 0.0995 0.1827 | lr 2.3e-04 | norm 0.0158 | dt 0.080 type train | step 3770 | loss 0.0391 0.0591 0.1122 0.0995 0.1823 | lr 2.3e-04 | norm 0.0171 | dt 0.081 type train | step 3780 | loss 0.0390 0.0589 0.1119 0.0992 0.1816 | lr 2.3e-04 | norm 0.0151 | dt 0.081 type train | step 3790 | loss 0.0397 0.0597 0.1128 0.1003 0.1836 | lr 2.2e-04 | norm 0.0251 | dt 0.083 type train | step 3800 | loss 0.0392 0.0592 0.1124 0.0998 0.1830 | lr 2.2e-04 | norm 0.0130 | dt 0.083 type train | step 3810 | loss 0.0392 0.0591 0.1123 0.0996 0.1818 | lr 2.2e-04 | norm 0.0152 | dt 0.081 type train | step 3820 | loss 0.0392 0.0592 0.1123 0.0998 0.1825 | lr 2.2e-04 | norm 0.0156 | dt 0.082 type train | step 3830 | loss 0.0394 0.0594 0.1123 0.0996 0.1828 | lr 2.2e-04 | norm 0.0158 | dt 0.082 type train | step 3840 | loss 0.0390 0.0591 0.1121 0.0997 0.1822 | lr 2.1e-04 | norm 0.0201 | dt 0.080 type train | step 3850 | loss 0.0387 0.0585 0.1116 0.0993 0.1813 | lr 2.1e-04 | norm 0.0176 | dt 0.081 type train | step 3860 | loss 0.0390 0.0589 0.1122 0.0997 0.1820 | lr 2.1e-04 | norm 0.0144 | dt 0.081 type train | step 3870 | loss 0.0391 0.0590 0.1121 0.0995 0.1819 | lr 2.1e-04 | norm 0.0169 | dt 0.082 type train | step 3880 | loss 0.0392 0.0592 0.1125 0.0999 0.1831 | lr 2.1e-04 | norm 0.0157 | dt 0.081 type train | step 3890 | loss 0.0391 0.0590 0.1122 0.0998 0.1825 | lr 2.1e-04 | norm 0.0173 | dt 0.081 type train | step 3900 | loss 0.0393 0.0592 0.1125 0.0998 0.1825 | lr 2.0e-04 | norm 0.0204 | dt 0.081 type train | step 3910 | loss 0.0387 0.0587 0.1118 0.0993 0.1817 | lr 2.0e-04 | norm 0.0149 | dt 0.084 type train | step 3920 | loss 0.0388 0.0587 0.1120 0.0994 0.1817 | lr 2.0e-04 | norm 0.0187 | dt 0.081 type train | step 3930 | loss 0.0388 0.0588 0.1121 0.0994 0.1820 | lr 2.0e-04 | norm 0.0147 | dt 0.084 type train | step 3940 | loss 0.0392 0.0591 0.1121 0.0994 0.1820 | lr 2.0e-04 | norm 0.0185 | dt 0.081 type train | step 3950 | loss 0.0387 0.0587 0.1119 0.0993 0.1816 | lr 1.9e-04 | norm 0.0225 | dt 0.081 type train | step 3960 | loss 0.0390 0.0589 0.1121 0.0995 0.1819 | lr 1.9e-04 | norm 0.0183 | dt 0.082 type train | step 3970 | loss 0.0391 0.0591 0.1124 0.0998 0.1829 | lr 1.9e-04 | norm 0.0199 | dt 0.080 type train | step 3980 | loss 0.0393 0.0592 0.1123 0.0997 0.1828 | lr 1.9e-04 | norm 0.0152 | dt 0.081 type train | step 3990 | loss 0.0391 0.0590 0.1121 0.0995 0.1823 | lr 1.9e-04 | norm 0.0165 | dt 0.084 type train | step 4000 | loss 0.0390 0.0591 0.1123 0.0998 0.1824 | lr 1.9e-04 | norm 0.0207 | dt 0.081 type train | step 4010 | loss 0.0389 0.0588 0.1118 0.0993 0.1820 | lr 1.8e-04 | norm 0.0145 | dt 0.081 type train | step 4020 | loss 0.0392 0.0592 0.1124 0.1000 0.1831 | lr 1.8e-04 | norm 0.0130 | dt 0.086 type train | step 4030 | loss 0.0392 0.0593 0.1126 0.1001 0.1835 | lr 1.8e-04 | norm 0.0170 | dt 0.083 type train | step 4040 | loss 0.0389 0.0589 0.1119 0.0993 0.1824 | lr 1.8e-04 | norm 0.0140 | dt 0.082 type train | step 4050 | loss 0.0387 0.0586 0.1117 0.0992 0.1814 | lr 1.8e-04 | norm 0.0235 | dt 0.083 type train | step 4060 | loss 0.0393 0.0592 0.1125 0.1001 0.1836 | lr 1.8e-04 | norm 0.0216 | dt 0.081 type train | step 4070 | loss 0.0391 0.0590 0.1123 0.0997 0.1824 | lr 1.7e-04 | norm 0.0118 | dt 0.084 type train | step 4080 | loss 0.0389 0.0589 0.1120 0.0993 0.1813 | lr 1.7e-04 | norm 0.0209 | dt 0.082 type train | step 4090 | loss 0.0392 0.0592 0.1123 0.0997 0.1829 | lr 1.7e-04 | norm 0.0178 | dt 0.084 type train | step 4100 | loss 0.0386 0.0584 0.1115 0.0993 0.1823 | lr 1.7e-04 | norm 0.0219 | dt 0.085 type train | step 4110 | loss 0.0393 0.0593 0.1126 0.1002 0.1834 | lr 1.7e-04 | norm 0.0227 | dt 0.081 type train | step 4120 | loss 0.0389 0.0590 0.1120 0.0994 0.1817 | lr 1.7e-04 | norm 0.0128 | dt 0.083 type train | step 4130 | loss 0.0390 0.0590 0.1122 0.0996 0.1827 | lr 1.7e-04 | norm 0.0193 | dt 0.080 type train | step 4140 | loss 0.0396 0.0598 0.1128 0.1003 0.1836 | lr 1.6e-04 | norm 0.0159 | dt 0.081 type train | step 4150 | loss 0.0391 0.0591 0.1122 0.0996 0.1822 | lr 1.6e-04 | norm 0.0140 | dt 0.084 type train | step 4160 | loss 0.0389 0.0589 0.1120 0.0996 0.1823 | lr 1.6e-04 | norm 0.0183 | dt 0.087 type train | step 4170 | loss 0.0388 0.0588 0.1118 0.0993 0.1822 | lr 1.6e-04 | norm 0.0187 | dt 0.086 type train | step 4180 | loss 0.0388 0.0586 0.1118 0.0993 0.1823 | lr 1.6e-04 | norm 0.0179 | dt 0.085 type train | step 4190 | loss 0.0389 0.0589 0.1121 0.0994 0.1818 | lr 1.6e-04 | norm 0.0147 | dt 0.085 type train | step 4200 | loss 0.0393 0.0594 0.1125 0.0999 0.1826 | lr 1.6e-04 | norm 0.0188 | dt 0.085 type train | step 4210 | loss 0.0386 0.0586 0.1119 0.0995 0.1820 | lr 1.5e-04 | norm 0.0172 | dt 0.085 type train | step 4220 | loss 0.0387 0.0588 0.1119 0.0993 0.1818 | lr 1.5e-04 | norm 0.0144 | dt 0.080 type train | step 4230 | loss 0.0390 0.0589 0.1121 0.0997 0.1822 | lr 1.5e-04 | norm 0.0188 | dt 0.081 type train | step 4240 | loss 0.0390 0.0591 0.1124 0.0998 0.1820 | lr 1.5e-04 | norm 0.0138 | dt 0.083 type train | step 4250 | loss 0.0388 0.0587 0.1118 0.0993 0.1821 | lr 1.5e-04 | norm 0.0165 | dt 0.081 type train | step 4260 | loss 0.0392 0.0592 0.1125 0.0998 0.1823 | lr 1.5e-04 | norm 0.0139 | dt 0.080 type train | step 4270 | loss 0.0388 0.0587 0.1119 0.0994 0.1819 | lr 1.5e-04 | norm 0.0202 | dt 0.333 type train | step 4280 | loss 0.0386 0.0587 0.1121 0.0996 0.1827 | lr 1.5e-04 | norm 0.0141 | dt 0.080 type train | step 4290 | loss 0.0389 0.0590 0.1122 0.0996 0.1825 | lr 1.4e-04 | norm 0.0171 | dt 0.081 type train | step 4300 | loss 0.0388 0.0588 0.1120 0.0992 0.1819 | lr 1.4e-04 | norm 0.0204 | dt 0.085 type train | step 4310 | loss 0.0391 0.0590 0.1121 0.0996 0.1827 | lr 1.4e-04 | norm 0.0162 | dt 0.085 type train | step 4320 | loss 0.0390 0.0590 0.1122 0.0996 0.1824 | lr 1.4e-04 | norm 0.0196 | dt 0.084 type train | step 4330 | loss 0.0390 0.0590 0.1124 0.0998 0.1827 | lr 1.4e-04 | norm 0.0160 | dt 0.084 type train | step 4340 | loss 0.0391 0.0592 0.1123 0.0997 0.1828 | lr 1.4e-04 | norm 0.0169 | dt 0.081 type train | step 4350 | loss 0.0391 0.0591 0.1121 0.0996 0.1827 | lr 1.4e-04 | norm 0.0206 | dt 0.080 type train | step 4360 | loss 0.0389 0.0589 0.1120 0.0992 0.1819 | lr 1.4e-04 | norm 0.0122 | dt 0.081 type train | step 4370 | loss 0.0390 0.0591 0.1121 0.0995 0.1827 | lr 1.3e-04 | norm 0.0139 | dt 0.082 type train | step 4380 | loss 0.0391 0.0590 0.1121 0.0995 0.1823 | lr 1.3e-04 | norm 0.0153 | dt 0.082 type train | step 4390 | loss 0.0389 0.0588 0.1119 0.0991 0.1816 | lr 1.3e-04 | norm 0.0155 | dt 0.082 type train | step 4400 | loss 0.0397 0.0597 0.1128 0.1002 0.1835 | lr 1.3e-04 | norm 0.0245 | dt 0.083 type train | step 4410 | loss 0.0391 0.0591 0.1123 0.0998 0.1829 | lr 1.3e-04 | norm 0.0122 | dt 0.086 type train | step 4420 | loss 0.0391 0.0591 0.1122 0.0996 0.1818 | lr 1.3e-04 | norm 0.0145 | dt 0.086 type train | step 4430 | loss 0.0391 0.0591 0.1123 0.0998 0.1825 | lr 1.3e-04 | norm 0.0138 | dt 0.083 type train | step 4440 | loss 0.0394 0.0593 0.1123 0.0996 0.1828 | lr 1.3e-04 | norm 0.0166 | dt 0.080 type train | step 4450 | loss 0.0389 0.0590 0.1121 0.0997 0.1822 | lr 1.3e-04 | norm 0.0187 | dt 0.081 type train | step 4460 | loss 0.0386 0.0584 0.1115 0.0993 0.1813 | lr 1.3e-04 | norm 0.0170 | dt 0.082 type train | step 4470 | loss 0.0389 0.0589 0.1121 0.0996 0.1820 | lr 1.2e-04 | norm 0.0139 | dt 0.080 type train | step 4480 | loss 0.0390 0.0590 0.1121 0.0995 0.1818 | lr 1.2e-04 | norm 0.0148 | dt 0.080 type train | step 4490 | loss 0.0391 0.0592 0.1125 0.0999 0.1830 | lr 1.2e-04 | norm 0.0152 | dt 0.081 type train | step 4500 | loss 0.0390 0.0590 0.1122 0.0998 0.1825 | lr 1.2e-04 | norm 0.0156 | dt 0.081 type train | step 4510 | loss 0.0392 0.0592 0.1125 0.0998 0.1825 | lr 1.2e-04 | norm 0.0179 | dt 0.080 type train | step 4520 | loss 0.0386 0.0586 0.1118 0.0993 0.1817 | lr 1.2e-04 | norm 0.0134 | dt 0.081 type train | step 4530 | loss 0.0387 0.0587 0.1120 0.0994 0.1817 | lr 1.2e-04 | norm 0.0178 | dt 0.082 type train | step 4540 | loss 0.0388 0.0588 0.1120 0.0994 0.1820 | lr 1.2e-04 | norm 0.0142 | dt 0.080 type train | step 4550 | loss 0.0391 0.0590 0.1121 0.0993 0.1820 | lr 1.2e-04 | norm 0.0187 | dt 0.080 type train | step 4560 | loss 0.0386 0.0586 0.1119 0.0993 0.1815 | lr 1.2e-04 | norm 0.0224 | dt 0.081 type train | step 4570 | loss 0.0389 0.0589 0.1121 0.0995 0.1819 | lr 1.2e-04 | norm 0.0180 | dt 0.085 type train | step 4580 | loss 0.0390 0.0591 0.1124 0.0998 0.1828 | lr 1.2e-04 | norm 0.0184 | dt 0.086 type train | step 4590 | loss 0.0392 0.0591 0.1123 0.0997 0.1828 | lr 1.1e-04 | norm 0.0152 | dt 0.086 type train | step 4600 | loss 0.0390 0.0590 0.1121 0.0995 0.1823 | lr 1.1e-04 | norm 0.0156 | dt 0.086 type train | step 4610 | loss 0.0390 0.0590 0.1123 0.0998 0.1824 | lr 1.1e-04 | norm 0.0200 | dt 0.086 type train | step 4620 | loss 0.0388 0.0587 0.1118 0.0993 0.1820 | lr 1.1e-04 | norm 0.0136 | dt 0.086 type train | step 4630 | loss 0.0392 0.0592 0.1124 0.1000 0.1831 | lr 1.1e-04 | norm 0.0126 | dt 0.086 type train | step 4640 | loss 0.0391 0.0592 0.1125 0.1001 0.1834 | lr 1.1e-04 | norm 0.0161 | dt 0.085 type train | step 4650 | loss 0.0389 0.0588 0.1118 0.0993 0.1824 | lr 1.1e-04 | norm 0.0153 | dt 0.082 type train | step 4660 | loss 0.0387 0.0586 0.1117 0.0992 0.1814 | lr 1.1e-04 | norm 0.0227 | dt 0.080 type train | step 4670 | loss 0.0392 0.0592 0.1125 0.1000 0.1836 | lr 1.1e-04 | norm 0.0214 | dt 0.081 type train | step 4680 | loss 0.0390 0.0590 0.1122 0.0996 0.1824 | lr 1.1e-04 | norm 0.0120 | dt 0.083 type train | step 4690 | loss 0.0389 0.0589 0.1120 0.0993 0.1813 | lr 1.1e-04 | norm 0.0200 | dt 0.084 type train | step 4700 | loss 0.0392 0.0591 0.1123 0.0997 0.1829 | lr 1.1e-04 | norm 0.0175 | dt 0.081 type train | step 4710 | loss 0.0386 0.0584 0.1115 0.0992 0.1823 | lr 1.1e-04 | norm 0.0212 | dt 0.082 type train | step 4720 | loss 0.0392 0.0593 0.1126 0.1002 0.1834 | lr 1.1e-04 | norm 0.0224 | dt 0.084 type train | step 4730 | loss 0.0388 0.0589 0.1120 0.0994 0.1816 | lr 1.1e-04 | norm 0.0141 | dt 0.083 type train | step 4740 | loss 0.0389 0.0590 0.1122 0.0996 0.1826 | lr 1.1e-04 | norm 0.0196 | dt 0.086 type train | step 4750 | loss 0.0395 0.0597 0.1128 0.1002 0.1836 | lr 1.1e-04 | norm 0.0164 | dt 0.086 type train | step 4760 | loss 0.0390 0.0590 0.1122 0.0996 0.1822 | lr 1.1e-04 | norm 0.0133 | dt 0.083 type train | step 4770 | loss 0.0388 0.0588 0.1120 0.0996 0.1823 | lr 1.0e-04 | norm 0.0185 | dt 0.080 type train | step 4780 | loss 0.0388 0.0587 0.1118 0.0993 0.1821 | lr 1.0e-04 | norm 0.0187 | dt 0.080 type train | step 4790 | loss 0.0387 0.0586 0.1117 0.0993 0.1822 | lr 1.0e-04 | norm 0.0180 | dt 0.081 type train | step 4800 | loss 0.0389 0.0589 0.1121 0.0994 0.1818 | lr 1.0e-04 | norm 0.0135 | dt 0.082 type train | step 4810 | loss 0.0392 0.0593 0.1124 0.0999 0.1825 | lr 1.0e-04 | norm 0.0196 | dt 0.081 type train | step 4820 | loss 0.0386 0.0586 0.1119 0.0995 0.1820 | lr 1.0e-04 | norm 0.0149 | dt 0.081 type train | step 4830 | loss 0.0387 0.0587 0.1119 0.0993 0.1817 | lr 1.0e-04 | norm 0.0140 | dt 0.080 type train | step 4840 | loss 0.0389 0.0589 0.1121 0.0996 0.1821 | lr 1.0e-04 | norm 0.0183 | dt 0.081 type train | step 4850 | loss 0.0390 0.0591 0.1124 0.0998 0.1820 | lr 1.0e-04 | norm 0.0125 | dt 0.083 type train | step 4860 | loss 0.0387 0.0587 0.1117 0.0993 0.1820 | lr 1.0e-04 | norm 0.0161 | dt 0.086 type train | step 4870 | loss 0.0391 0.0592 0.1124 0.0997 0.1823 | lr 1.0e-04 | norm 0.0140 | dt 0.088 type train | step 4880 | loss 0.0387 0.0587 0.1119 0.0994 0.1819 | lr 1.0e-04 | norm 0.0205 | dt 0.139 type train | step 4890 | loss 0.0386 0.0587 0.1121 0.0996 0.1826 | lr 1.0e-04 | norm 0.0137 | dt 0.081 type train | step 4900 | loss 0.0389 0.0589 0.1122 0.0996 0.1825 | lr 1.0e-04 | norm 0.0167 | dt 0.082 type train | step 4910 | loss 0.0388 0.0588 0.1120 0.0992 0.1819 | lr 1.0e-04 | norm 0.0197 | dt 0.081 type train | step 4920 | loss 0.0390 0.0589 0.1121 0.0996 0.1827 | lr 1.0e-04 | norm 0.0158 | dt 0.081 type train | step 4930 | loss 0.0390 0.0590 0.1122 0.0995 0.1824 | lr 1.0e-04 | norm 0.0193 | dt 0.086 type train | step 4940 | loss 0.0390 0.0590 0.1123 0.0998 0.1827 | lr 1.0e-04 | norm 0.0157 | dt 0.086 type train | step 4950 | loss 0.0390 0.0591 0.1123 0.0997 0.1827 | lr 1.0e-04 | norm 0.0168 | dt 0.083 type train | step 4960 | loss 0.0391 0.0591 0.1121 0.0996 0.1826 | lr 1.0e-04 | norm 0.0209 | dt 0.080 type train | step 4970 | loss 0.0389 0.0588 0.1120 0.0992 0.1819 | lr 1.0e-04 | norm 0.0103 | dt 0.081 type train | step 4980 | loss 0.0390 0.0590 0.1121 0.0995 0.1827 | lr 1.0e-04 | norm 0.0145 | dt 0.082 type train | step 4990 | loss 0.0390 0.0590 0.1121 0.0995 0.1823 | lr 1.0e-04 | norm 0.0154 | dt 0.081 type train | step 5000 | loss 0.0389 0.0588 0.1118 0.0991 0.1815 | lr 1.0e-04 | norm 0.0149 | dt 0.081 type train | step 10 | loss 45.6424 21.1584 15.3801 9.8938 11.8983 | lr 1.0e-03 | norm 93.5276 | dt 0.078 type train | step 20 | loss 30.5520 12.8509 8.6271 5.7506 7.5169 | lr 1.0e-03 | norm 50.8186 | dt 0.078 type train | step 30 | loss 20.5013 7.6557 4.8514 3.2781 4.5541 | lr 1.0e-03 | norm 32.0802 | dt 0.078 type train | step 40 | loss 13.3191 4.3235 2.6426 1.7778 2.5498 | lr 1.0e-03 | norm 22.7217 | dt 0.078 type train | step 50 | loss 8.3895 2.2794 1.4008 0.9203 1.3205 | lr 1.0e-03 | norm 16.3917 | dt 0.078 type train | step 60 | loss 4.9697 1.1751 0.7639 0.5113 0.6782 | lr 1.0e-03 | norm 10.9244 | dt 0.078 type train | step 70 | loss 2.8791 0.6585 0.4929 0.3444 0.4054 | lr 1.0e-03 | norm 6.7801 | dt 0.078 type train | step 80 | loss 1.6571 0.4723 0.3956 0.2880 0.3160 | lr 1.0e-03 | norm 3.6275 | dt 0.078 type train | step 90 | loss 1.0428 0.4039 0.3495 0.2564 0.2845 | lr 1.0e-03 | norm 1.6629 | dt 0.078 type train | step 100 | loss 0.7542 0.3526 0.3067 0.2283 0.2565 | lr 1.0e-03 | norm 0.7176 | dt 0.078 type train | step 110 | loss 0.6213 0.3185 0.2757 0.2059 0.2328 | lr 1.0e-03 | norm 0.4545 | dt 0.078 type train | step 120 | loss 0.5525 0.2916 0.2495 0.1875 0.2148 | lr 1.0e-03 | norm 0.4082 | dt 0.078 type train | step 130 | loss 0.5108 0.2728 0.2332 0.1767 0.2056 | lr 1.0e-03 | norm 0.3164 | dt 0.078 type train | step 140 | loss 0.4740 0.2563 0.2181 0.1655 0.1937 | lr 1.0e-03 | norm 0.2416 | dt 0.078 type train | step 150 | loss 0.4458 0.2431 0.2073 0.1579 0.1847 | lr 1.0e-03 | norm 0.1873 | dt 0.078 type train | step 160 | loss 0.4209 0.2298 0.1973 0.1518 0.1784 | lr 1.0e-03 | norm 0.1575 | dt 0.078 type train | step 170 | loss 0.3987 0.2190 0.1890 0.1465 0.1727 | lr 1.0e-03 | norm 0.1358 | dt 0.078 type train | step 180 | loss 0.3778 0.2087 0.1818 0.1424 0.1667 | lr 1.0e-03 | norm 0.1117 | dt 0.078 type train | step 190 | loss 0.3594 0.1994 0.1762 0.1389 0.1620 | lr 1.0e-03 | norm 0.0974 | dt 0.078 type train | step 200 | loss 0.3443 0.1916 0.1713 0.1365 0.1592 | lr 1.0e-03 | norm 0.0848 | dt 0.078 type train | step 210 | loss 0.3295 0.1847 0.1669 0.1336 0.1559 | lr 1.0e-03 | norm 0.0729 | dt 0.078 type train | step 220 | loss 0.3159 0.1784 0.1632 0.1315 0.1542 | lr 1.0e-03 | norm 0.0624 | dt 0.078 type train | step 230 | loss 0.3023 0.1717 0.1590 0.1292 0.1513 | lr 1.0e-03 | norm 0.0611 | dt 0.080 type train | step 240 | loss 0.2916 0.1666 0.1560 0.1271 0.1491 | lr 9.9e-04 | norm 0.0557 | dt 0.079 type train | step 250 | loss 0.2793 0.1613 0.1524 0.1249 0.1464 | lr 9.9e-04 | norm 0.0448 | dt 0.079 type train | step 260 | loss 0.2704 0.1569 0.1496 0.1231 0.1447 | lr 9.9e-04 | norm 0.0401 | dt 0.081 type train | step 270 | loss 0.2615 0.1530 0.1471 0.1214 0.1430 | lr 9.9e-04 | norm 0.0337 | dt 0.080 type train | step 280 | loss 0.2548 0.1498 0.1445 0.1198 0.1416 | lr 9.9e-04 | norm 0.0353 | dt 0.080 type train | step 290 | loss 0.2462 0.1461 0.1423 0.1185 0.1397 | lr 9.9e-04 | norm 0.0320 | dt 0.081 type train | step 300 | loss 0.2405 0.1431 0.1401 0.1173 0.1387 | lr 9.9e-04 | norm 0.0290 | dt 0.082 type train | step 310 | loss 0.2345 0.1405 0.1384 0.1163 0.1384 | lr 9.9e-04 | norm 0.0242 | dt 0.082 type train | step 320 | loss 0.2302 0.1380 0.1367 0.1151 0.1370 | lr 9.9e-04 | norm 0.0198 | dt 0.081 type train | step 330 | loss 0.2252 0.1355 0.1349 0.1139 0.1355 | lr 9.9e-04 | norm 0.0253 | dt 0.081 type train | step 340 | loss 0.2210 0.1335 0.1336 0.1132 0.1346 | lr 9.9e-04 | norm 0.0224 | dt 0.081 type train | step 350 | loss 0.2165 0.1310 0.1318 0.1119 0.1335 | lr 9.9e-04 | norm 0.0183 | dt 0.080 type train | step 360 | loss 0.2135 0.1294 0.1310 0.1117 0.1335 | lr 9.9e-04 | norm 0.0188 | dt 0.081 type train | step 370 | loss 0.2105 0.1281 0.1299 0.1110 0.1330 | lr 9.9e-04 | norm 0.0198 | dt 0.081 type train | step 380 | loss 0.2069 0.1260 0.1284 0.1095 0.1314 | lr 9.9e-04 | norm 0.0165 | dt 0.081 type train | step 390 | loss 0.2033 0.1240 0.1271 0.1088 0.1300 | lr 9.9e-04 | norm 0.0264 | dt 0.080 type train | step 400 | loss 0.2029 0.1237 0.1270 0.1091 0.1312 | lr 9.9e-04 | norm 0.0189 | dt 0.081 type train | step 410 | loss 0.1997 0.1220 0.1257 0.1080 0.1296 | lr 9.9e-04 | norm 0.0152 | dt 0.081 type train | step 420 | loss 0.1972 0.1208 0.1247 0.1071 0.1284 | lr 9.8e-04 | norm 0.0193 | dt 0.082 type train | step 430 | loss 0.1961 0.1200 0.1242 0.1072 0.1291 | lr 9.8e-04 | norm 0.0204 | dt 0.080 type train | step 440 | loss 0.1924 0.1181 0.1227 0.1063 0.1279 | lr 9.8e-04 | norm 0.0224 | dt 0.080 type train | step 450 | loss 0.1933 0.1183 0.1231 0.1069 0.1284 | lr 9.8e-04 | norm 0.0225 | dt 0.081 type train | step 460 | loss 0.1899 0.1170 0.1219 0.1056 0.1269 | lr 9.8e-04 | norm 0.0193 | dt 0.087 type train | step 470 | loss 0.1891 0.1165 0.1216 0.1055 0.1272 | lr 9.8e-04 | norm 0.0177 | dt 0.080 type train | step 480 | loss 0.1899 0.1168 0.1216 0.1058 0.1276 | lr 9.8e-04 | norm 0.0228 | dt 0.081 type train | step 490 | loss 0.1864 0.1150 0.1204 0.1048 0.1264 | lr 9.8e-04 | norm 0.0181 | dt 0.082 type train | step 500 | loss 0.1851 0.1142 0.1199 0.1046 0.1259 | lr 9.8e-04 | norm 0.0208 | dt 0.080 type train | step 510 | loss 0.1837 0.1134 0.1195 0.1040 0.1257 | lr 9.8e-04 | norm 0.0187 | dt 0.081 type train | step 520 | loss 0.1826 0.1128 0.1189 0.1039 0.1254 | lr 9.8e-04 | norm 0.0209 | dt 0.081 type train | step 530 | loss 0.1820 0.1127 0.1188 0.1036 0.1249 | lr 9.8e-04 | norm 0.0147 | dt 0.081 type train | step 540 | loss 0.1820 0.1127 0.1188 0.1040 0.1254 | lr 9.7e-04 | norm 0.0196 | dt 0.084 type train | step 550 | loss 0.1792 0.1112 0.1180 0.1034 0.1245 | lr 9.7e-04 | norm 0.0142 | dt 0.081 type train | step 560 | loss 0.1787 0.1110 0.1177 0.1029 0.1242 | lr 9.7e-04 | norm 0.0165 | dt 0.082 type train | step 570 | loss 0.1782 0.1108 0.1176 0.1032 0.1245 | lr 9.7e-04 | norm 0.0210 | dt 0.081 type train | step 580 | loss 0.1782 0.1107 0.1176 0.1031 0.1242 | lr 9.7e-04 | norm 0.0163 | dt 0.083 type train | step 590 | loss 0.1763 0.1097 0.1168 0.1025 0.1238 | lr 9.7e-04 | norm 0.0167 | dt 0.083 type train | step 600 | loss 0.1775 0.1102 0.1173 0.1028 0.1242 | lr 9.7e-04 | norm 0.0175 | dt 0.084 type train | step 610 | loss 0.1750 0.1091 0.1165 0.1024 0.1236 | lr 9.7e-04 | norm 0.0206 | dt 0.129 type train | step 620 | loss 0.1745 0.1088 0.1165 0.1025 0.1240 | lr 9.7e-04 | norm 0.0213 | dt 0.081 type train | step 630 | loss 0.1747 0.1089 0.1164 0.1024 0.1238 | lr 9.7e-04 | norm 0.0176 | dt 0.083 type train | step 640 | loss 0.1737 0.1085 0.1161 0.1019 0.1232 | lr 9.6e-04 | norm 0.0218 | dt 0.081 type train | step 650 | loss 0.1740 0.1083 0.1160 0.1021 0.1237 | lr 9.6e-04 | norm 0.0195 | dt 0.083 type train | step 660 | loss 0.1736 0.1081 0.1159 0.1020 0.1235 | lr 9.6e-04 | norm 0.0235 | dt 0.087 type train | step 670 | loss 0.1730 0.1079 0.1160 0.1021 0.1235 | lr 9.6e-04 | norm 0.0218 | dt 0.087 type train | step 680 | loss 0.1725 0.1078 0.1157 0.1019 0.1234 | lr 9.6e-04 | norm 0.0202 | dt 0.083 type train | step 690 | loss 0.1725 0.1075 0.1154 0.1018 0.1231 | lr 9.6e-04 | norm 0.0229 | dt 0.081 type train | step 700 | loss 0.1711 0.1069 0.1151 0.1013 0.1227 | lr 9.6e-04 | norm 0.0167 | dt 0.081 type train | step 710 | loss 0.1711 0.1071 0.1153 0.1015 0.1231 | lr 9.6e-04 | norm 0.0169 | dt 0.081 type train | step 720 | loss 0.1712 0.1069 0.1151 0.1015 0.1227 | lr 9.5e-04 | norm 0.0153 | dt 0.083 type train | step 730 | loss 0.1701 0.1064 0.1148 0.1010 0.1224 | lr 9.5e-04 | norm 0.0159 | dt 0.082 type train | step 740 | loss 0.1722 0.1074 0.1156 0.1021 0.1236 | lr 9.5e-04 | norm 0.0247 | dt 0.087 type train | step 750 | loss 0.1702 0.1064 0.1150 0.1016 0.1231 | lr 9.5e-04 | norm 0.0176 | dt 0.086 type train | step 760 | loss 0.1699 0.1063 0.1149 0.1012 0.1224 | lr 9.5e-04 | norm 0.0206 | dt 0.085 type train | step 770 | loss 0.1700 0.1062 0.1148 0.1014 0.1227 | lr 9.5e-04 | norm 0.0180 | dt 0.081 type train | step 780 | loss 0.1699 0.1063 0.1147 0.1012 0.1228 | lr 9.5e-04 | norm 0.0169 | dt 0.081 type train | step 790 | loss 0.1686 0.1056 0.1145 0.1012 0.1224 | lr 9.5e-04 | norm 0.0163 | dt 0.081 type train | step 800 | loss 0.1667 0.1047 0.1139 0.1007 0.1217 | lr 9.4e-04 | norm 0.0168 | dt 0.081 type train | step 810 | loss 0.1679 0.1053 0.1144 0.1012 0.1221 | lr 9.4e-04 | norm 0.0178 | dt 0.082 type train | step 820 | loss 0.1679 0.1052 0.1142 0.1009 0.1221 | lr 9.4e-04 | norm 0.0176 | dt 0.081 type train | step 830 | loss 0.1680 0.1055 0.1146 0.1013 0.1227 | lr 9.4e-04 | norm 0.0193 | dt 0.082 type train | step 840 | loss 0.1672 0.1051 0.1142 0.1011 0.1224 | lr 9.4e-04 | norm 0.0202 | dt 0.082 type train | step 850 | loss 0.1675 0.1052 0.1144 0.1010 0.1223 | lr 9.4e-04 | norm 0.0182 | dt 0.081 type train | step 860 | loss 0.1655 0.1042 0.1137 0.1006 0.1216 | lr 9.4e-04 | norm 0.0160 | dt 0.081 type train | step 870 | loss 0.1655 0.1043 0.1138 0.1006 0.1216 | lr 9.3e-04 | norm 0.0183 | dt 0.081 type train | step 880 | loss 0.1657 0.1044 0.1139 0.1006 0.1218 | lr 9.3e-04 | norm 0.0179 | dt 0.082 type train | step 890 | loss 0.1667 0.1046 0.1138 0.1005 0.1220 | lr 9.3e-04 | norm 0.0237 | dt 0.082 type train | step 900 | loss 0.1649 0.1039 0.1136 0.1004 0.1213 | lr 9.3e-04 | norm 0.0200 | dt 0.081 type train | step 910 | loss 0.1658 0.1041 0.1137 0.1007 0.1217 | lr 9.3e-04 | norm 0.0215 | dt 0.081 type train | step 920 | loss 0.1655 0.1044 0.1139 0.1009 0.1226 | lr 9.3e-04 | norm 0.0196 | dt 0.086 type train | step 930 | loss 0.1660 0.1044 0.1138 0.1007 0.1222 | lr 9.3e-04 | norm 0.0167 | dt 0.087 type train | step 940 | loss 0.1653 0.1041 0.1136 0.1005 0.1218 | lr 9.2e-04 | norm 0.0209 | dt 0.087 type train | step 950 | loss 0.1651 0.1042 0.1137 0.1008 0.1218 | lr 9.2e-04 | norm 0.0197 | dt 0.087 type train | step 960 | loss 0.1642 0.1036 0.1132 0.1003 0.1215 | lr 9.2e-04 | norm 0.0152 | dt 0.087 type train | step 970 | loss 0.1650 0.1041 0.1138 0.1010 0.1223 | lr 9.2e-04 | norm 0.0182 | dt 0.086 type train | step 980 | loss 0.1648 0.1043 0.1138 0.1011 0.1226 | lr 9.2e-04 | norm 0.0181 | dt 0.081 type train | step 990 | loss 0.1639 0.1035 0.1132 0.1002 0.1217 | lr 9.2e-04 | norm 0.0157 | dt 0.081 type train | step 1000 | loss 0.1630 0.1031 0.1130 0.1001 0.1209 | lr 9.1e-04 | norm 0.0245 | dt 0.083 type train | step 1010 | loss 0.1648 0.1040 0.1138 0.1009 0.1227 | lr 9.1e-04 | norm 0.0180 | dt 0.080 type train | step 1020 | loss 0.1639 0.1036 0.1135 0.1006 0.1217 | lr 9.1e-04 | norm 0.0187 | dt 0.080 type train | step 1030 | loss 0.1634 0.1034 0.1133 0.1002 0.1211 | lr 9.1e-04 | norm 0.0178 | dt 0.081 type train | step 1040 | loss 0.1639 0.1038 0.1134 0.1006 0.1222 | lr 9.1e-04 | norm 0.0196 | dt 0.085 type train | step 1050 | loss 0.1618 0.1026 0.1126 0.1001 0.1214 | lr 9.1e-04 | norm 0.0224 | dt 0.081 type train | step 1060 | loss 0.1644 0.1039 0.1137 0.1010 0.1223 | lr 9.0e-04 | norm 0.0215 | dt 0.082 type train | step 1070 | loss 0.1627 0.1032 0.1130 0.1003 0.1212 | lr 9.0e-04 | norm 0.0181 | dt 0.087 type train | step 1080 | loss 0.1629 0.1034 0.1132 0.1004 0.1218 | lr 9.0e-04 | norm 0.0186 | dt 0.087 type train | step 1090 | loss 0.1649 0.1044 0.1138 0.1010 0.1226 | lr 9.0e-04 | norm 0.0231 | dt 0.086 type train | step 1100 | loss 0.1628 0.1033 0.1132 0.1003 0.1217 | lr 9.0e-04 | norm 0.0185 | dt 0.084 type train | step 1110 | loss 0.1623 0.1029 0.1130 0.1004 0.1214 | lr 8.9e-04 | norm 0.0193 | dt 0.087 type train | step 1120 | loss 0.1617 0.1027 0.1128 0.1000 0.1215 | lr 8.9e-04 | norm 0.0182 | dt 0.088 type train | step 1130 | loss 0.1616 0.1027 0.1127 0.1001 0.1214 | lr 8.9e-04 | norm 0.0202 | dt 0.086 type train | step 1140 | loss 0.1621 0.1030 0.1130 0.1001 0.1212 | lr 8.9e-04 | norm 0.0156 | dt 0.081 type train | step 1150 | loss 0.1629 0.1034 0.1133 0.1006 0.1218 | lr 8.9e-04 | norm 0.0191 | dt 0.081 type train | step 1160 | loss 0.1607 0.1024 0.1127 0.1002 0.1212 | lr 8.9e-04 | norm 0.0152 | dt 0.081 type train | step 1170 | loss 0.1610 0.1026 0.1128 0.0999 0.1210 | lr 8.8e-04 | norm 0.0156 | dt 0.083 type train | step 1180 | loss 0.1613 0.1028 0.1129 0.1003 0.1215 | lr 8.8e-04 | norm 0.0205 | dt 0.081 type train | step 1190 | loss 0.1619 0.1030 0.1132 0.1004 0.1214 | lr 8.8e-04 | norm 0.0166 | dt 0.081 type train | step 1200 | loss 0.1605 0.1023 0.1125 0.0999 0.1211 | lr 8.8e-04 | norm 0.0174 | dt 0.085 type train | step 1210 | loss 0.1622 0.1031 0.1133 0.1004 0.1216 | lr 8.8e-04 | norm 0.0187 | dt 0.081 type train | step 1220 | loss 0.1604 0.1023 0.1126 0.1000 0.1211 | lr 8.7e-04 | norm 0.0214 | dt 0.387 type train | step 1230 | loss 0.1601 0.1023 0.1129 0.1003 0.1216 | lr 8.7e-04 | norm 0.0210 | dt 0.083 type train | step 1240 | loss 0.1609 0.1026 0.1129 0.1002 0.1215 | lr 8.7e-04 | norm 0.0191 | dt 0.081 type train | step 1250 | loss 0.1605 0.1024 0.1128 0.0999 0.1212 | lr 8.7e-04 | norm 0.0204 | dt 0.080 type train | step 1260 | loss 0.1613 0.1026 0.1129 0.1001 0.1218 | lr 8.7e-04 | norm 0.0197 | dt 0.081 type train | step 1270 | loss 0.1612 0.1026 0.1128 0.1001 0.1215 | lr 8.6e-04 | norm 0.0225 | dt 0.082 type train | step 1280 | loss 0.1611 0.1027 0.1130 0.1004 0.1217 | lr 8.6e-04 | norm 0.0213 | dt 0.081 type train | step 1290 | loss 0.1610 0.1027 0.1129 0.1002 0.1217 | lr 8.6e-04 | norm 0.0204 | dt 0.082 type train | step 1300 | loss 0.1611 0.1027 0.1128 0.1001 0.1216 | lr 8.6e-04 | norm 0.0221 | dt 0.081 type train | step 1310 | loss 0.1602 0.1023 0.1126 0.0997 0.1211 | lr 8.6e-04 | norm 0.0165 | dt 0.081 type train | step 1320 | loss 0.1603 0.1026 0.1128 0.1000 0.1216 | lr 8.5e-04 | norm 0.0195 | dt 0.083 type train | step 1330 | loss 0.1607 0.1026 0.1127 0.1001 0.1212 | lr 8.5e-04 | norm 0.0151 | dt 0.087 type train | step 1340 | loss 0.1602 0.1023 0.1125 0.0996 0.1210 | lr 8.5e-04 | norm 0.0164 | dt 0.086 type train | step 1350 | loss 0.1626 0.1034 0.1134 0.1008 0.1223 | lr 8.5e-04 | norm 0.0244 | dt 0.086 type train | step 1360 | loss 0.1607 0.1026 0.1129 0.1003 0.1218 | lr 8.5e-04 | norm 0.0176 | dt 0.084 type train | step 1370 | loss 0.1606 0.1026 0.1128 0.1000 0.1211 | lr 8.4e-04 | norm 0.0224 | dt 0.086 type train | step 1380 | loss 0.1608 0.1026 0.1128 0.1002 0.1215 | lr 8.4e-04 | norm 0.0164 | dt 0.080 type train | step 1390 | loss 0.1612 0.1027 0.1129 0.1001 0.1216 | lr 8.4e-04 | norm 0.0148 | dt 0.081 type train | step 1400 | loss 0.1601 0.1022 0.1126 0.1001 0.1214 | lr 8.4e-04 | norm 0.0172 | dt 0.081 type train | step 1410 | loss 0.1584 0.1015 0.1121 0.0997 0.1206 | lr 8.3e-04 | norm 0.0164 | dt 0.081 type train | step 1420 | loss 0.1598 0.1021 0.1126 0.1001 0.1211 | lr 8.3e-04 | norm 0.0180 | dt 0.081 type train | step 1430 | loss 0.1601 0.1022 0.1126 0.0999 0.1211 | lr 8.3e-04 | norm 0.0166 | dt 0.081 type train | step 1440 | loss 0.1604 0.1026 0.1130 0.1003 0.1218 | lr 8.3e-04 | norm 0.0172 | dt 0.082 type train | step 1450 | loss 0.1596 0.1023 0.1127 0.1002 0.1215 | lr 8.3e-04 | norm 0.0240 | dt 0.081 type train | step 1460 | loss 0.1602 0.1025 0.1129 0.1001 0.1215 | lr 8.2e-04 | norm 0.0179 | dt 0.081 type train | step 1470 | loss 0.1585 0.1017 0.1123 0.0997 0.1208 | lr 8.2e-04 | norm 0.0156 | dt 0.082 type train | step 1480 | loss 0.1587 0.1019 0.1124 0.0998 0.1208 | lr 8.2e-04 | norm 0.0191 | dt 0.092 type train | step 1490 | loss 0.1590 0.1019 0.1126 0.0998 0.1210 | lr 8.2e-04 | norm 0.0176 | dt 0.088 type train | step 1500 | loss 0.1601 0.1022 0.1125 0.0997 0.1212 | lr 8.1e-04 | norm 0.0234 | dt 0.085 type train | step 1510 | loss 0.1584 0.1016 0.1123 0.0996 0.1206 | lr 8.1e-04 | norm 0.0198 | dt 0.084 type train | step 1520 | loss 0.1595 0.1019 0.1125 0.0999 0.1210 | lr 8.1e-04 | norm 0.0241 | dt 0.081 type train | step 1530 | loss 0.1594 0.1022 0.1127 0.1002 0.1219 | lr 8.1e-04 | norm 0.0174 | dt 0.085 type train | step 1540 | loss 0.1600 0.1023 0.1126 0.1000 0.1215 | lr 8.1e-04 | norm 0.0148 | dt 0.086 type train | step 1550 | loss 0.1594 0.1021 0.1125 0.0999 0.1211 | lr 8.0e-04 | norm 0.0208 | dt 0.087 type train | step 1560 | loss 0.1593 0.1022 0.1126 0.1001 0.1213 | lr 8.0e-04 | norm 0.0196 | dt 0.085 type train | step 1570 | loss 0.1587 0.1018 0.1122 0.0996 0.1209 | lr 8.0e-04 | norm 0.0148 | dt 0.084 type train | step 1580 | loss 0.1597 0.1023 0.1128 0.1003 0.1217 | lr 8.0e-04 | norm 0.0179 | dt 0.080 type train | step 1590 | loss 0.1597 0.1025 0.1129 0.1004 0.1221 | lr 7.9e-04 | norm 0.0189 | dt 0.081 type train | step 1600 | loss 0.1588 0.1018 0.1123 0.0996 0.1212 | lr 7.9e-04 | norm 0.0168 | dt 0.083 type train | step 1610 | loss 0.1579 0.1014 0.1121 0.0995 0.1204 | lr 7.9e-04 | norm 0.0243 | dt 0.083 type train | step 1620 | loss 0.1600 0.1023 0.1129 0.1004 0.1222 | lr 7.9e-04 | norm 0.0180 | dt 0.081 type train | step 1630 | loss 0.1591 0.1019 0.1126 0.1000 0.1212 | lr 7.8e-04 | norm 0.0146 | dt 0.083 type train | step 1640 | loss 0.1588 0.1018 0.1124 0.0996 0.1207 | lr 7.8e-04 | norm 0.0181 | dt 0.085 type train | step 1650 | loss 0.1593 0.1023 0.1126 0.1000 0.1218 | lr 7.8e-04 | norm 0.0225 | dt 0.081 type train | step 1660 | loss 0.1573 0.1011 0.1118 0.0995 0.1210 | lr 7.8e-04 | norm 0.0217 | dt 0.082 type train | step 1670 | loss 0.1600 0.1024 0.1129 0.1005 0.1219 | lr 7.7e-04 | norm 0.0223 | dt 0.081 type train | step 1680 | loss 0.1585 0.1018 0.1122 0.0997 0.1208 | lr 7.7e-04 | norm 0.0173 | dt 0.089 type train | step 1690 | loss 0.1589 0.1020 0.1125 0.0999 0.1214 | lr 7.7e-04 | norm 0.0177 | dt 0.087 type train | step 1700 | loss 0.1609 0.1030 0.1131 0.1005 0.1222 | lr 7.7e-04 | norm 0.0214 | dt 0.087 type train | step 1710 | loss 0.1589 0.1020 0.1125 0.0998 0.1213 | lr 7.6e-04 | norm 0.0170 | dt 0.087 type train | step 1720 | loss 0.1585 0.1017 0.1122 0.0999 0.1211 | lr 7.6e-04 | norm 0.0183 | dt 0.083 type train | step 1730 | loss 0.1580 0.1015 0.1122 0.0995 0.1211 | lr 7.6e-04 | norm 0.0190 | dt 0.081 type train | step 1740 | loss 0.1579 0.1014 0.1120 0.0996 0.1211 | lr 7.6e-04 | norm 0.0214 | dt 0.080 type train | step 1750 | loss 0.1585 0.1018 0.1124 0.0996 0.1208 | lr 7.5e-04 | norm 0.0158 | dt 0.081 type train | step 1760 | loss 0.1595 0.1023 0.1127 0.1002 0.1215 | lr 7.5e-04 | norm 0.0213 | dt 0.082 type train | step 1770 | loss 0.1574 0.1013 0.1121 0.0997 0.1209 | lr 7.5e-04 | norm 0.0162 | dt 0.081 type train | step 1780 | loss 0.1577 0.1015 0.1122 0.0995 0.1206 | lr 7.5e-04 | norm 0.0160 | dt 0.081 type train | step 1790 | loss 0.1582 0.1018 0.1124 0.0999 0.1212 | lr 7.4e-04 | norm 0.0202 | dt 0.082 type train | step 1800 | loss 0.1589 0.1020 0.1126 0.1000 0.1211 | lr 7.4e-04 | norm 0.0167 | dt 0.081 type train | step 1810 | loss 0.1575 0.1013 0.1120 0.0995 0.1208 | lr 7.4e-04 | norm 0.0169 | dt 0.081 type train | step 1820 | loss 0.1592 0.1021 0.1127 0.1000 0.1214 | lr 7.4e-04 | norm 0.0177 | dt 0.083 type train | step 1830 | loss 0.1574 0.1013 0.1120 0.0997 0.1209 | lr 7.3e-04 | norm 0.0216 | dt 0.182 type train | step 1840 | loss 0.1572 0.1014 0.1123 0.0999 0.1213 | lr 7.3e-04 | norm 0.0199 | dt 0.087 type train | step 1850 | loss 0.1581 0.1017 0.1124 0.0998 0.1213 | lr 7.3e-04 | norm 0.0195 | dt 0.088 type train | step 1860 | loss 0.1578 0.1015 0.1123 0.0995 0.1209 | lr 7.3e-04 | norm 0.0204 | dt 0.087 type train | step 1870 | loss 0.1586 0.1017 0.1124 0.0998 0.1215 | lr 7.2e-04 | norm 0.0183 | dt 0.085 type train | step 1880 | loss 0.1584 0.1016 0.1124 0.0998 0.1213 | lr 7.2e-04 | norm 0.0222 | dt 0.081 type train | step 1890 | loss 0.1584 0.1018 0.1126 0.1000 0.1214 | lr 7.2e-04 | norm 0.0238 | dt 0.080 type train | step 1900 | loss 0.1584 0.1019 0.1125 0.0999 0.1215 | lr 7.2e-04 | norm 0.0250 | dt 0.081 type train | step 1910 | loss 0.1585 0.1018 0.1123 0.0998 0.1213 | lr 7.1e-04 | norm 0.0227 | dt 0.087 type train | step 1920 | loss 0.1577 0.1016 0.1121 0.0994 0.1209 | lr 7.1e-04 | norm 0.0173 | dt 0.086 type train | step 1930 | loss 0.1579 0.1018 0.1123 0.0997 0.1214 | lr 7.1e-04 | norm 0.0196 | dt 0.085 type train | step 1940 | loss 0.1582 0.1018 0.1123 0.0997 0.1210 | lr 7.1e-04 | norm 0.0149 | dt 0.081 type train | step 1950 | loss 0.1578 0.1015 0.1121 0.0993 0.1208 | lr 7.0e-04 | norm 0.0192 | dt 0.080 type train | step 1960 | loss 0.1602 0.1026 0.1130 0.1005 0.1221 | lr 7.0e-04 | norm 0.0245 | dt 0.081 type train | step 1970 | loss 0.1583 0.1018 0.1125 0.1000 0.1216 | lr 7.0e-04 | norm 0.0177 | dt 0.081 type train | step 1980 | loss 0.1582 0.1018 0.1124 0.0997 0.1209 | lr 6.9e-04 | norm 0.0222 | dt 0.082 type train | step 1990 | loss 0.1585 0.1019 0.1124 0.0999 0.1212 | lr 6.9e-04 | norm 0.0149 | dt 0.088 type train | step 2000 | loss 0.1591 0.1020 0.1125 0.0998 0.1214 | lr 6.9e-04 | norm 0.0161 | dt 0.087 type train | step 2010 | loss 0.1580 0.1015 0.1122 0.0999 0.1212 | lr 6.9e-04 | norm 0.0189 | dt 0.082 type train | step 2020 | loss 0.1563 0.1008 0.1117 0.0994 0.1204 | lr 6.8e-04 | norm 0.0171 | dt 0.082 type train | step 2030 | loss 0.1577 0.1014 0.1122 0.0999 0.1208 | lr 6.8e-04 | norm 0.0170 | dt 0.082 type train | step 2040 | loss 0.1581 0.1016 0.1122 0.0997 0.1210 | lr 6.8e-04 | norm 0.0171 | dt 0.081 type train | step 2050 | loss 0.1583 0.1020 0.1126 0.1001 0.1216 | lr 6.8e-04 | norm 0.0167 | dt 0.081 type train | step 2060 | loss 0.1576 0.1017 0.1123 0.0999 0.1214 | lr 6.7e-04 | norm 0.0220 | dt 0.082 type train | step 2070 | loss 0.1583 0.1018 0.1126 0.0999 0.1213 | lr 6.7e-04 | norm 0.0199 | dt 0.080 type train | step 2080 | loss 0.1566 0.1011 0.1119 0.0995 0.1206 | lr 6.7e-04 | norm 0.0163 | dt 0.081 type train | step 2090 | loss 0.1568 0.1012 0.1121 0.0995 0.1206 | lr 6.6e-04 | norm 0.0199 | dt 0.081 type train | step 2100 | loss 0.1571 0.1013 0.1122 0.0996 0.1209 | lr 6.6e-04 | norm 0.0166 | dt 0.086 type train | step 2110 | loss 0.1583 0.1017 0.1122 0.0995 0.1211 | lr 6.6e-04 | norm 0.0222 | dt 0.089 type train | step 2120 | loss 0.1567 0.1011 0.1120 0.0994 0.1204 | lr 6.6e-04 | norm 0.0202 | dt 0.087 type train | step 2130 | loss 0.1577 0.1014 0.1122 0.0997 0.1208 | lr 6.5e-04 | norm 0.0236 | dt 0.087 type train | step 2140 | loss 0.1577 0.1016 0.1124 0.0999 0.1218 | lr 6.5e-04 | norm 0.0194 | dt 0.087 type train | step 2150 | loss 0.1582 0.1017 0.1123 0.0998 0.1214 | lr 6.5e-04 | norm 0.0148 | dt 0.087 type train | step 2160 | loss 0.1578 0.1016 0.1122 0.0996 0.1210 | lr 6.5e-04 | norm 0.0212 | dt 0.085 type train | step 2170 | loss 0.1576 0.1016 0.1123 0.0999 0.1211 | lr 6.4e-04 | norm 0.0198 | dt 0.087 type train | step 2180 | loss 0.1571 0.1012 0.1119 0.0994 0.1208 | lr 6.4e-04 | norm 0.0143 | dt 0.086 type train | step 2190 | loss 0.1581 0.1018 0.1125 0.1001 0.1216 | lr 6.4e-04 | norm 0.0189 | dt 0.081 type train | step 2200 | loss 0.1581 0.1020 0.1126 0.1002 0.1219 | lr 6.3e-04 | norm 0.0179 | dt 0.081 type train | step 2210 | loss 0.1573 0.1013 0.1120 0.0995 0.1211 | lr 6.3e-04 | norm 0.0198 | dt 0.081 type train | step 2220 | loss 0.1564 0.1009 0.1119 0.0993 0.1203 | lr 6.3e-04 | norm 0.0240 | dt 0.081 type train | step 2230 | loss 0.1585 0.1018 0.1127 0.1002 0.1220 | lr 6.3e-04 | norm 0.0186 | dt 0.083 type train | step 2240 | loss 0.1577 0.1014 0.1123 0.0998 0.1211 | lr 6.2e-04 | norm 0.0145 | dt 0.083 type train | step 2250 | loss 0.1574 0.1013 0.1122 0.0994 0.1205 | lr 6.2e-04 | norm 0.0178 | dt 0.081 type train | step 2260 | loss 0.1579 0.1018 0.1124 0.0999 0.1216 | lr 6.2e-04 | norm 0.0197 | dt 0.086 type train | step 2270 | loss 0.1559 0.1006 0.1115 0.0994 0.1209 | lr 6.1e-04 | norm 0.0211 | dt 0.081 type train | step 2280 | loss 0.1587 0.1019 0.1127 0.1004 0.1217 | lr 6.1e-04 | norm 0.0217 | dt 0.081 type train | step 2290 | loss 0.1572 0.1013 0.1120 0.0996 0.1207 | lr 6.1e-04 | norm 0.0162 | dt 0.087 type train | step 2300 | loss 0.1575 0.1015 0.1122 0.0998 0.1213 | lr 6.1e-04 | norm 0.0179 | dt 0.085 type train | step 2310 | loss 0.1597 0.1025 0.1128 0.1003 0.1220 | lr 6.0e-04 | norm 0.0200 | dt 0.082 type train | step 2320 | loss 0.1576 0.1016 0.1122 0.0996 0.1211 | lr 6.0e-04 | norm 0.0172 | dt 0.081 type train | step 2330 | loss 0.1572 0.1012 0.1120 0.0997 0.1210 | lr 6.0e-04 | norm 0.0178 | dt 0.081 type train | step 2340 | loss 0.1568 0.1010 0.1119 0.0994 0.1210 | lr 6.0e-04 | norm 0.0197 | dt 0.082 type train | step 2350 | loss 0.1567 0.1009 0.1118 0.0994 0.1209 | lr 5.9e-04 | norm 0.0203 | dt 0.081 type train | step 2360 | loss 0.1574 0.1014 0.1121 0.0995 0.1207 | lr 5.9e-04 | norm 0.0182 | dt 0.085 type train | step 2370 | loss 0.1583 0.1019 0.1125 0.1000 0.1214 | lr 5.9e-04 | norm 0.0201 | dt 0.087 type train | step 2380 | loss 0.1563 0.1008 0.1119 0.0996 0.1207 | lr 5.8e-04 | norm 0.0160 | dt 0.087 type train | step 2390 | loss 0.1566 0.1011 0.1120 0.0994 0.1205 | lr 5.8e-04 | norm 0.0149 | dt 0.086 type train | step 2400 | loss 0.1571 0.1013 0.1122 0.0998 0.1211 | lr 5.8e-04 | norm 0.0191 | dt 0.086 type train | step 2410 | loss 0.1577 0.1016 0.1124 0.0999 0.1210 | lr 5.8e-04 | norm 0.0158 | dt 0.086 type train | step 2420 | loss 0.1564 0.1009 0.1118 0.0994 0.1206 | lr 5.7e-04 | norm 0.0178 | dt 0.085 type train | step 2430 | loss 0.1581 0.1017 0.1125 0.0998 0.1213 | lr 5.7e-04 | norm 0.0173 | dt 0.083 type train | step 2440 | loss 0.1564 0.1009 0.1118 0.0995 0.1208 | lr 5.7e-04 | norm 0.0216 | dt 0.500 type train | step 2450 | loss 0.1562 0.1010 0.1121 0.0997 0.1212 | lr 5.6e-04 | norm 0.0187 | dt 0.081 type train | step 2460 | loss 0.1570 0.1013 0.1122 0.0997 0.1212 | lr 5.6e-04 | norm 0.0188 | dt 0.081 type train | step 2470 | loss 0.1568 0.1011 0.1121 0.0994 0.1208 | lr 5.6e-04 | norm 0.0191 | dt 0.081 type train | step 2480 | loss 0.1576 0.1013 0.1122 0.0997 0.1214 | lr 5.6e-04 | norm 0.0178 | dt 0.081 type train | step 2490 | loss 0.1574 0.1013 0.1122 0.0997 0.1212 | lr 5.5e-04 | norm 0.0208 | dt 0.081 type train | step 2500 | loss 0.1574 0.1014 0.1124 0.0999 0.1213 | lr 5.5e-04 | norm 0.0218 | dt 0.084 type train | step 2510 | loss 0.1575 0.1015 0.1123 0.0998 0.1214 | lr 5.5e-04 | norm 0.0200 | dt 0.085 type train | step 2520 | loss 0.1576 0.1015 0.1121 0.0997 0.1212 | lr 5.4e-04 | norm 0.0226 | dt 0.085 type train | step 2530 | loss 0.1568 0.1012 0.1120 0.0993 0.1208 | lr 5.4e-04 | norm 0.0165 | dt 0.085 type train | step 2540 | loss 0.1571 0.1014 0.1121 0.0995 0.1213 | lr 5.4e-04 | norm 0.0185 | dt 0.084 type train | step 2550 | loss 0.1574 0.1014 0.1121 0.0996 0.1209 | lr 5.4e-04 | norm 0.0160 | dt 0.080 type train | step 2560 | loss 0.1569 0.1011 0.1119 0.0992 0.1207 | lr 5.3e-04 | norm 0.0169 | dt 0.081 type train | step 2570 | loss 0.1594 0.1022 0.1128 0.1004 0.1220 | lr 5.3e-04 | norm 0.0217 | dt 0.081 type train | step 2580 | loss 0.1575 0.1014 0.1123 0.0999 0.1215 | lr 5.3e-04 | norm 0.0160 | dt 0.082 type train | step 2590 | loss 0.1574 0.1015 0.1122 0.0996 0.1208 | lr 5.2e-04 | norm 0.0226 | dt 0.082 type train | step 2600 | loss 0.1578 0.1016 0.1122 0.0999 0.1211 | lr 5.2e-04 | norm 0.0173 | dt 0.086 type train | step 2610 | loss 0.1583 0.1016 0.1123 0.0997 0.1213 | lr 5.2e-04 | norm 0.0147 | dt 0.083 type train | step 2620 | loss 0.1572 0.1012 0.1121 0.0998 0.1211 | lr 5.2e-04 | norm 0.0179 | dt 0.081 type train | step 2630 | loss 0.1555 0.1005 0.1115 0.0993 0.1203 | lr 5.1e-04 | norm 0.0176 | dt 0.081 type train | step 2640 | loss 0.1569 0.1011 0.1121 0.0998 0.1208 | lr 5.1e-04 | norm 0.0159 | dt 0.081 type train | step 2650 | loss 0.1573 0.1012 0.1121 0.0996 0.1209 | lr 5.1e-04 | norm 0.0201 | dt 0.082 type train | step 2660 | loss 0.1575 0.1017 0.1125 0.1000 0.1215 | lr 5.0e-04 | norm 0.0195 | dt 0.081 type train | step 2670 | loss 0.1569 0.1013 0.1122 0.0998 0.1213 | lr 5.0e-04 | norm 0.0190 | dt 0.081 type train | step 2680 | loss 0.1576 0.1015 0.1124 0.0998 0.1212 | lr 5.0e-04 | norm 0.0194 | dt 0.081 type train | step 2690 | loss 0.1559 0.1007 0.1118 0.0994 0.1205 | lr 5.0e-04 | norm 0.0155 | dt 0.082 type train | step 2700 | loss 0.1561 0.1009 0.1119 0.0995 0.1205 | lr 4.9e-04 | norm 0.0191 | dt 0.082 type train | step 2710 | loss 0.1564 0.1010 0.1120 0.0995 0.1208 | lr 4.9e-04 | norm 0.0168 | dt 0.081 type train | step 2720 | loss 0.1575 0.1014 0.1120 0.0994 0.1210 | lr 4.9e-04 | norm 0.0201 | dt 0.092 type train | step 2730 | loss 0.1560 0.1007 0.1118 0.0993 0.1203 | lr 4.9e-04 | norm 0.0202 | dt 0.088 type train | step 2740 | loss 0.1571 0.1011 0.1120 0.0996 0.1207 | lr 4.8e-04 | norm 0.0193 | dt 0.087 type train | step 2750 | loss 0.1571 0.1013 0.1123 0.0999 0.1217 | lr 4.8e-04 | norm 0.0178 | dt 0.087 type train | step 2760 | loss 0.1575 0.1014 0.1122 0.0998 0.1213 | lr 4.8e-04 | norm 0.0143 | dt 0.081 type train | step 2770 | loss 0.1571 0.1013 0.1120 0.0996 0.1209 | lr 4.7e-04 | norm 0.0187 | dt 0.080 type train | step 2780 | loss 0.1570 0.1013 0.1121 0.0998 0.1210 | lr 4.7e-04 | norm 0.0187 | dt 0.081 type train | step 2790 | loss 0.1564 0.1009 0.1118 0.0994 0.1207 | lr 4.7e-04 | norm 0.0132 | dt 0.081 type train | step 2800 | loss 0.1575 0.1015 0.1124 0.1001 0.1215 | lr 4.7e-04 | norm 0.0188 | dt 0.081 type train | step 2810 | loss 0.1576 0.1017 0.1125 0.1001 0.1218 | lr 4.6e-04 | norm 0.0195 | dt 0.081 type train | step 2820 | loss 0.1567 0.1010 0.1118 0.0994 0.1210 | lr 4.6e-04 | norm 0.0167 | dt 0.080 type train | step 2830 | loss 0.1559 0.1006 0.1117 0.0993 0.1202 | lr 4.6e-04 | norm 0.0202 | dt 0.081 type train | step 2840 | loss 0.1579 0.1016 0.1126 0.1001 0.1220 | lr 4.5e-04 | norm 0.0185 | dt 0.081 type train | step 2850 | loss 0.1571 0.1012 0.1122 0.0997 0.1210 | lr 4.5e-04 | norm 0.0156 | dt 0.081 type train | step 2860 | loss 0.1568 0.1011 0.1120 0.0994 0.1205 | lr 4.5e-04 | norm 0.0195 | dt 0.081 type train | step 2870 | loss 0.1573 0.1015 0.1122 0.0998 0.1216 | lr 4.5e-04 | norm 0.0197 | dt 0.087 type train | step 2880 | loss 0.1553 0.1003 0.1114 0.0993 0.1208 | lr 4.4e-04 | norm 0.0183 | dt 0.088 type train | step 2890 | loss 0.1582 0.1016 0.1126 0.1003 0.1217 | lr 4.4e-04 | norm 0.0207 | dt 0.087 type train | step 2900 | loss 0.1566 0.1011 0.1119 0.0995 0.1206 | lr 4.4e-04 | norm 0.0145 | dt 0.086 type train | step 2910 | loss 0.1570 0.1013 0.1121 0.0997 0.1212 | lr 4.4e-04 | norm 0.0187 | dt 0.080 type train | step 2920 | loss 0.1591 0.1023 0.1127 0.1003 0.1220 | lr 4.3e-04 | norm 0.0187 | dt 0.080 type train | step 2930 | loss 0.1571 0.1013 0.1121 0.0996 0.1211 | lr 4.3e-04 | norm 0.0147 | dt 0.081 type train | step 2940 | loss 0.1566 0.1010 0.1119 0.0997 0.1209 | lr 4.3e-04 | norm 0.0184 | dt 0.081 type train | step 2950 | loss 0.1563 0.1008 0.1118 0.0993 0.1209 | lr 4.2e-04 | norm 0.0182 | dt 0.082 type train | step 2960 | loss 0.1562 0.1007 0.1117 0.0994 0.1209 | lr 4.2e-04 | norm 0.0178 | dt 0.081 type train | step 2970 | loss 0.1568 0.1012 0.1120 0.0994 0.1207 | lr 4.2e-04 | norm 0.0155 | dt 0.081 type train | step 2980 | loss 0.1578 0.1017 0.1124 0.0999 0.1213 | lr 4.2e-04 | norm 0.0204 | dt 0.090 type train | step 2990 | loss 0.1557 0.1006 0.1118 0.0995 0.1207 | lr 4.1e-04 | norm 0.0172 | dt 0.088 type train | step 3000 | loss 0.1561 0.1008 0.1119 0.0993 0.1205 | lr 4.1e-04 | norm 0.0147 | dt 0.087 type train | step 3010 | loss 0.1567 0.1011 0.1121 0.0997 0.1210 | lr 4.1e-04 | norm 0.0197 | dt 0.081 type train | step 3020 | loss 0.1572 0.1013 0.1122 0.0998 0.1209 | lr 4.1e-04 | norm 0.0164 | dt 0.082 type train | step 3030 | loss 0.1560 0.1007 0.1116 0.0993 0.1206 | lr 4.0e-04 | norm 0.0169 | dt 0.081 type train | step 3040 | loss 0.1576 0.1015 0.1124 0.0998 0.1212 | lr 4.0e-04 | norm 0.0156 | dt 0.082 type train | step 3050 | loss 0.1560 0.1007 0.1117 0.0995 0.1207 | lr 4.0e-04 | norm 0.0201 | dt 0.408 type train | step 3060 | loss 0.1558 0.1008 0.1120 0.0997 0.1211 | lr 3.9e-04 | norm 0.0164 | dt 0.081 type train | step 3070 | loss 0.1565 0.1011 0.1121 0.0997 0.1211 | lr 3.9e-04 | norm 0.0211 | dt 0.082 type train | step 3080 | loss 0.1563 0.1009 0.1120 0.0993 0.1207 | lr 3.9e-04 | norm 0.0183 | dt 0.082 type train | step 3090 | loss 0.1571 0.1011 0.1121 0.0996 0.1214 | lr 3.9e-04 | norm 0.0175 | dt 0.082 type train | step 3100 | loss 0.1570 0.1011 0.1121 0.0996 0.1211 | lr 3.8e-04 | norm 0.0207 | dt 0.083 type train | step 3110 | loss 0.1569 0.1012 0.1123 0.0998 0.1213 | lr 3.8e-04 | norm 0.0189 | dt 0.081 type train | step 3120 | loss 0.1571 0.1013 0.1122 0.0997 0.1213 | lr 3.8e-04 | norm 0.0196 | dt 0.087 type train | step 3130 | loss 0.1571 0.1013 0.1120 0.0996 0.1212 | lr 3.8e-04 | norm 0.0220 | dt 0.087 type train | step 3140 | loss 0.1564 0.1010 0.1119 0.0992 0.1207 | lr 3.7e-04 | norm 0.0156 | dt 0.087 type train | step 3150 | loss 0.1567 0.1012 0.1120 0.0995 0.1212 | lr 3.7e-04 | norm 0.0170 | dt 0.086 type train | step 3160 | loss 0.1570 0.1012 0.1120 0.0996 0.1208 | lr 3.7e-04 | norm 0.0155 | dt 0.086 type train | step 3170 | loss 0.1565 0.1009 0.1118 0.0992 0.1206 | lr 3.7e-04 | norm 0.0159 | dt 0.086 type train | step 3180 | loss 0.1589 0.1021 0.1127 0.1003 0.1220 | lr 3.6e-04 | norm 0.0220 | dt 0.086 type train | step 3190 | loss 0.1571 0.1013 0.1122 0.0998 0.1215 | lr 3.6e-04 | norm 0.0149 | dt 0.085 type train | step 3200 | loss 0.1570 0.1013 0.1121 0.0996 0.1207 | lr 3.6e-04 | norm 0.0170 | dt 0.081 type train | step 3210 | loss 0.1574 0.1014 0.1122 0.0998 0.1211 | lr 3.6e-04 | norm 0.0164 | dt 0.081 type train | step 3220 | loss 0.1579 0.1015 0.1122 0.0997 0.1213 | lr 3.5e-04 | norm 0.0141 | dt 0.082 type train | step 3230 | loss 0.1568 0.1010 0.1120 0.0997 0.1210 | lr 3.5e-04 | norm 0.0191 | dt 0.083 type train | step 3240 | loss 0.1552 0.1003 0.1114 0.0993 0.1203 | lr 3.5e-04 | norm 0.0180 | dt 0.081 type train | step 3250 | loss 0.1565 0.1009 0.1120 0.0997 0.1207 | lr 3.5e-04 | norm 0.0148 | dt 0.082 type train | step 3260 | loss 0.1569 0.1011 0.1120 0.0996 0.1208 | lr 3.4e-04 | norm 0.0259 | dt 0.082 type train | step 3270 | loss 0.1572 0.1015 0.1124 0.1000 0.1215 | lr 3.4e-04 | norm 0.0169 | dt 0.081 type train | step 3280 | loss 0.1565 0.1012 0.1121 0.0998 0.1212 | lr 3.4e-04 | norm 0.0211 | dt 0.082 type train | step 3290 | loss 0.1572 0.1013 0.1123 0.0998 0.1212 | lr 3.4e-04 | norm 0.0196 | dt 0.082 type train | step 3300 | loss 0.1556 0.1006 0.1117 0.0993 0.1204 | lr 3.3e-04 | norm 0.0142 | dt 0.083 type train | step 3310 | loss 0.1557 0.1007 0.1118 0.0994 0.1205 | lr 3.3e-04 | norm 0.0183 | dt 0.083 type train | step 3320 | loss 0.1561 0.1009 0.1120 0.0995 0.1208 | lr 3.3e-04 | norm 0.0153 | dt 0.082 type train | step 3330 | loss 0.1572 0.1012 0.1120 0.0993 0.1210 | lr 3.3e-04 | norm 0.0174 | dt 0.084 type train | step 3340 | loss 0.1557 0.1006 0.1117 0.0993 0.1203 | lr 3.2e-04 | norm 0.0206 | dt 0.081 type train | step 3350 | loss 0.1567 0.1009 0.1119 0.0996 0.1207 | lr 3.2e-04 | norm 0.0183 | dt 0.083 type train | step 3360 | loss 0.1567 0.1012 0.1122 0.0998 0.1217 | lr 3.2e-04 | norm 0.0180 | dt 0.081 type train | step 3370 | loss 0.1572 0.1012 0.1121 0.0997 0.1213 | lr 3.2e-04 | norm 0.0139 | dt 0.081 type train | step 3380 | loss 0.1568 0.1011 0.1120 0.0995 0.1209 | lr 3.1e-04 | norm 0.0173 | dt 0.081 type train | step 3390 | loss 0.1567 0.1012 0.1121 0.0998 0.1210 | lr 3.1e-04 | norm 0.0192 | dt 0.084 type train | step 3400 | loss 0.1561 0.1008 0.1117 0.0993 0.1207 | lr 3.1e-04 | norm 0.0171 | dt 0.082 type train | step 3410 | loss 0.1572 0.1013 0.1123 0.1000 0.1215 | lr 3.1e-04 | norm 0.0167 | dt 0.084 type train | step 3420 | loss 0.1573 0.1015 0.1124 0.1001 0.1218 | lr 3.0e-04 | norm 0.0190 | dt 0.081 type train | step 3430 | loss 0.1564 0.1009 0.1118 0.0993 0.1210 | lr 3.0e-04 | norm 0.0188 | dt 0.082 type train | step 3440 | loss 0.1556 0.1005 0.1116 0.0992 0.1202 | lr 3.0e-04 | norm 0.0203 | dt 0.081 type train | step 3450 | loss 0.1576 0.1014 0.1125 0.1001 0.1219 | lr 3.0e-04 | norm 0.0183 | dt 0.092 type train | step 3460 | loss 0.1568 0.1010 0.1121 0.0997 0.1210 | lr 2.9e-04 | norm 0.0132 | dt 0.087 type train | step 3470 | loss 0.1566 0.1010 0.1120 0.0993 0.1205 | lr 2.9e-04 | norm 0.0187 | dt 0.087 type train | step 3480 | loss 0.1570 0.1014 0.1122 0.0998 0.1215 | lr 2.9e-04 | norm 0.0181 | dt 0.087 type train | step 3490 | loss 0.1550 0.1002 0.1113 0.0993 0.1208 | lr 2.9e-04 | norm 0.0186 | dt 0.086 type train | step 3500 | loss 0.1578 0.1015 0.1125 0.1003 0.1216 | lr 2.9e-04 | norm 0.0204 | dt 0.087 type train | step 3510 | loss 0.1563 0.1010 0.1118 0.0995 0.1206 | lr 2.8e-04 | norm 0.0134 | dt 0.084 type train | step 3520 | loss 0.1567 0.1011 0.1120 0.0997 0.1212 | lr 2.8e-04 | norm 0.0179 | dt 0.081 type train | step 3530 | loss 0.1588 0.1021 0.1127 0.1002 0.1219 | lr 2.8e-04 | norm 0.0168 | dt 0.085 type train | step 3540 | loss 0.1568 0.1012 0.1120 0.0995 0.1210 | lr 2.8e-04 | norm 0.0129 | dt 0.081 type train | step 3550 | loss 0.1563 0.1008 0.1118 0.0996 0.1209 | lr 2.7e-04 | norm 0.0162 | dt 0.081 type train | step 3560 | loss 0.1561 0.1006 0.1117 0.0993 0.1209 | lr 2.7e-04 | norm 0.0196 | dt 0.085 type train | step 3570 | loss 0.1559 0.1006 0.1116 0.0993 0.1208 | lr 2.7e-04 | norm 0.0186 | dt 0.081 type train | step 3580 | loss 0.1566 0.1010 0.1120 0.0994 0.1206 | lr 2.7e-04 | norm 0.0157 | dt 0.081 type train | step 3590 | loss 0.1575 0.1015 0.1123 0.0999 0.1213 | lr 2.7e-04 | norm 0.0178 | dt 0.082 type train | step 3600 | loss 0.1555 0.1005 0.1117 0.0995 0.1206 | lr 2.6e-04 | norm 0.0149 | dt 0.082 type train | step 3610 | loss 0.1558 0.1007 0.1118 0.0993 0.1204 | lr 2.6e-04 | norm 0.0133 | dt 0.083 type train | step 3620 | loss 0.1564 0.1010 0.1120 0.0997 0.1210 | lr 2.6e-04 | norm 0.0191 | dt 0.082 type train | step 3630 | loss 0.1570 0.1012 0.1122 0.0998 0.1209 | lr 2.6e-04 | norm 0.0163 | dt 0.082 type train | step 3640 | loss 0.1557 0.1005 0.1116 0.0993 0.1206 | lr 2.5e-04 | norm 0.0193 | dt 0.082 type train | step 3650 | loss 0.1573 0.1014 0.1123 0.0998 0.1212 | lr 2.5e-04 | norm 0.0148 | dt 0.081 type train | step 3660 | loss 0.1557 0.1006 0.1117 0.0994 0.1207 | lr 2.5e-04 | norm 0.0185 | dt 0.215 type train | step 3670 | loss 0.1555 0.1006 0.1120 0.0997 0.1211 | lr 2.5e-04 | norm 0.0145 | dt 0.088 type train | step 3680 | loss 0.1562 0.1010 0.1120 0.0996 0.1211 | lr 2.5e-04 | norm 0.0175 | dt 0.086 type train | step 3690 | loss 0.1560 0.1007 0.1119 0.0993 0.1207 | lr 2.4e-04 | norm 0.0183 | dt 0.088 type train | step 3700 | loss 0.1569 0.1010 0.1120 0.0996 0.1213 | lr 2.4e-04 | norm 0.0164 | dt 0.087 type train | step 3710 | loss 0.1567 0.1010 0.1120 0.0996 0.1211 | lr 2.4e-04 | norm 0.0197 | dt 0.085 type train | step 3720 | loss 0.1567 0.1011 0.1122 0.0998 0.1212 | lr 2.4e-04 | norm 0.0178 | dt 0.080 type train | step 3730 | loss 0.1569 0.1012 0.1122 0.0997 0.1213 | lr 2.4e-04 | norm 0.0167 | dt 0.081 type train | step 3740 | loss 0.1569 0.1012 0.1119 0.0996 0.1211 | lr 2.3e-04 | norm 0.0203 | dt 0.082 type train | step 3750 | loss 0.1561 0.1010 0.1118 0.0992 0.1207 | lr 2.3e-04 | norm 0.0135 | dt 0.082 type train | step 3760 | loss 0.1564 0.1011 0.1120 0.0995 0.1212 | lr 2.3e-04 | norm 0.0143 | dt 0.080 type train | step 3770 | loss 0.1568 0.1011 0.1119 0.0996 0.1208 | lr 2.3e-04 | norm 0.0146 | dt 0.081 type train | step 3780 | loss 0.1562 0.1008 0.1117 0.0991 0.1206 | lr 2.3e-04 | norm 0.0178 | dt 0.081 type train | step 3790 | loss 0.1587 0.1020 0.1127 0.1003 0.1220 | lr 2.2e-04 | norm 0.0218 | dt 0.082 type train | step 3800 | loss 0.1568 0.1012 0.1122 0.0998 0.1214 | lr 2.2e-04 | norm 0.0132 | dt 0.081 type train | step 3810 | loss 0.1568 0.1012 0.1121 0.0995 0.1207 | lr 2.2e-04 | norm 0.0163 | dt 0.081 type train | step 3820 | loss 0.1572 0.1013 0.1121 0.0998 0.1211 | lr 2.2e-04 | norm 0.0155 | dt 0.082 type train | step 3830 | loss 0.1577 0.1014 0.1122 0.0996 0.1213 | lr 2.2e-04 | norm 0.0148 | dt 0.081 type train | step 3840 | loss 0.1566 0.1009 0.1120 0.0997 0.1210 | lr 2.1e-04 | norm 0.0176 | dt 0.080 type train | step 3850 | loss 0.1550 0.1002 0.1114 0.0993 0.1203 | lr 2.1e-04 | norm 0.0165 | dt 0.081 type train | step 3860 | loss 0.1563 0.1008 0.1120 0.0997 0.1207 | lr 2.1e-04 | norm 0.0122 | dt 0.081 type train | step 3870 | loss 0.1567 0.1010 0.1119 0.0995 0.1208 | lr 2.1e-04 | norm 0.0207 | dt 0.081 type train | step 3880 | loss 0.1569 0.1014 0.1123 0.0999 0.1215 | lr 2.1e-04 | norm 0.0155 | dt 0.080 type train | step 3890 | loss 0.1563 0.1011 0.1120 0.0998 0.1212 | lr 2.1e-04 | norm 0.0168 | dt 0.082 type train | step 3900 | loss 0.1570 0.1013 0.1123 0.0997 0.1212 | lr 2.0e-04 | norm 0.0184 | dt 0.082 type train | step 3910 | loss 0.1554 0.1005 0.1116 0.0993 0.1204 | lr 2.0e-04 | norm 0.0149 | dt 0.081 type train | step 3920 | loss 0.1555 0.1006 0.1118 0.0994 0.1205 | lr 2.0e-04 | norm 0.0170 | dt 0.086 type train | step 3930 | loss 0.1559 0.1008 0.1119 0.0995 0.1207 | lr 2.0e-04 | norm 0.0142 | dt 0.087 type train | step 3940 | loss 0.1570 0.1011 0.1119 0.0993 0.1210 | lr 2.0e-04 | norm 0.0168 | dt 0.087 type train | step 3950 | loss 0.1555 0.1005 0.1117 0.0993 0.1203 | lr 1.9e-04 | norm 0.0202 | dt 0.088 type train | step 3960 | loss 0.1566 0.1008 0.1119 0.0995 0.1207 | lr 1.9e-04 | norm 0.0178 | dt 0.087 type train | step 3970 | loss 0.1566 0.1011 0.1122 0.0998 0.1217 | lr 1.9e-04 | norm 0.0172 | dt 0.081 type train | step 3980 | loss 0.1571 0.1012 0.1121 0.0997 0.1212 | lr 1.9e-04 | norm 0.0146 | dt 0.080 type train | step 3990 | loss 0.1566 0.1010 0.1119 0.0995 0.1208 | lr 1.9e-04 | norm 0.0167 | dt 0.081 type train | step 4000 | loss 0.1565 0.1011 0.1120 0.0998 0.1210 | lr 1.9e-04 | norm 0.0202 | dt 0.081 type train | step 4010 | loss 0.1559 0.1007 0.1117 0.0993 0.1206 | lr 1.8e-04 | norm 0.0158 | dt 0.085 type train | step 4020 | loss 0.1570 0.1012 0.1123 0.1000 0.1214 | lr 1.8e-04 | norm 0.0121 | dt 0.085 type train | step 4030 | loss 0.1571 0.1014 0.1123 0.1001 0.1218 | lr 1.8e-04 | norm 0.0166 | dt 0.080 type train | step 4040 | loss 0.1562 0.1008 0.1117 0.0993 0.1209 | lr 1.8e-04 | norm 0.0152 | dt 0.081 type train | step 4050 | loss 0.1554 0.1004 0.1116 0.0992 0.1202 | lr 1.8e-04 | norm 0.0200 | dt 0.081 type train | step 4060 | loss 0.1574 0.1013 0.1125 0.1000 0.1219 | lr 1.8e-04 | norm 0.0207 | dt 0.082 type train | step 4070 | loss 0.1566 0.1010 0.1121 0.0996 0.1210 | lr 1.7e-04 | norm 0.0128 | dt 0.081 type train | step 4080 | loss 0.1564 0.1009 0.1119 0.0993 0.1204 | lr 1.7e-04 | norm 0.0186 | dt 0.081 type train | step 4090 | loss 0.1568 0.1013 0.1122 0.0998 0.1215 | lr 1.7e-04 | norm 0.0167 | dt 0.082 type train | step 4100 | loss 0.1548 0.1001 0.1113 0.0992 0.1207 | lr 1.7e-04 | norm 0.0196 | dt 0.081 type train | step 4110 | loss 0.1577 0.1014 0.1125 0.1002 0.1216 | lr 1.7e-04 | norm 0.0194 | dt 0.082 type train | step 4120 | loss 0.1561 0.1009 0.1118 0.0994 0.1206 | lr 1.7e-04 | norm 0.0126 | dt 0.086 type train | step 4130 | loss 0.1565 0.1011 0.1120 0.0997 0.1212 | lr 1.7e-04 | norm 0.0169 | dt 0.086 type train | step 4140 | loss 0.1586 0.1021 0.1126 0.1002 0.1219 | lr 1.6e-04 | norm 0.0155 | dt 0.081 type train | step 4150 | loss 0.1566 0.1011 0.1120 0.0995 0.1210 | lr 1.6e-04 | norm 0.0140 | dt 0.081 type train | step 4160 | loss 0.1562 0.1008 0.1118 0.0996 0.1209 | lr 1.6e-04 | norm 0.0163 | dt 0.082 type train | step 4170 | loss 0.1559 0.1006 0.1117 0.0993 0.1209 | lr 1.6e-04 | norm 0.0181 | dt 0.082 type train | step 4180 | loss 0.1557 0.1005 0.1116 0.0993 0.1208 | lr 1.6e-04 | norm 0.0152 | dt 0.081 type train | step 4190 | loss 0.1564 0.1010 0.1119 0.0994 0.1206 | lr 1.6e-04 | norm 0.0161 | dt 0.081 type train | step 4200 | loss 0.1574 0.1015 0.1123 0.0999 0.1213 | lr 1.6e-04 | norm 0.0190 | dt 0.089 type train | step 4210 | loss 0.1553 0.1005 0.1117 0.0995 0.1206 | lr 1.5e-04 | norm 0.0162 | dt 0.087 type train | step 4220 | loss 0.1556 0.1007 0.1118 0.0992 0.1204 | lr 1.5e-04 | norm 0.0137 | dt 0.086 type train | step 4230 | loss 0.1562 0.1010 0.1120 0.0996 0.1210 | lr 1.5e-04 | norm 0.0175 | dt 0.086 type train | step 4240 | loss 0.1568 0.1012 0.1122 0.0998 0.1209 | lr 1.5e-04 | norm 0.0134 | dt 0.086 type train | step 4250 | loss 0.1556 0.1005 0.1116 0.0993 0.1206 | lr 1.5e-04 | norm 0.0171 | dt 0.087 type train | step 4260 | loss 0.1572 0.1013 0.1123 0.0997 0.1212 | lr 1.5e-04 | norm 0.0125 | dt 0.082 type train | step 4270 | loss 0.1555 0.1005 0.1117 0.0994 0.1207 | lr 1.5e-04 | norm 0.0183 | dt 0.200 type train | step 4280 | loss 0.1554 0.1006 0.1119 0.0996 0.1211 | lr 1.5e-04 | norm 0.0140 | dt 0.081 type train | step 4290 | loss 0.1561 0.1009 0.1120 0.0996 0.1211 | lr 1.4e-04 | norm 0.0160 | dt 0.081 type train | step 4300 | loss 0.1559 0.1007 0.1119 0.0993 0.1207 | lr 1.4e-04 | norm 0.0183 | dt 0.080 type train | step 4310 | loss 0.1567 0.1010 0.1120 0.0996 0.1213 | lr 1.4e-04 | norm 0.0146 | dt 0.081 type train | step 4320 | loss 0.1566 0.1010 0.1120 0.0996 0.1211 | lr 1.4e-04 | norm 0.0182 | dt 0.084 type train | step 4330 | loss 0.1566 0.1010 0.1122 0.0998 0.1212 | lr 1.4e-04 | norm 0.0159 | dt 0.087 type train | step 4340 | loss 0.1568 0.1012 0.1122 0.0997 0.1213 | lr 1.4e-04 | norm 0.0159 | dt 0.088 type train | step 4350 | loss 0.1568 0.1011 0.1119 0.0996 0.1211 | lr 1.4e-04 | norm 0.0211 | dt 0.086 type train | step 4360 | loss 0.1560 0.1009 0.1118 0.0992 0.1206 | lr 1.4e-04 | norm 0.0118 | dt 0.086 type train | step 4370 | loss 0.1563 0.1011 0.1120 0.0995 0.1212 | lr 1.3e-04 | norm 0.0181 | dt 0.086 type train | step 4380 | loss 0.1567 0.1010 0.1119 0.0995 0.1208 | lr 1.3e-04 | norm 0.0130 | dt 0.086 type train | step 4390 | loss 0.1561 0.1007 0.1117 0.0991 0.1206 | lr 1.3e-04 | norm 0.0151 | dt 0.082 type train | step 4400 | loss 0.1586 0.1019 0.1127 0.1003 0.1220 | lr 1.3e-04 | norm 0.0212 | dt 0.081 type train | step 4410 | loss 0.1567 0.1011 0.1121 0.0998 0.1214 | lr 1.3e-04 | norm 0.0122 | dt 0.081 type train | step 4420 | loss 0.1567 0.1011 0.1121 0.0995 0.1207 | lr 1.3e-04 | norm 0.0137 | dt 0.081 type train | step 4430 | loss 0.1570 0.1012 0.1121 0.0998 0.1211 | lr 1.3e-04 | norm 0.0128 | dt 0.081 type train | step 4440 | loss 0.1576 0.1013 0.1121 0.0996 0.1213 | lr 1.3e-04 | norm 0.0143 | dt 0.080 type train | step 4450 | loss 0.1565 0.1009 0.1120 0.0997 0.1210 | lr 1.3e-04 | norm 0.0165 | dt 0.081 type train | step 4460 | loss 0.1548 0.1001 0.1114 0.0992 0.1202 | lr 1.3e-04 | norm 0.0166 | dt 0.082 type train | step 4470 | loss 0.1562 0.1008 0.1119 0.0997 0.1207 | lr 1.2e-04 | norm 0.0128 | dt 0.081 type train | step 4480 | loss 0.1566 0.1009 0.1119 0.0995 0.1208 | lr 1.2e-04 | norm 0.0158 | dt 0.081 type train | step 4490 | loss 0.1568 0.1013 0.1123 0.0999 0.1215 | lr 1.2e-04 | norm 0.0150 | dt 0.081 type train | step 4500 | loss 0.1562 0.1010 0.1120 0.0997 0.1212 | lr 1.2e-04 | norm 0.0156 | dt 0.081 type train | step 4510 | loss 0.1569 0.1012 0.1123 0.0997 0.1211 | lr 1.2e-04 | norm 0.0164 | dt 0.085 type train | step 4520 | loss 0.1552 0.1005 0.1116 0.0993 0.1204 | lr 1.2e-04 | norm 0.0127 | dt 0.081 type train | step 4530 | loss 0.1554 0.1006 0.1118 0.0994 0.1205 | lr 1.2e-04 | norm 0.0190 | dt 0.081 type train | step 4540 | loss 0.1558 0.1008 0.1119 0.0994 0.1207 | lr 1.2e-04 | norm 0.0145 | dt 0.082 type train | step 4550 | loss 0.1569 0.1011 0.1119 0.0993 0.1209 | lr 1.2e-04 | norm 0.0167 | dt 0.081 type train | step 4560 | loss 0.1554 0.1005 0.1117 0.0992 0.1202 | lr 1.2e-04 | norm 0.0186 | dt 0.082 type train | step 4570 | loss 0.1564 0.1008 0.1119 0.0995 0.1206 | lr 1.2e-04 | norm 0.0167 | dt 0.081 type train | step 4580 | loss 0.1564 0.1010 0.1122 0.0998 0.1216 | lr 1.2e-04 | norm 0.0163 | dt 0.081 type train | step 4590 | loss 0.1569 0.1011 0.1121 0.0997 0.1212 | lr 1.1e-04 | norm 0.0147 | dt 0.081 type train | step 4600 | loss 0.1564 0.1010 0.1119 0.0995 0.1208 | lr 1.1e-04 | norm 0.0162 | dt 0.081 type train | step 4610 | loss 0.1563 0.1011 0.1120 0.0998 0.1209 | lr 1.1e-04 | norm 0.0164 | dt 0.086 type train | step 4620 | loss 0.1558 0.1007 0.1116 0.0993 0.1206 | lr 1.1e-04 | norm 0.0135 | dt 0.083 type train | step 4630 | loss 0.1569 0.1012 0.1123 0.1000 0.1214 | lr 1.1e-04 | norm 0.0133 | dt 0.085 type train | step 4640 | loss 0.1570 0.1014 0.1123 0.1001 0.1217 | lr 1.1e-04 | norm 0.0157 | dt 0.085 type train | step 4650 | loss 0.1561 0.1007 0.1117 0.0993 0.1209 | lr 1.1e-04 | norm 0.0140 | dt 0.081 type train | step 4660 | loss 0.1553 0.1004 0.1116 0.0992 0.1201 | lr 1.1e-04 | norm 0.0210 | dt 0.081 type train | step 4670 | loss 0.1573 0.1013 0.1125 0.1000 0.1219 | lr 1.1e-04 | norm 0.0185 | dt 0.081 type train | step 4680 | loss 0.1565 0.1009 0.1120 0.0996 0.1209 | lr 1.1e-04 | norm 0.0119 | dt 0.083 type train | step 4690 | loss 0.1563 0.1009 0.1119 0.0993 0.1204 | lr 1.1e-04 | norm 0.0177 | dt 0.082 type train | step 4700 | loss 0.1567 0.1012 0.1121 0.0997 0.1215 | lr 1.1e-04 | norm 0.0155 | dt 0.085 type train | step 4710 | loss 0.1548 0.1001 0.1113 0.0992 0.1207 | lr 1.1e-04 | norm 0.0187 | dt 0.081 type train | step 4720 | loss 0.1576 0.1014 0.1125 0.1002 0.1216 | lr 1.1e-04 | norm 0.0190 | dt 0.081 type train | step 4730 | loss 0.1560 0.1009 0.1117 0.0994 0.1206 | lr 1.1e-04 | norm 0.0134 | dt 0.079 type train | step 4740 | loss 0.1564 0.1010 0.1120 0.0997 0.1212 | lr 1.1e-04 | norm 0.0184 | dt 0.081 type train | step 4750 | loss 0.1585 0.1020 0.1126 0.1002 0.1219 | lr 1.1e-04 | norm 0.0153 | dt 0.081 type train | step 4760 | loss 0.1565 0.1011 0.1120 0.0995 0.1210 | lr 1.1e-04 | norm 0.0126 | dt 0.083 type train | step 4770 | loss 0.1561 0.1007 0.1118 0.0996 0.1208 | lr 1.0e-04 | norm 0.0178 | dt 0.081 type train | step 4780 | loss 0.1558 0.1005 0.1117 0.0992 0.1209 | lr 1.0e-04 | norm 0.0180 | dt 0.082 type train | step 4790 | loss 0.1556 0.1005 0.1116 0.0993 0.1208 | lr 1.0e-04 | norm 0.0163 | dt 0.088 type train | step 4800 | loss 0.1563 0.1009 0.1119 0.0994 0.1206 | lr 1.0e-04 | norm 0.0138 | dt 0.086 type train | step 4810 | loss 0.1573 0.1015 0.1122 0.0999 0.1213 | lr 1.0e-04 | norm 0.0177 | dt 0.085 type train | step 4820 | loss 0.1552 0.1004 0.1117 0.0995 0.1206 | lr 1.0e-04 | norm 0.0137 | dt 0.081 type train | step 4830 | loss 0.1556 0.1006 0.1118 0.0992 0.1204 | lr 1.0e-04 | norm 0.0127 | dt 0.081 type train | step 4840 | loss 0.1562 0.1009 0.1120 0.0996 0.1209 | lr 1.0e-04 | norm 0.0176 | dt 0.082 type train | step 4850 | loss 0.1568 0.1011 0.1122 0.0998 0.1209 | lr 1.0e-04 | norm 0.0120 | dt 0.081 type train | step 4860 | loss 0.1555 0.1004 0.1116 0.0993 0.1205 | lr 1.0e-04 | norm 0.0164 | dt 0.087 type train | step 4870 | loss 0.1571 0.1013 0.1123 0.0997 0.1212 | lr 1.0e-04 | norm 0.0124 | dt 0.086 type train | step 4880 | loss 0.1555 0.1005 0.1117 0.0994 0.1206 | lr 1.0e-04 | norm 0.0186 | dt 0.506 type train | step 4890 | loss 0.1553 0.1006 0.1119 0.0996 0.1211 | lr 1.0e-04 | norm 0.0135 | dt 0.085 type train | step 4900 | loss 0.1560 0.1009 0.1120 0.0996 0.1211 | lr 1.0e-04 | norm 0.0160 | dt 0.085 type train | step 4910 | loss 0.1558 0.1007 0.1119 0.0993 0.1207 | lr 1.0e-04 | norm 0.0178 | dt 0.080 type train | step 4920 | loss 0.1566 0.1009 0.1120 0.0996 0.1213 | lr 1.0e-04 | norm 0.0134 | dt 0.081 type train | step 4930 | loss 0.1565 0.1009 0.1120 0.0996 0.1211 | lr 1.0e-04 | norm 0.0187 | dt 0.081 type train | step 4940 | loss 0.1565 0.1010 0.1122 0.0998 0.1212 | lr 1.0e-04 | norm 0.0143 | dt 0.084 type train | step 4950 | loss 0.1567 0.1012 0.1121 0.0997 0.1212 | lr 1.0e-04 | norm 0.0162 | dt 0.081 type train | step 4960 | loss 0.1567 0.1011 0.1119 0.0996 0.1211 | lr 1.0e-04 | norm 0.0191 | dt 0.082 type train | step 4970 | loss 0.1559 0.1009 0.1118 0.0992 0.1206 | lr 1.0e-04 | norm 0.0125 | dt 0.083 type train | step 4980 | loss 0.1563 0.1010 0.1119 0.0995 0.1212 | lr 1.0e-04 | norm 0.0156 | dt 0.083 type train | step 4990 | loss 0.1566 0.1010 0.1119 0.0995 0.1208 | lr 1.0e-04 | norm 0.0140 | dt 0.081 type train | step 5000 | loss 0.1560 0.1007 0.1117 0.0991 0.1206 | lr 1.0e-04 | norm 0.0136 | dt 0.082 type train | step 10 | loss 153.7002 84.9912 51.2369 39.1347 43.2588 | lr 1.0e-03 | norm 254.1246 | dt 0.042 type train | step 20 | loss 105.9501 52.1152 30.0233 22.7837 27.4859 | lr 1.0e-03 | norm 137.4717 | dt 0.042 type train | step 30 | loss 72.3566 31.5192 17.1054 12.6177 16.6550 | lr 1.0e-03 | norm 96.5306 | dt 0.042 type train | step 40 | loss 46.2021 18.0323 9.1761 6.5637 9.3759 | lr 1.0e-03 | norm 73.8411 | dt 0.042 type train | step 50 | loss 29.1907 9.7259 4.7203 3.1845 4.8247 | lr 1.0e-03 | norm 56.7843 | dt 0.042 type train | step 60 | loss 16.9109 4.7600 2.2671 1.4548 2.2521 | lr 1.0e-03 | norm 39.7849 | dt 0.042 type train | step 70 | loss 9.7012 2.2114 1.1134 0.7048 1.0329 | lr 1.0e-03 | norm 26.8959 | dt 0.042 type train | step 80 | loss 5.2537 1.0541 0.6223 0.4233 0.5326 | lr 1.0e-03 | norm 16.2103 | dt 0.042 type train | step 90 | loss 2.6941 0.6191 0.4513 0.3415 0.3750 | lr 1.0e-03 | norm 8.1078 | dt 0.042 type train | step 100 | loss 1.5345 0.5027 0.3953 0.3053 0.3304 | lr 1.0e-03 | norm 3.5809 | dt 0.043 type train | step 110 | loss 1.0207 0.4337 0.3497 0.2677 0.2972 | lr 1.0e-03 | norm 1.3677 | dt 0.042 type train | step 120 | loss 0.7410 0.3743 0.3052 0.2326 0.2645 | lr 1.0e-03 | norm 0.5561 | dt 0.042 type train | step 130 | loss 0.6299 0.3317 0.2750 0.2092 0.2379 | lr 1.0e-03 | norm 0.4384 | dt 0.042 type train | step 140 | loss 0.5585 0.2978 0.2494 0.1888 0.2179 | lr 1.0e-03 | norm 0.3455 | dt 0.044 type train | step 150 | loss 0.5060 0.2748 0.2309 0.1764 0.2052 | lr 1.0e-03 | norm 0.2772 | dt 0.042 type train | step 160 | loss 0.4672 0.2574 0.2177 0.1665 0.1943 | lr 1.0e-03 | norm 0.2140 | dt 0.042 type train | step 170 | loss 0.4343 0.2398 0.2059 0.1583 0.1832 | lr 1.0e-03 | norm 0.1904 | dt 0.042 type train | step 180 | loss 0.4093 0.2260 0.1954 0.1520 0.1756 | lr 1.0e-03 | norm 0.1560 | dt 0.042 type train | step 190 | loss 0.3850 0.2144 0.1871 0.1469 0.1704 | lr 1.0e-03 | norm 0.1235 | dt 0.042 type train | step 200 | loss 0.3647 0.2048 0.1800 0.1423 0.1654 | lr 1.0e-03 | norm 0.1053 | dt 0.042 type train | step 210 | loss 0.3461 0.1940 0.1725 0.1378 0.1597 | lr 1.0e-03 | norm 0.1010 | dt 0.043 type train | step 220 | loss 0.3288 0.1869 0.1676 0.1348 0.1565 | lr 1.0e-03 | norm 0.0891 | dt 0.042 type train | step 230 | loss 0.3133 0.1784 0.1622 0.1313 0.1518 | lr 1.0e-03 | norm 0.0791 | dt 0.043 type train | step 240 | loss 0.3008 0.1715 0.1579 0.1286 0.1496 | lr 9.9e-04 | norm 0.0717 | dt 0.043 type train | step 250 | loss 0.2873 0.1652 0.1541 0.1263 0.1474 | lr 9.9e-04 | norm 0.0671 | dt 0.042 type train | step 260 | loss 0.2790 0.1617 0.1520 0.1256 0.1463 | lr 9.9e-04 | norm 0.0607 | dt 0.044 type train | step 270 | loss 0.2644 0.1536 0.1472 0.1222 0.1433 | lr 9.9e-04 | norm 0.0553 | dt 0.043 type train | step 280 | loss 0.2557 0.1501 0.1451 0.1206 0.1418 | lr 9.9e-04 | norm 0.0528 | dt 0.043 type train | step 290 | loss 0.2472 0.1461 0.1430 0.1197 0.1406 | lr 9.9e-04 | norm 0.0422 | dt 0.043 type train | step 300 | loss 0.2391 0.1430 0.1402 0.1172 0.1379 | lr 9.9e-04 | norm 0.0398 | dt 0.043 type train | step 310 | loss 0.2308 0.1388 0.1375 0.1157 0.1361 | lr 9.9e-04 | norm 0.0385 | dt 0.043 type train | step 320 | loss 0.2250 0.1357 0.1358 0.1146 0.1352 | lr 9.9e-04 | norm 0.0448 | dt 0.043 type train | step 330 | loss 0.2174 0.1327 0.1337 0.1133 0.1341 | lr 9.9e-04 | norm 0.0343 | dt 0.043 type train | step 340 | loss 0.2129 0.1305 0.1322 0.1123 0.1331 | lr 9.9e-04 | norm 0.0275 | dt 0.043 type train | step 350 | loss 0.2085 0.1283 0.1308 0.1117 0.1327 | lr 9.9e-04 | norm 0.0330 | dt 0.043 type train | step 360 | loss 0.2016 0.1249 0.1285 0.1096 0.1298 | lr 9.9e-04 | norm 0.0227 | dt 0.043 type train | step 370 | loss 0.1994 0.1241 0.1278 0.1092 0.1297 | lr 9.9e-04 | norm 0.0234 | dt 0.043 type train | step 380 | loss 0.1938 0.1210 0.1259 0.1081 0.1281 | lr 9.9e-04 | norm 0.0220 | dt 0.043 type train | step 390 | loss 0.1926 0.1204 0.1255 0.1080 0.1290 | lr 9.9e-04 | norm 0.0254 | dt 0.043 type train | step 400 | loss 0.1890 0.1185 0.1241 0.1071 0.1273 | lr 9.9e-04 | norm 0.0239 | dt 0.043 type train | step 410 | loss 0.1869 0.1177 0.1236 0.1068 0.1279 | lr 9.9e-04 | norm 0.0227 | dt 0.043 type train | step 420 | loss 0.1837 0.1158 0.1223 0.1059 0.1262 | lr 9.8e-04 | norm 0.0224 | dt 0.043 type train | step 430 | loss 0.1812 0.1146 0.1213 0.1051 0.1262 | lr 9.8e-04 | norm 0.0275 | dt 0.043 type train | step 440 | loss 0.1802 0.1142 0.1214 0.1053 0.1260 | lr 9.8e-04 | norm 0.0207 | dt 0.043 type train | step 450 | loss 0.1753 0.1117 0.1195 0.1038 0.1241 | lr 9.8e-04 | norm 0.0262 | dt 0.043 type train | step 460 | loss 0.1747 0.1112 0.1191 0.1037 0.1243 | lr 9.8e-04 | norm 0.0274 | dt 0.043 type train | step 470 | loss 0.1754 0.1115 0.1194 0.1040 0.1249 | lr 9.8e-04 | norm 0.0236 | dt 0.043 type train | step 480 | loss 0.1729 0.1102 0.1187 0.1033 0.1241 | lr 9.8e-04 | norm 0.0261 | dt 0.043 type train | step 490 | loss 0.1702 0.1088 0.1177 0.1030 0.1231 | lr 9.8e-04 | norm 0.0239 | dt 0.043 type train | step 500 | loss 0.1687 0.1081 0.1171 0.1023 0.1226 | lr 9.8e-04 | norm 0.0258 | dt 0.043 type train | step 510 | loss 0.1686 0.1078 0.1170 0.1021 0.1227 | lr 9.8e-04 | norm 0.0205 | dt 0.045 type train | step 520 | loss 0.1672 0.1070 0.1165 0.1019 0.1226 | lr 9.8e-04 | norm 0.0246 | dt 0.044 type train | step 530 | loss 0.1658 0.1063 0.1159 0.1019 0.1225 | lr 9.8e-04 | norm 0.0204 | dt 0.044 type train | step 540 | loss 0.1654 0.1061 0.1161 0.1016 0.1222 | lr 9.7e-04 | norm 0.0199 | dt 0.044 type train | step 550 | loss 0.1655 0.1059 0.1159 0.1018 0.1221 | lr 9.7e-04 | norm 0.0193 | dt 0.045 type train | step 560 | loss 0.1656 0.1059 0.1155 0.1012 0.1222 | lr 9.7e-04 | norm 0.0249 | dt 0.044 type train | step 570 | loss 0.1629 0.1044 0.1147 0.1010 0.1214 | lr 9.7e-04 | norm 0.0262 | dt 0.044 type train | step 580 | loss 0.1606 0.1035 0.1142 0.1002 0.1203 | lr 9.7e-04 | norm 0.0217 | dt 0.044 type train | step 590 | loss 0.1617 0.1037 0.1142 0.1005 0.1211 | lr 9.7e-04 | norm 0.0235 | dt 0.044 type train | step 600 | loss 0.1600 0.1029 0.1137 0.0999 0.1202 | lr 9.7e-04 | norm 0.0439 | dt 0.044 type train | step 610 | loss 0.1591 0.1025 0.1133 0.1001 0.1204 | lr 9.7e-04 | norm 0.0227 | dt 0.189 type train | step 620 | loss 0.1602 0.1031 0.1143 0.1008 0.1221 | lr 9.7e-04 | norm 0.0363 | dt 0.045 type train | step 630 | loss 0.1584 0.1022 0.1135 0.1005 0.1214 | lr 9.7e-04 | norm 0.0228 | dt 0.044 type train | step 640 | loss 0.1588 0.1018 0.1131 0.0998 0.1202 | lr 9.6e-04 | norm 0.0191 | dt 0.044 type train | step 650 | loss 0.1567 0.1012 0.1127 0.0995 0.1199 | lr 9.6e-04 | norm 0.0232 | dt 0.045 type train | step 660 | loss 0.1573 0.1017 0.1129 0.0997 0.1200 | lr 9.6e-04 | norm 0.0193 | dt 0.045 type train | step 670 | loss 0.1556 0.1005 0.1123 0.0991 0.1197 | lr 9.6e-04 | norm 0.0246 | dt 0.045 type train | step 680 | loss 0.1566 0.1011 0.1126 0.1000 0.1203 | lr 9.6e-04 | norm 0.0228 | dt 0.044 type train | step 690 | loss 0.1564 0.1008 0.1122 0.0993 0.1202 | lr 9.6e-04 | norm 0.0198 | dt 0.044 type train | step 700 | loss 0.1551 0.1002 0.1120 0.0992 0.1196 | lr 9.6e-04 | norm 0.0289 | dt 0.044 type train | step 710 | loss 0.1548 0.1000 0.1119 0.0991 0.1195 | lr 9.6e-04 | norm 0.0303 | dt 0.044 type train | step 720 | loss 0.1549 0.1002 0.1122 0.0996 0.1203 | lr 9.5e-04 | norm 0.0253 | dt 0.044 type train | step 730 | loss 0.1549 0.1001 0.1121 0.0995 0.1204 | lr 9.5e-04 | norm 0.0311 | dt 0.045 type train | step 740 | loss 0.1545 0.0999 0.1120 0.0993 0.1199 | lr 9.5e-04 | norm 0.0251 | dt 0.044 type train | step 750 | loss 0.1537 0.0996 0.1116 0.0989 0.1193 | lr 9.5e-04 | norm 0.0187 | dt 0.044 type train | step 760 | loss 0.1519 0.0985 0.1109 0.0985 0.1190 | lr 9.5e-04 | norm 0.0236 | dt 0.044 type train | step 770 | loss 0.1528 0.0991 0.1111 0.0985 0.1190 | lr 9.5e-04 | norm 0.0269 | dt 0.044 type train | step 780 | loss 0.1511 0.0982 0.1107 0.0981 0.1180 | lr 9.5e-04 | norm 0.0265 | dt 0.044 type train | step 790 | loss 0.1510 0.0982 0.1105 0.0980 0.1179 | lr 9.5e-04 | norm 0.0214 | dt 0.044 type train | step 800 | loss 0.1507 0.0982 0.1108 0.0987 0.1190 | lr 9.4e-04 | norm 0.0237 | dt 0.044 type train | step 810 | loss 0.1518 0.0987 0.1110 0.0985 0.1190 | lr 9.4e-04 | norm 0.0188 | dt 0.045 type train | step 820 | loss 0.1512 0.0981 0.1107 0.0982 0.1184 | lr 9.4e-04 | norm 0.0200 | dt 0.045 type train | step 830 | loss 0.1504 0.0979 0.1107 0.0983 0.1187 | lr 9.4e-04 | norm 0.0274 | dt 0.045 type train | step 840 | loss 0.1504 0.0977 0.1103 0.0979 0.1180 | lr 9.4e-04 | norm 0.0188 | dt 0.044 type train | step 850 | loss 0.1502 0.0976 0.1102 0.0978 0.1182 | lr 9.4e-04 | norm 0.0228 | dt 0.045 type train | step 860 | loss 0.1503 0.0977 0.1104 0.0982 0.1187 | lr 9.4e-04 | norm 0.0256 | dt 0.045 type train | step 870 | loss 0.1532 0.0989 0.1112 0.0990 0.1195 | lr 9.3e-04 | norm 0.0378 | dt 0.044 type train | step 880 | loss 0.1482 0.0966 0.1096 0.0977 0.1183 | lr 9.3e-04 | norm 0.0289 | dt 0.044 type train | step 890 | loss 0.1498 0.0972 0.1103 0.0981 0.1188 | lr 9.3e-04 | norm 0.0234 | dt 0.045 type train | step 900 | loss 0.1505 0.0976 0.1108 0.0986 0.1191 | lr 9.3e-04 | norm 0.0296 | dt 0.044 type train | step 910 | loss 0.1494 0.0972 0.1102 0.0979 0.1182 | lr 9.3e-04 | norm 0.0265 | dt 0.044 type train | step 920 | loss 0.1490 0.0970 0.1098 0.0978 0.1178 | lr 9.3e-04 | norm 0.0276 | dt 0.044 type train | step 930 | loss 0.1491 0.0971 0.1099 0.0978 0.1181 | lr 9.3e-04 | norm 0.0386 | dt 0.044 type train | step 940 | loss 0.1482 0.0967 0.1097 0.0977 0.1181 | lr 9.2e-04 | norm 0.0251 | dt 0.045 type train | step 950 | loss 0.1489 0.0970 0.1099 0.0979 0.1184 | lr 9.2e-04 | norm 0.0226 | dt 0.045 type train | step 960 | loss 0.1491 0.0969 0.1100 0.0982 0.1187 | lr 9.2e-04 | norm 0.0303 | dt 0.044 type train | step 970 | loss 0.1471 0.0959 0.1092 0.0973 0.1171 | lr 9.2e-04 | norm 0.0194 | dt 0.044 type train | step 980 | loss 0.1484 0.0966 0.1095 0.0975 0.1175 | lr 9.2e-04 | norm 0.0216 | dt 0.045 type train | step 990 | loss 0.1464 0.0955 0.1089 0.0973 0.1168 | lr 9.2e-04 | norm 0.0217 | dt 0.044 type train | step 1000 | loss 0.1482 0.0963 0.1096 0.0978 0.1184 | lr 9.1e-04 | norm 0.0260 | dt 0.044 type train | step 1010 | loss 0.1473 0.0958 0.1092 0.0976 0.1174 | lr 9.1e-04 | norm 0.0265 | dt 0.046 type train | step 1020 | loss 0.1477 0.0963 0.1097 0.0978 0.1185 | lr 9.1e-04 | norm 0.0223 | dt 0.045 type train | step 1030 | loss 0.1471 0.0959 0.1091 0.0975 0.1175 | lr 9.1e-04 | norm 0.0225 | dt 0.044 type train | step 1040 | loss 0.1471 0.0957 0.1090 0.0974 0.1180 | lr 9.1e-04 | norm 0.0288 | dt 0.045 type train | step 1050 | loss 0.1475 0.0961 0.1098 0.0979 0.1183 | lr 9.1e-04 | norm 0.0225 | dt 0.045 type train | step 1060 | loss 0.1445 0.0950 0.1085 0.0968 0.1167 | lr 9.0e-04 | norm 0.0253 | dt 0.044 type train | step 1070 | loss 0.1456 0.0952 0.1087 0.0972 0.1176 | lr 9.0e-04 | norm 0.0321 | dt 0.044 type train | step 1080 | loss 0.1479 0.0964 0.1097 0.0979 0.1185 | lr 9.0e-04 | norm 0.0266 | dt 0.045 type train | step 1090 | loss 0.1468 0.0957 0.1094 0.0975 0.1179 | lr 9.0e-04 | norm 0.0257 | dt 0.044 type train | step 1100 | loss 0.1454 0.0950 0.1089 0.0974 0.1172 | lr 9.0e-04 | norm 0.0259 | dt 0.044 type train | step 1110 | loss 0.1453 0.0951 0.1087 0.0971 0.1170 | lr 8.9e-04 | norm 0.0269 | dt 0.044 type train | step 1120 | loss 0.1464 0.0955 0.1090 0.0971 0.1174 | lr 8.9e-04 | norm 0.0200 | dt 0.044 type train | step 1130 | loss 0.1462 0.0954 0.1090 0.0973 0.1176 | lr 8.9e-04 | norm 0.0256 | dt 0.045 type train | step 1140 | loss 0.1457 0.0952 0.1089 0.0974 0.1178 | lr 8.9e-04 | norm 0.0205 | dt 0.045 type train | step 1150 | loss 0.1457 0.0952 0.1090 0.0973 0.1177 | lr 8.9e-04 | norm 0.0215 | dt 0.045 type train | step 1160 | loss 0.1470 0.0956 0.1093 0.0977 0.1178 | lr 8.9e-04 | norm 0.0260 | dt 0.044 type train | step 1170 | loss 0.1475 0.0959 0.1091 0.0973 0.1180 | lr 8.8e-04 | norm 0.0251 | dt 0.044 type train | step 1180 | loss 0.1461 0.0952 0.1087 0.0973 0.1174 | lr 8.8e-04 | norm 0.0264 | dt 0.044 type train | step 1190 | loss 0.1443 0.0946 0.1083 0.0966 0.1164 | lr 8.8e-04 | norm 0.0264 | dt 0.045 type train | step 1200 | loss 0.1459 0.0950 0.1087 0.0970 0.1174 | lr 8.8e-04 | norm 0.0241 | dt 0.045 type train | step 1210 | loss 0.1450 0.0947 0.1084 0.0966 0.1168 | lr 8.8e-04 | norm 0.0481 | dt 0.045 type train | step 1220 | loss 0.1448 0.0945 0.1082 0.0969 0.1170 | lr 8.7e-04 | norm 0.0245 | dt 0.130 type train | step 1230 | loss 0.1462 0.0953 0.1092 0.0976 0.1188 | lr 8.7e-04 | norm 0.0354 | dt 0.045 type train | step 1240 | loss 0.1450 0.0948 0.1088 0.0975 0.1182 | lr 8.7e-04 | norm 0.0246 | dt 0.044 type train | step 1250 | loss 0.1461 0.0948 0.1086 0.0970 0.1172 | lr 8.7e-04 | norm 0.0186 | dt 0.044 type train | step 1260 | loss 0.1441 0.0943 0.1082 0.0967 0.1169 | lr 8.7e-04 | norm 0.0229 | dt 0.044 type train | step 1270 | loss 0.1453 0.0950 0.1087 0.0971 0.1172 | lr 8.6e-04 | norm 0.0245 | dt 0.044 type train | step 1280 | loss 0.1442 0.0942 0.1082 0.0966 0.1170 | lr 8.6e-04 | norm 0.0265 | dt 0.045 type train | step 1290 | loss 0.1452 0.0948 0.1086 0.0974 0.1176 | lr 8.6e-04 | norm 0.0278 | dt 0.045 type train | step 1300 | loss 0.1456 0.0948 0.1084 0.0969 0.1177 | lr 8.6e-04 | norm 0.0200 | dt 0.044 type train | step 1310 | loss 0.1447 0.0943 0.1082 0.0968 0.1171 | lr 8.6e-04 | norm 0.0295 | dt 0.045 type train | step 1320 | loss 0.1445 0.0944 0.1084 0.0969 0.1171 | lr 8.5e-04 | norm 0.0317 | dt 0.044 type train | step 1330 | loss 0.1453 0.0947 0.1087 0.0974 0.1180 | lr 8.5e-04 | norm 0.0268 | dt 0.044 type train | step 1340 | loss 0.1454 0.0947 0.1088 0.0974 0.1182 | lr 8.5e-04 | norm 0.0319 | dt 0.045 type train | step 1350 | loss 0.1454 0.0947 0.1087 0.0973 0.1178 | lr 8.5e-04 | norm 0.0250 | dt 0.044 type train | step 1360 | loss 0.1448 0.0945 0.1085 0.0970 0.1172 | lr 8.5e-04 | norm 0.0245 | dt 0.044 type train | step 1370 | loss 0.1432 0.0937 0.1077 0.0965 0.1169 | lr 8.4e-04 | norm 0.0215 | dt 0.045 type train | step 1380 | loss 0.1444 0.0943 0.1081 0.0967 0.1170 | lr 8.4e-04 | norm 0.0262 | dt 0.045 type train | step 1390 | loss 0.1432 0.0936 0.1077 0.0963 0.1162 | lr 8.4e-04 | norm 0.0280 | dt 0.044 type train | step 1400 | loss 0.1433 0.0937 0.1076 0.0962 0.1161 | lr 8.4e-04 | norm 0.0225 | dt 0.044 type train | step 1410 | loss 0.1433 0.0939 0.1081 0.0970 0.1173 | lr 8.3e-04 | norm 0.0252 | dt 0.044 type train | step 1420 | loss 0.1443 0.0944 0.1083 0.0968 0.1173 | lr 8.3e-04 | norm 0.0194 | dt 0.044 type train | step 1430 | loss 0.1441 0.0941 0.1081 0.0966 0.1168 | lr 8.3e-04 | norm 0.0217 | dt 0.045 type train | step 1440 | loss 0.1434 0.0939 0.1082 0.0967 0.1170 | lr 8.3e-04 | norm 0.0306 | dt 0.045 type train | step 1450 | loss 0.1436 0.0938 0.1078 0.0964 0.1164 | lr 8.3e-04 | norm 0.0192 | dt 0.044 type train | step 1460 | loss 0.1435 0.0939 0.1078 0.0962 0.1167 | lr 8.2e-04 | norm 0.0224 | dt 0.044 type train | step 1470 | loss 0.1437 0.0939 0.1080 0.0967 0.1171 | lr 8.2e-04 | norm 0.0268 | dt 0.044 type train | step 1480 | loss 0.1468 0.0953 0.1090 0.0976 0.1180 | lr 8.2e-04 | norm 0.0361 | dt 0.045 type train | step 1490 | loss 0.1422 0.0932 0.1074 0.0963 0.1169 | lr 8.2e-04 | norm 0.0327 | dt 0.044 type train | step 1500 | loss 0.1436 0.0938 0.1081 0.0968 0.1174 | lr 8.1e-04 | norm 0.0259 | dt 0.044 type train | step 1510 | loss 0.1447 0.0943 0.1087 0.0974 0.1178 | lr 8.1e-04 | norm 0.0323 | dt 0.045 type train | step 1520 | loss 0.1437 0.0940 0.1081 0.0966 0.1169 | lr 8.1e-04 | norm 0.0299 | dt 0.045 type train | step 1530 | loss 0.1435 0.0938 0.1078 0.0966 0.1165 | lr 8.1e-04 | norm 0.0280 | dt 0.046 type train | step 1540 | loss 0.1438 0.0939 0.1080 0.0966 0.1167 | lr 8.1e-04 | norm 0.0381 | dt 0.044 type train | step 1550 | loss 0.1430 0.0938 0.1078 0.0965 0.1168 | lr 8.0e-04 | norm 0.0250 | dt 0.044 type train | step 1560 | loss 0.1438 0.0941 0.1081 0.0967 0.1172 | lr 8.0e-04 | norm 0.0221 | dt 0.044 type train | step 1570 | loss 0.1441 0.0941 0.1082 0.0971 0.1175 | lr 8.0e-04 | norm 0.0303 | dt 0.045 type train | step 1580 | loss 0.1423 0.0931 0.1074 0.0962 0.1160 | lr 8.0e-04 | norm 0.0215 | dt 0.045 type train | step 1590 | loss 0.1434 0.0937 0.1079 0.0964 0.1164 | lr 7.9e-04 | norm 0.0218 | dt 0.045 type train | step 1600 | loss 0.1418 0.0929 0.1072 0.0962 0.1157 | lr 7.9e-04 | norm 0.0221 | dt 0.044 type train | step 1610 | loss 0.1434 0.0938 0.1080 0.0968 0.1174 | lr 7.9e-04 | norm 0.0288 | dt 0.044 type train | step 1620 | loss 0.1427 0.0933 0.1076 0.0966 0.1164 | lr 7.9e-04 | norm 0.0298 | dt 0.044 type train | step 1630 | loss 0.1433 0.0938 0.1081 0.0968 0.1175 | lr 7.8e-04 | norm 0.0232 | dt 0.045 type train | step 1640 | loss 0.1427 0.0935 0.1075 0.0966 0.1165 | lr 7.8e-04 | norm 0.0243 | dt 0.045 type train | step 1650 | loss 0.1429 0.0934 0.1075 0.0964 0.1170 | lr 7.8e-04 | norm 0.0299 | dt 0.044 type train | step 1660 | loss 0.1434 0.0938 0.1083 0.0970 0.1173 | lr 7.8e-04 | norm 0.0227 | dt 0.044 type train | step 1670 | loss 0.1406 0.0927 0.1071 0.0960 0.1158 | lr 7.7e-04 | norm 0.0251 | dt 0.044 type train | step 1680 | loss 0.1416 0.0930 0.1074 0.0963 0.1166 | lr 7.7e-04 | norm 0.0339 | dt 0.045 type train | step 1690 | loss 0.1440 0.0942 0.1083 0.0970 0.1176 | lr 7.7e-04 | norm 0.0284 | dt 0.045 type train | step 1700 | loss 0.1430 0.0937 0.1081 0.0966 0.1171 | lr 7.7e-04 | norm 0.0271 | dt 0.044 type train | step 1710 | loss 0.1416 0.0930 0.1076 0.0965 0.1163 | lr 7.6e-04 | norm 0.0278 | dt 0.045 type train | step 1720 | loss 0.1417 0.0931 0.1074 0.0963 0.1162 | lr 7.6e-04 | norm 0.0255 | dt 0.045 type train | step 1730 | loss 0.1429 0.0936 0.1078 0.0963 0.1166 | lr 7.6e-04 | norm 0.0230 | dt 0.044 type train | step 1740 | loss 0.1427 0.0933 0.1077 0.0965 0.1168 | lr 7.6e-04 | norm 0.0255 | dt 0.044 type train | step 1750 | loss 0.1424 0.0934 0.1077 0.0967 0.1170 | lr 7.5e-04 | norm 0.0223 | dt 0.045 type train | step 1760 | loss 0.1422 0.0933 0.1078 0.0966 0.1169 | lr 7.5e-04 | norm 0.0214 | dt 0.044 type train | step 1770 | loss 0.1436 0.0938 0.1082 0.0970 0.1170 | lr 7.5e-04 | norm 0.0256 | dt 0.044 type train | step 1780 | loss 0.1440 0.0941 0.1080 0.0966 0.1173 | lr 7.5e-04 | norm 0.0270 | dt 0.045 type train | step 1790 | loss 0.1430 0.0935 0.1077 0.0965 0.1167 | lr 7.4e-04 | norm 0.0272 | dt 0.045 type train | step 1800 | loss 0.1412 0.0929 0.1073 0.0958 0.1157 | lr 7.4e-04 | norm 0.0297 | dt 0.044 type train | step 1810 | loss 0.1426 0.0934 0.1076 0.0963 0.1167 | lr 7.4e-04 | norm 0.0238 | dt 0.044 type train | step 1820 | loss 0.1420 0.0931 0.1073 0.0959 0.1161 | lr 7.4e-04 | norm 0.0471 | dt 0.044 type train | step 1830 | loss 0.1420 0.0929 0.1071 0.0962 0.1164 | lr 7.3e-04 | norm 0.0243 | dt 0.618 type train | step 1840 | loss 0.1433 0.0937 0.1082 0.0969 0.1182 | lr 7.3e-04 | norm 0.0344 | dt 0.045 type train | step 1850 | loss 0.1421 0.0933 0.1078 0.0968 0.1175 | lr 7.3e-04 | norm 0.0236 | dt 0.044 type train | step 1860 | loss 0.1432 0.0933 0.1077 0.0963 0.1165 | lr 7.3e-04 | norm 0.0197 | dt 0.045 type train | step 1870 | loss 0.1413 0.0928 0.1073 0.0961 0.1163 | lr 7.2e-04 | norm 0.0229 | dt 0.045 type train | step 1880 | loss 0.1425 0.0936 0.1078 0.0964 0.1166 | lr 7.2e-04 | norm 0.0218 | dt 0.044 type train | step 1890 | loss 0.1414 0.0927 0.1073 0.0960 0.1164 | lr 7.2e-04 | norm 0.0269 | dt 0.045 type train | step 1900 | loss 0.1425 0.0933 0.1077 0.0968 0.1171 | lr 7.2e-04 | norm 0.0273 | dt 0.045 type train | step 1910 | loss 0.1431 0.0934 0.1075 0.0963 0.1171 | lr 7.1e-04 | norm 0.0212 | dt 0.044 type train | step 1920 | loss 0.1421 0.0930 0.1074 0.0962 0.1166 | lr 7.1e-04 | norm 0.0314 | dt 0.045 type train | step 1930 | loss 0.1420 0.0931 0.1075 0.0963 0.1165 | lr 7.1e-04 | norm 0.0320 | dt 0.045 type train | step 1940 | loss 0.1429 0.0933 0.1079 0.0968 0.1174 | lr 7.1e-04 | norm 0.0241 | dt 0.044 type train | step 1950 | loss 0.1429 0.0935 0.1080 0.0968 0.1177 | lr 7.0e-04 | norm 0.0352 | dt 0.045 type train | step 1960 | loss 0.1430 0.0935 0.1080 0.0968 0.1172 | lr 7.0e-04 | norm 0.0268 | dt 0.045 type train | step 1970 | loss 0.1425 0.0933 0.1076 0.0964 0.1167 | lr 7.0e-04 | norm 0.0235 | dt 0.046 type train | step 1980 | loss 0.1408 0.0925 0.1070 0.0960 0.1164 | lr 6.9e-04 | norm 0.0215 | dt 0.044 type train | step 1990 | loss 0.1421 0.0931 0.1074 0.0961 0.1165 | lr 6.9e-04 | norm 0.0269 | dt 0.044 type train | step 2000 | loss 0.1409 0.0925 0.1070 0.0958 0.1157 | lr 6.9e-04 | norm 0.0274 | dt 0.044 type train | step 2010 | loss 0.1411 0.0926 0.1069 0.0957 0.1157 | lr 6.9e-04 | norm 0.0223 | dt 0.044 type train | step 2020 | loss 0.1412 0.0928 0.1073 0.0965 0.1167 | lr 6.8e-04 | norm 0.0253 | dt 0.044 type train | step 2030 | loss 0.1421 0.0932 0.1075 0.0963 0.1168 | lr 6.8e-04 | norm 0.0224 | dt 0.045 type train | step 2040 | loss 0.1420 0.0929 0.1074 0.0961 0.1163 | lr 6.8e-04 | norm 0.0190 | dt 0.045 type train | step 2050 | loss 0.1413 0.0928 0.1075 0.0962 0.1166 | lr 6.8e-04 | norm 0.0292 | dt 0.045 type train | step 2060 | loss 0.1415 0.0927 0.1071 0.0959 0.1159 | lr 6.7e-04 | norm 0.0213 | dt 0.044 type train | step 2070 | loss 0.1415 0.0929 0.1071 0.0958 0.1162 | lr 6.7e-04 | norm 0.0222 | dt 0.044 type train | step 2080 | loss 0.1417 0.0930 0.1074 0.0962 0.1167 | lr 6.7e-04 | norm 0.0254 | dt 0.045 type train | step 2090 | loss 0.1448 0.0943 0.1083 0.0971 0.1176 | lr 6.6e-04 | norm 0.0353 | dt 0.045 type train | step 2100 | loss 0.1403 0.0922 0.1067 0.0959 0.1164 | lr 6.6e-04 | norm 0.0317 | dt 0.045 type train | step 2110 | loss 0.1417 0.0928 0.1075 0.0963 0.1169 | lr 6.6e-04 | norm 0.0243 | dt 0.044 type train | step 2120 | loss 0.1429 0.0934 0.1081 0.0969 0.1174 | lr 6.6e-04 | norm 0.0327 | dt 0.045 type train | step 2130 | loss 0.1419 0.0930 0.1074 0.0962 0.1164 | lr 6.5e-04 | norm 0.0345 | dt 0.045 type train | step 2140 | loss 0.1417 0.0929 0.1072 0.0962 0.1161 | lr 6.5e-04 | norm 0.0275 | dt 0.048 type train | step 2150 | loss 0.1421 0.0930 0.1074 0.0962 0.1163 | lr 6.5e-04 | norm 0.0359 | dt 0.045 type train | step 2160 | loss 0.1413 0.0929 0.1072 0.0961 0.1164 | lr 6.5e-04 | norm 0.0250 | dt 0.044 type train | step 2170 | loss 0.1421 0.0932 0.1075 0.0963 0.1168 | lr 6.4e-04 | norm 0.0226 | dt 0.044 type train | step 2180 | loss 0.1424 0.0932 0.1076 0.0966 0.1171 | lr 6.4e-04 | norm 0.0299 | dt 0.045 type train | step 2190 | loss 0.1406 0.0922 0.1068 0.0958 0.1156 | lr 6.4e-04 | norm 0.0217 | dt 0.044 type train | step 2200 | loss 0.1418 0.0929 0.1073 0.0960 0.1160 | lr 6.3e-04 | norm 0.0217 | dt 0.044 type train | step 2210 | loss 0.1403 0.0921 0.1067 0.0959 0.1154 | lr 6.3e-04 | norm 0.0193 | dt 0.046 type train | step 2220 | loss 0.1418 0.0930 0.1074 0.0964 0.1170 | lr 6.3e-04 | norm 0.0294 | dt 0.045 type train | step 2230 | loss 0.1411 0.0924 0.1071 0.0962 0.1160 | lr 6.3e-04 | norm 0.0281 | dt 0.045 type train | step 2240 | loss 0.1417 0.0930 0.1075 0.0964 0.1172 | lr 6.2e-04 | norm 0.0233 | dt 0.044 type train | step 2250 | loss 0.1412 0.0927 0.1070 0.0962 0.1161 | lr 6.2e-04 | norm 0.0214 | dt 0.045 type train | step 2260 | loss 0.1414 0.0926 0.1070 0.0961 0.1166 | lr 6.2e-04 | norm 0.0305 | dt 0.045 type train | step 2270 | loss 0.1420 0.0930 0.1078 0.0966 0.1170 | lr 6.1e-04 | norm 0.0199 | dt 0.045 type train | step 2280 | loss 0.1392 0.0920 0.1066 0.0957 0.1155 | lr 6.1e-04 | norm 0.0261 | dt 0.045 type train | step 2290 | loss 0.1402 0.0923 0.1069 0.0960 0.1163 | lr 6.1e-04 | norm 0.0308 | dt 0.045 type train | step 2300 | loss 0.1427 0.0934 0.1078 0.0967 0.1172 | lr 6.1e-04 | norm 0.0277 | dt 0.044 type train | step 2310 | loss 0.1415 0.0929 0.1076 0.0963 0.1168 | lr 6.0e-04 | norm 0.0257 | dt 0.044 type train | step 2320 | loss 0.1401 0.0922 0.1071 0.0962 0.1159 | lr 6.0e-04 | norm 0.0253 | dt 0.045 type train | step 2330 | loss 0.1404 0.0924 0.1070 0.0960 0.1158 | lr 6.0e-04 | norm 0.0272 | dt 0.044 type train | step 2340 | loss 0.1415 0.0929 0.1073 0.0960 0.1163 | lr 6.0e-04 | norm 0.0202 | dt 0.044 type train | step 2350 | loss 0.1414 0.0926 0.1073 0.0962 0.1165 | lr 5.9e-04 | norm 0.0263 | dt 0.045 type train | step 2360 | loss 0.1411 0.0927 0.1072 0.0964 0.1167 | lr 5.9e-04 | norm 0.0223 | dt 0.045 type train | step 2370 | loss 0.1409 0.0926 0.1074 0.0963 0.1166 | lr 5.9e-04 | norm 0.0203 | dt 0.045 type train | step 2380 | loss 0.1422 0.0931 0.1077 0.0967 0.1167 | lr 5.8e-04 | norm 0.0243 | dt 0.045 type train | step 2390 | loss 0.1426 0.0934 0.1075 0.0963 0.1170 | lr 5.8e-04 | norm 0.0246 | dt 0.044 type train | step 2400 | loss 0.1417 0.0929 0.1073 0.0962 0.1164 | lr 5.8e-04 | norm 0.0253 | dt 0.044 type train | step 2410 | loss 0.1400 0.0922 0.1068 0.0955 0.1154 | lr 5.8e-04 | norm 0.0253 | dt 0.045 type train | step 2420 | loss 0.1414 0.0928 0.1072 0.0960 0.1164 | lr 5.7e-04 | norm 0.0256 | dt 0.045 type train | step 2430 | loss 0.1408 0.0925 0.1069 0.0957 0.1158 | lr 5.7e-04 | norm 0.0434 | dt 0.045 type train | step 2440 | loss 0.1409 0.0922 0.1067 0.0959 0.1161 | lr 5.7e-04 | norm 0.0262 | dt 0.731 type train | step 2450 | loss 0.1421 0.0931 0.1078 0.0966 0.1179 | lr 5.6e-04 | norm 0.0311 | dt 0.045 type train | step 2460 | loss 0.1409 0.0927 0.1074 0.0965 0.1172 | lr 5.6e-04 | norm 0.0298 | dt 0.044 type train | step 2470 | loss 0.1419 0.0928 0.1073 0.0961 0.1163 | lr 5.6e-04 | norm 0.0190 | dt 0.044 type train | step 2480 | loss 0.1401 0.0922 0.1068 0.0959 0.1160 | lr 5.6e-04 | norm 0.0258 | dt 0.045 type train | step 2490 | loss 0.1414 0.0930 0.1074 0.0961 0.1164 | lr 5.5e-04 | norm 0.0233 | dt 0.044 type train | step 2500 | loss 0.1403 0.0921 0.1069 0.0958 0.1162 | lr 5.5e-04 | norm 0.0257 | dt 0.045 type train | step 2510 | loss 0.1414 0.0927 0.1073 0.0965 0.1168 | lr 5.5e-04 | norm 0.0257 | dt 0.048 type train | step 2520 | loss 0.1419 0.0928 0.1071 0.0960 0.1168 | lr 5.4e-04 | norm 0.0214 | dt 0.047 type train | step 2530 | loss 0.1410 0.0924 0.1070 0.0960 0.1163 | lr 5.4e-04 | norm 0.0298 | dt 0.047 type train | step 2540 | loss 0.1409 0.0926 0.1072 0.0961 0.1163 | lr 5.4e-04 | norm 0.0297 | dt 0.046 type train | step 2550 | loss 0.1418 0.0928 0.1075 0.0966 0.1172 | lr 5.4e-04 | norm 0.0252 | dt 0.045 type train | step 2560 | loss 0.1418 0.0929 0.1076 0.0966 0.1174 | lr 5.3e-04 | norm 0.0356 | dt 0.044 type train | step 2570 | loss 0.1420 0.0930 0.1076 0.0966 0.1169 | lr 5.3e-04 | norm 0.0227 | dt 0.044 type train | step 2580 | loss 0.1414 0.0927 0.1073 0.0962 0.1165 | lr 5.3e-04 | norm 0.0269 | dt 0.045 type train | step 2590 | loss 0.1398 0.0920 0.1066 0.0957 0.1162 | lr 5.2e-04 | norm 0.0221 | dt 0.044 type train | step 2600 | loss 0.1411 0.0926 0.1070 0.0959 0.1163 | lr 5.2e-04 | norm 0.0275 | dt 0.045 type train | step 2610 | loss 0.1399 0.0920 0.1066 0.0956 0.1155 | lr 5.2e-04 | norm 0.0265 | dt 0.045 type train | step 2620 | loss 0.1401 0.0921 0.1066 0.0954 0.1155 | lr 5.2e-04 | norm 0.0222 | dt 0.044 type train | step 2630 | loss 0.1402 0.0922 0.1070 0.0963 0.1165 | lr 5.1e-04 | norm 0.0214 | dt 0.045 type train | step 2640 | loss 0.1411 0.0927 0.1072 0.0961 0.1166 | lr 5.1e-04 | norm 0.0205 | dt 0.044 type train | step 2650 | loss 0.1410 0.0925 0.1071 0.0959 0.1161 | lr 5.1e-04 | norm 0.0214 | dt 0.044 type train | step 2660 | loss 0.1404 0.0923 0.1071 0.0960 0.1164 | lr 5.0e-04 | norm 0.0298 | dt 0.045 type train | step 2670 | loss 0.1405 0.0923 0.1068 0.0957 0.1157 | lr 5.0e-04 | norm 0.0197 | dt 0.045 type train | step 2680 | loss 0.1406 0.0924 0.1068 0.0956 0.1161 | lr 5.0e-04 | norm 0.0208 | dt 0.045 type train | step 2690 | loss 0.1408 0.0925 0.1070 0.0960 0.1165 | lr 5.0e-04 | norm 0.0255 | dt 0.045 type train | step 2700 | loss 0.1439 0.0938 0.1080 0.0970 0.1174 | lr 4.9e-04 | norm 0.0348 | dt 0.045 type train | step 2710 | loss 0.1394 0.0918 0.1064 0.0957 0.1163 | lr 4.9e-04 | norm 0.0327 | dt 0.044 type train | step 2720 | loss 0.1409 0.0924 0.1072 0.0961 0.1167 | lr 4.9e-04 | norm 0.0209 | dt 0.044 type train | step 2730 | loss 0.1419 0.0929 0.1078 0.0968 0.1172 | lr 4.9e-04 | norm 0.0314 | dt 0.045 type train | step 2740 | loss 0.1409 0.0926 0.1072 0.0960 0.1162 | lr 4.8e-04 | norm 0.0285 | dt 0.044 type train | step 2750 | loss 0.1408 0.0925 0.1069 0.0960 0.1160 | lr 4.8e-04 | norm 0.0261 | dt 0.045 type train | step 2760 | loss 0.1412 0.0926 0.1071 0.0960 0.1161 | lr 4.8e-04 | norm 0.0356 | dt 0.046 type train | step 2770 | loss 0.1405 0.0925 0.1069 0.0959 0.1162 | lr 4.7e-04 | norm 0.0234 | dt 0.045 type train | step 2780 | loss 0.1413 0.0927 0.1072 0.0961 0.1166 | lr 4.7e-04 | norm 0.0235 | dt 0.045 type train | step 2790 | loss 0.1416 0.0928 0.1073 0.0965 0.1169 | lr 4.7e-04 | norm 0.0293 | dt 0.045 type train | step 2800 | loss 0.1398 0.0918 0.1065 0.0957 0.1154 | lr 4.7e-04 | norm 0.0220 | dt 0.044 type train | step 2810 | loss 0.1409 0.0925 0.1071 0.0958 0.1159 | lr 4.6e-04 | norm 0.0220 | dt 0.044 type train | step 2820 | loss 0.1396 0.0917 0.1065 0.0957 0.1152 | lr 4.6e-04 | norm 0.0187 | dt 0.045 type train | step 2830 | loss 0.1410 0.0926 0.1072 0.0963 0.1169 | lr 4.6e-04 | norm 0.0289 | dt 0.044 type train | step 2840 | loss 0.1403 0.0921 0.1068 0.0961 0.1159 | lr 4.5e-04 | norm 0.0228 | dt 0.046 type train | step 2850 | loss 0.1409 0.0926 0.1072 0.0963 0.1170 | lr 4.5e-04 | norm 0.0216 | dt 0.044 type train | step 2860 | loss 0.1403 0.0923 0.1068 0.0961 0.1159 | lr 4.5e-04 | norm 0.0196 | dt 0.044 type train | step 2870 | loss 0.1406 0.0921 0.1068 0.0959 0.1165 | lr 4.5e-04 | norm 0.0265 | dt 0.045 type train | step 2880 | loss 0.1412 0.0926 0.1075 0.0964 0.1168 | lr 4.4e-04 | norm 0.0186 | dt 0.045 type train | step 2890 | loss 0.1385 0.0916 0.1063 0.0955 0.1153 | lr 4.4e-04 | norm 0.0245 | dt 0.044 type train | step 2900 | loss 0.1395 0.0919 0.1066 0.0958 0.1161 | lr 4.4e-04 | norm 0.0292 | dt 0.044 type train | step 2910 | loss 0.1419 0.0930 0.1076 0.0966 0.1171 | lr 4.4e-04 | norm 0.0224 | dt 0.045 type train | step 2920 | loss 0.1408 0.0926 0.1074 0.0962 0.1166 | lr 4.3e-04 | norm 0.0266 | dt 0.045 type train | step 2930 | loss 0.1394 0.0919 0.1068 0.0960 0.1158 | lr 4.3e-04 | norm 0.0207 | dt 0.044 type train | step 2940 | loss 0.1397 0.0920 0.1067 0.0958 0.1157 | lr 4.3e-04 | norm 0.0242 | dt 0.045 type train | step 2950 | loss 0.1408 0.0925 0.1070 0.0959 0.1162 | lr 4.2e-04 | norm 0.0189 | dt 0.045 type train | step 2960 | loss 0.1407 0.0923 0.1070 0.0960 0.1164 | lr 4.2e-04 | norm 0.0261 | dt 0.045 type train | step 2970 | loss 0.1404 0.0923 0.1070 0.0962 0.1165 | lr 4.2e-04 | norm 0.0234 | dt 0.045 type train | step 2980 | loss 0.1402 0.0922 0.1071 0.0961 0.1164 | lr 4.2e-04 | norm 0.0199 | dt 0.045 type train | step 2990 | loss 0.1415 0.0928 0.1075 0.0965 0.1166 | lr 4.1e-04 | norm 0.0221 | dt 0.045 type train | step 3000 | loss 0.1420 0.0930 0.1073 0.0962 0.1168 | lr 4.1e-04 | norm 0.0251 | dt 0.045 type train | step 3010 | loss 0.1410 0.0925 0.1070 0.0961 0.1162 | lr 4.1e-04 | norm 0.0257 | dt 0.045 type train | step 3020 | loss 0.1394 0.0919 0.1066 0.0954 0.1153 | lr 4.1e-04 | norm 0.0236 | dt 0.044 type train | step 3030 | loss 0.1407 0.0924 0.1070 0.0959 0.1163 | lr 4.0e-04 | norm 0.0225 | dt 0.044 type train | step 3040 | loss 0.1402 0.0922 0.1067 0.0955 0.1157 | lr 4.0e-04 | norm 0.0417 | dt 0.045 type train | step 3050 | loss 0.1402 0.0919 0.1065 0.0958 0.1160 | lr 4.0e-04 | norm 0.0276 | dt 0.203 type train | step 3060 | loss 0.1414 0.0928 0.1076 0.0965 0.1178 | lr 3.9e-04 | norm 0.0298 | dt 0.045 type train | step 3070 | loss 0.1402 0.0924 0.1072 0.0964 0.1171 | lr 3.9e-04 | norm 0.0242 | dt 0.045 type train | step 3080 | loss 0.1413 0.0925 0.1071 0.0960 0.1162 | lr 3.9e-04 | norm 0.0214 | dt 0.044 type train | step 3090 | loss 0.1395 0.0919 0.1066 0.0957 0.1159 | lr 3.9e-04 | norm 0.0229 | dt 0.045 type train | step 3100 | loss 0.1407 0.0926 0.1072 0.0960 0.1162 | lr 3.8e-04 | norm 0.0230 | dt 0.045 type train | step 3110 | loss 0.1397 0.0919 0.1067 0.0957 0.1160 | lr 3.8e-04 | norm 0.0263 | dt 0.044 type train | step 3120 | loss 0.1408 0.0924 0.1070 0.0964 0.1167 | lr 3.8e-04 | norm 0.0273 | dt 0.044 type train | step 3130 | loss 0.1413 0.0925 0.1069 0.0959 0.1167 | lr 3.8e-04 | norm 0.0184 | dt 0.045 type train | step 3140 | loss 0.1404 0.0921 0.1068 0.0959 0.1162 | lr 3.7e-04 | norm 0.0236 | dt 0.045 type train | step 3150 | loss 0.1403 0.0923 0.1070 0.0959 0.1161 | lr 3.7e-04 | norm 0.0313 | dt 0.044 type train | step 3160 | loss 0.1412 0.0925 0.1073 0.0965 0.1171 | lr 3.7e-04 | norm 0.0222 | dt 0.045 type train | step 3170 | loss 0.1413 0.0926 0.1074 0.0965 0.1173 | lr 3.7e-04 | norm 0.0330 | dt 0.045 type train | step 3180 | loss 0.1414 0.0927 0.1074 0.0964 0.1168 | lr 3.6e-04 | norm 0.0219 | dt 0.045 type train | step 3190 | loss 0.1408 0.0925 0.1071 0.0961 0.1164 | lr 3.6e-04 | norm 0.0185 | dt 0.045 type train | step 3200 | loss 0.1393 0.0917 0.1065 0.0956 0.1161 | lr 3.6e-04 | norm 0.0220 | dt 0.045 type train | step 3210 | loss 0.1405 0.0923 0.1068 0.0958 0.1162 | lr 3.6e-04 | norm 0.0249 | dt 0.045 type train | step 3220 | loss 0.1393 0.0917 0.1064 0.0954 0.1153 | lr 3.5e-04 | norm 0.0258 | dt 0.044 type train | step 3230 | loss 0.1396 0.0918 0.1064 0.0953 0.1154 | lr 3.5e-04 | norm 0.0197 | dt 0.044 type train | step 3240 | loss 0.1397 0.0920 0.1068 0.0962 0.1164 | lr 3.5e-04 | norm 0.0208 | dt 0.046 type train | step 3250 | loss 0.1406 0.0925 0.1070 0.0960 0.1165 | lr 3.5e-04 | norm 0.0179 | dt 0.046 type train | step 3260 | loss 0.1405 0.0922 0.1069 0.0958 0.1160 | lr 3.4e-04 | norm 0.0225 | dt 0.048 type train | step 3270 | loss 0.1398 0.0921 0.1069 0.0959 0.1162 | lr 3.4e-04 | norm 0.0253 | dt 0.048 type train | step 3280 | loss 0.1400 0.0920 0.1066 0.0956 0.1156 | lr 3.4e-04 | norm 0.0172 | dt 0.045 type train | step 3290 | loss 0.1401 0.0921 0.1066 0.0955 0.1160 | lr 3.4e-04 | norm 0.0200 | dt 0.045 type train | step 3300 | loss 0.1403 0.0923 0.1068 0.0959 0.1164 | lr 3.3e-04 | norm 0.0242 | dt 0.045 type train | step 3310 | loss 0.1433 0.0935 0.1078 0.0969 0.1173 | lr 3.3e-04 | norm 0.0336 | dt 0.044 type train | step 3320 | loss 0.1389 0.0915 0.1062 0.0956 0.1162 | lr 3.3e-04 | norm 0.0281 | dt 0.045 type train | step 3330 | loss 0.1404 0.0921 0.1070 0.0960 0.1166 | lr 3.3e-04 | norm 0.0185 | dt 0.045 type train | step 3340 | loss 0.1415 0.0927 0.1076 0.0967 0.1171 | lr 3.2e-04 | norm 0.0300 | dt 0.045 type train | step 3350 | loss 0.1405 0.0923 0.1070 0.0959 0.1161 | lr 3.2e-04 | norm 0.0261 | dt 0.044 type train | step 3360 | loss 0.1404 0.0923 0.1067 0.0959 0.1159 | lr 3.2e-04 | norm 0.0248 | dt 0.049 type train | step 3370 | loss 0.1407 0.0923 0.1069 0.0959 0.1160 | lr 3.2e-04 | norm 0.0333 | dt 0.047 type train | step 3380 | loss 0.1400 0.0922 0.1067 0.0958 0.1161 | lr 3.1e-04 | norm 0.0228 | dt 0.045 type train | step 3390 | loss 0.1409 0.0925 0.1071 0.0961 0.1165 | lr 3.1e-04 | norm 0.0210 | dt 0.045 type train | step 3400 | loss 0.1411 0.0926 0.1071 0.0964 0.1168 | lr 3.1e-04 | norm 0.0292 | dt 0.044 type train | step 3410 | loss 0.1393 0.0916 0.1064 0.0956 0.1153 | lr 3.1e-04 | norm 0.0226 | dt 0.045 type train | step 3420 | loss 0.1405 0.0923 0.1069 0.0958 0.1158 | lr 3.0e-04 | norm 0.0227 | dt 0.045 type train | step 3430 | loss 0.1392 0.0915 0.1063 0.0956 0.1151 | lr 3.0e-04 | norm 0.0176 | dt 0.045 type train | step 3440 | loss 0.1405 0.0924 0.1070 0.0962 0.1168 | lr 3.0e-04 | norm 0.0208 | dt 0.045 type train | step 3450 | loss 0.1398 0.0918 0.1066 0.0960 0.1158 | lr 3.0e-04 | norm 0.0198 | dt 0.044 type train | step 3460 | loss 0.1405 0.0924 0.1071 0.0962 0.1170 | lr 2.9e-04 | norm 0.0196 | dt 0.045 type train | step 3470 | loss 0.1399 0.0921 0.1066 0.0960 0.1159 | lr 2.9e-04 | norm 0.0186 | dt 0.045 type train | step 3480 | loss 0.1402 0.0919 0.1066 0.0959 0.1164 | lr 2.9e-04 | norm 0.0250 | dt 0.045 type train | step 3490 | loss 0.1408 0.0924 0.1074 0.0964 0.1167 | lr 2.9e-04 | norm 0.0187 | dt 0.047 type train | step 3500 | loss 0.1381 0.0914 0.1061 0.0954 0.1152 | lr 2.9e-04 | norm 0.0261 | dt 0.047 type train | step 3510 | loss 0.1391 0.0917 0.1064 0.0957 0.1160 | lr 2.8e-04 | norm 0.0233 | dt 0.045 type train | step 3520 | loss 0.1415 0.0928 0.1074 0.0965 0.1170 | lr 2.8e-04 | norm 0.0252 | dt 0.044 type train | step 3530 | loss 0.1404 0.0924 0.1073 0.0961 0.1165 | lr 2.8e-04 | norm 0.0248 | dt 0.044 type train | step 3540 | loss 0.1390 0.0917 0.1067 0.0959 0.1157 | lr 2.8e-04 | norm 0.0206 | dt 0.044 type train | step 3550 | loss 0.1393 0.0918 0.1066 0.0958 0.1156 | lr 2.7e-04 | norm 0.0223 | dt 0.045 type train | step 3560 | loss 0.1404 0.0923 0.1069 0.0958 0.1161 | lr 2.7e-04 | norm 0.0187 | dt 0.045 type train | step 3570 | loss 0.1403 0.0921 0.1069 0.0960 0.1163 | lr 2.7e-04 | norm 0.0218 | dt 0.045 type train | step 3580 | loss 0.1400 0.0921 0.1069 0.0962 0.1165 | lr 2.7e-04 | norm 0.0217 | dt 0.044 type train | step 3590 | loss 0.1399 0.0920 0.1070 0.0961 0.1164 | lr 2.7e-04 | norm 0.0221 | dt 0.044 type train | step 3600 | loss 0.1411 0.0926 0.1073 0.0965 0.1165 | lr 2.6e-04 | norm 0.0197 | dt 0.044 type train | step 3610 | loss 0.1416 0.0929 0.1071 0.0961 0.1168 | lr 2.6e-04 | norm 0.0261 | dt 0.044 type train | step 3620 | loss 0.1406 0.0923 0.1069 0.0960 0.1162 | lr 2.6e-04 | norm 0.0256 | dt 0.045 type train | step 3630 | loss 0.1390 0.0917 0.1065 0.0953 0.1152 | lr 2.6e-04 | norm 0.0242 | dt 0.044 type train | step 3640 | loss 0.1403 0.0922 0.1069 0.0958 0.1162 | lr 2.5e-04 | norm 0.0201 | dt 0.045 type train | step 3650 | loss 0.1399 0.0920 0.1065 0.0955 0.1157 | lr 2.5e-04 | norm 0.0394 | dt 0.045 type train | step 3660 | loss 0.1399 0.0917 0.1064 0.0957 0.1160 | lr 2.5e-04 | norm 0.0282 | dt 1.297 type train | step 3670 | loss 0.1411 0.0926 0.1075 0.0965 0.1177 | lr 2.5e-04 | norm 0.0308 | dt 0.045 type train | step 3680 | loss 0.1399 0.0922 0.1071 0.0963 0.1170 | lr 2.5e-04 | norm 0.0210 | dt 0.045 type train | step 3690 | loss 0.1409 0.0923 0.1070 0.0959 0.1161 | lr 2.4e-04 | norm 0.0199 | dt 0.045 type train | step 3700 | loss 0.1391 0.0917 0.1065 0.0957 0.1158 | lr 2.4e-04 | norm 0.0247 | dt 0.044 type train | step 3710 | loss 0.1404 0.0925 0.1071 0.0960 0.1162 | lr 2.4e-04 | norm 0.0242 | dt 0.045 type train | step 3720 | loss 0.1394 0.0917 0.1066 0.0956 0.1160 | lr 2.4e-04 | norm 0.0238 | dt 0.044 type train | step 3730 | loss 0.1405 0.0922 0.1069 0.0963 0.1167 | lr 2.4e-04 | norm 0.0226 | dt 0.045 type train | step 3740 | loss 0.1409 0.0923 0.1068 0.0958 0.1167 | lr 2.3e-04 | norm 0.0190 | dt 0.045 type train | step 3750 | loss 0.1400 0.0920 0.1067 0.0958 0.1161 | lr 2.3e-04 | norm 0.0244 | dt 0.044 type train | step 3760 | loss 0.1401 0.0921 0.1069 0.0959 0.1161 | lr 2.3e-04 | norm 0.0287 | dt 0.045 type train | step 3770 | loss 0.1408 0.0923 0.1072 0.0964 0.1170 | lr 2.3e-04 | norm 0.0217 | dt 0.046 type train | step 3780 | loss 0.1409 0.0925 0.1073 0.0964 0.1172 | lr 2.3e-04 | norm 0.0324 | dt 0.045 type train | step 3790 | loss 0.1411 0.0925 0.1073 0.0964 0.1168 | lr 2.2e-04 | norm 0.0206 | dt 0.044 type train | step 3800 | loss 0.1405 0.0923 0.1070 0.0960 0.1163 | lr 2.2e-04 | norm 0.0185 | dt 0.044 type train | step 3810 | loss 0.1390 0.0916 0.1063 0.0956 0.1160 | lr 2.2e-04 | norm 0.0249 | dt 0.044 type train | step 3820 | loss 0.1402 0.0921 0.1067 0.0958 0.1162 | lr 2.2e-04 | norm 0.0250 | dt 0.045 type train | step 3830 | loss 0.1390 0.0915 0.1063 0.0954 0.1153 | lr 2.2e-04 | norm 0.0265 | dt 0.044 type train | step 3840 | loss 0.1393 0.0916 0.1063 0.0953 0.1153 | lr 2.1e-04 | norm 0.0204 | dt 0.044 type train | step 3850 | loss 0.1394 0.0918 0.1067 0.0961 0.1164 | lr 2.1e-04 | norm 0.0205 | dt 0.045 type train | step 3860 | loss 0.1403 0.0923 0.1069 0.0959 0.1165 | lr 2.1e-04 | norm 0.0210 | dt 0.045 type train | step 3870 | loss 0.1402 0.0921 0.1068 0.0957 0.1160 | lr 2.1e-04 | norm 0.0193 | dt 0.047 type train | step 3880 | loss 0.1396 0.0919 0.1068 0.0958 0.1162 | lr 2.1e-04 | norm 0.0237 | dt 0.048 type train | step 3890 | loss 0.1397 0.0919 0.1065 0.0956 0.1155 | lr 2.1e-04 | norm 0.0190 | dt 0.048 type train | step 3900 | loss 0.1398 0.0920 0.1065 0.0954 0.1159 | lr 2.0e-04 | norm 0.0214 | dt 0.047 type train | step 3910 | loss 0.1400 0.0921 0.1067 0.0959 0.1163 | lr 2.0e-04 | norm 0.0245 | dt 0.047 type train | step 3920 | loss 0.1430 0.0934 0.1077 0.0968 0.1173 | lr 2.0e-04 | norm 0.0341 | dt 0.048 type train | step 3930 | loss 0.1386 0.0914 0.1061 0.0955 0.1161 | lr 2.0e-04 | norm 0.0252 | dt 0.046 type train | step 3940 | loss 0.1402 0.0920 0.1069 0.0960 0.1166 | lr 2.0e-04 | norm 0.0187 | dt 0.045 type train | step 3950 | loss 0.1413 0.0926 0.1075 0.0966 0.1171 | lr 1.9e-04 | norm 0.0310 | dt 0.045 type train | step 3960 | loss 0.1402 0.0922 0.1069 0.0958 0.1161 | lr 1.9e-04 | norm 0.0242 | dt 0.045 type train | step 3970 | loss 0.1401 0.0922 0.1066 0.0958 0.1158 | lr 1.9e-04 | norm 0.0221 | dt 0.047 type train | step 3980 | loss 0.1405 0.0922 0.1068 0.0958 0.1159 | lr 1.9e-04 | norm 0.0287 | dt 0.045 type train | step 3990 | loss 0.1397 0.0921 0.1067 0.0958 0.1161 | lr 1.9e-04 | norm 0.0218 | dt 0.045 type train | step 4000 | loss 0.1406 0.0924 0.1070 0.0960 0.1165 | lr 1.9e-04 | norm 0.0198 | dt 0.044 type train | step 4010 | loss 0.1409 0.0924 0.1070 0.0963 0.1167 | lr 1.8e-04 | norm 0.0259 | dt 0.044 type train | step 4020 | loss 0.1391 0.0915 0.1063 0.0955 0.1153 | lr 1.8e-04 | norm 0.0211 | dt 0.044 type train | step 4030 | loss 0.1403 0.0921 0.1068 0.0957 0.1157 | lr 1.8e-04 | norm 0.0207 | dt 0.045 type train | step 4040 | loss 0.1390 0.0913 0.1062 0.0956 0.1151 | lr 1.8e-04 | norm 0.0193 | dt 0.045 type train | step 4050 | loss 0.1403 0.0923 0.1069 0.0961 0.1167 | lr 1.8e-04 | norm 0.0186 | dt 0.045 type train | step 4060 | loss 0.1396 0.0917 0.1065 0.0959 0.1157 | lr 1.8e-04 | norm 0.0194 | dt 0.044 type train | step 4070 | loss 0.1403 0.0923 0.1070 0.0961 0.1169 | lr 1.7e-04 | norm 0.0193 | dt 0.044 type train | step 4080 | loss 0.1397 0.0919 0.1066 0.0959 0.1158 | lr 1.7e-04 | norm 0.0177 | dt 0.044 type train | step 4090 | loss 0.1399 0.0918 0.1065 0.0958 0.1164 | lr 1.7e-04 | norm 0.0272 | dt 0.045 type train | step 4100 | loss 0.1406 0.0923 0.1073 0.0963 0.1167 | lr 1.7e-04 | norm 0.0171 | dt 0.045 type train | step 4110 | loss 0.1379 0.0913 0.1060 0.0954 0.1152 | lr 1.7e-04 | norm 0.0224 | dt 0.044 type train | step 4120 | loss 0.1389 0.0916 0.1064 0.0957 0.1160 | lr 1.7e-04 | norm 0.0186 | dt 0.045 type train | step 4130 | loss 0.1413 0.0927 0.1073 0.0964 0.1169 | lr 1.7e-04 | norm 0.0230 | dt 0.044 type train | step 4140 | loss 0.1402 0.0922 0.1072 0.0960 0.1165 | lr 1.6e-04 | norm 0.0232 | dt 0.048 type train | step 4150 | loss 0.1388 0.0916 0.1066 0.0959 0.1157 | lr 1.6e-04 | norm 0.0206 | dt 0.045 type train | step 4160 | loss 0.1391 0.0917 0.1065 0.0957 0.1156 | lr 1.6e-04 | norm 0.0226 | dt 0.045 type train | step 4170 | loss 0.1402 0.0922 0.1069 0.0957 0.1161 | lr 1.6e-04 | norm 0.0170 | dt 0.045 type train | step 4180 | loss 0.1401 0.0920 0.1068 0.0959 0.1163 | lr 1.6e-04 | norm 0.0217 | dt 0.045 type train | step 4190 | loss 0.1398 0.0920 0.1068 0.0961 0.1164 | lr 1.6e-04 | norm 0.0205 | dt 0.046 type train | step 4200 | loss 0.1396 0.0919 0.1069 0.0960 0.1163 | lr 1.6e-04 | norm 0.0191 | dt 0.045 type train | step 4210 | loss 0.1409 0.0925 0.1072 0.0964 0.1165 | lr 1.5e-04 | norm 0.0173 | dt 0.046 type train | step 4220 | loss 0.1414 0.0927 0.1071 0.0961 0.1167 | lr 1.5e-04 | norm 0.0229 | dt 0.045 type train | step 4230 | loss 0.1404 0.0922 0.1069 0.0959 0.1161 | lr 1.5e-04 | norm 0.0231 | dt 0.044 type train | step 4240 | loss 0.1388 0.0916 0.1064 0.0953 0.1152 | lr 1.5e-04 | norm 0.0230 | dt 0.045 type train | step 4250 | loss 0.1401 0.0921 0.1068 0.0957 0.1162 | lr 1.5e-04 | norm 0.0214 | dt 0.045 type train | step 4260 | loss 0.1397 0.0919 0.1065 0.0954 0.1156 | lr 1.5e-04 | norm 0.0394 | dt 0.044 type train | step 4270 | loss 0.1397 0.0916 0.1063 0.0957 0.1159 | lr 1.5e-04 | norm 0.0278 | dt 0.663 type train | step 4280 | loss 0.1409 0.0925 0.1074 0.0964 0.1176 | lr 1.5e-04 | norm 0.0262 | dt 0.044 type train | step 4290 | loss 0.1397 0.0921 0.1070 0.0963 0.1170 | lr 1.4e-04 | norm 0.0174 | dt 0.044 type train | step 4300 | loss 0.1407 0.0922 0.1069 0.0959 0.1161 | lr 1.4e-04 | norm 0.0194 | dt 0.044 type train | step 4310 | loss 0.1390 0.0916 0.1064 0.0956 0.1157 | lr 1.4e-04 | norm 0.0262 | dt 0.044 type train | step 4320 | loss 0.1402 0.0924 0.1070 0.0959 0.1161 | lr 1.4e-04 | norm 0.0211 | dt 0.045 type train | step 4330 | loss 0.1392 0.0916 0.1065 0.0955 0.1159 | lr 1.4e-04 | norm 0.0228 | dt 0.044 type train | step 4340 | loss 0.1403 0.0921 0.1069 0.0963 0.1166 | lr 1.4e-04 | norm 0.0232 | dt 0.044 type train | step 4350 | loss 0.1407 0.0922 0.1068 0.0958 0.1166 | lr 1.4e-04 | norm 0.0168 | dt 0.044 type train | step 4360 | loss 0.1398 0.0919 0.1066 0.0958 0.1161 | lr 1.4e-04 | norm 0.0220 | dt 0.046 type train | step 4370 | loss 0.1399 0.0920 0.1068 0.0958 0.1160 | lr 1.3e-04 | norm 0.0265 | dt 0.045 type train | step 4380 | loss 0.1406 0.0922 0.1071 0.0964 0.1170 | lr 1.3e-04 | norm 0.0182 | dt 0.045 type train | step 4390 | loss 0.1408 0.0924 0.1072 0.0964 0.1172 | lr 1.3e-04 | norm 0.0296 | dt 0.045 type train | step 4400 | loss 0.1410 0.0924 0.1072 0.0964 0.1167 | lr 1.3e-04 | norm 0.0184 | dt 0.045 type train | step 4410 | loss 0.1404 0.0922 0.1069 0.0960 0.1163 | lr 1.3e-04 | norm 0.0169 | dt 0.045 type train | step 4420 | loss 0.1388 0.0915 0.1063 0.0955 0.1160 | lr 1.3e-04 | norm 0.0262 | dt 0.044 type train | step 4430 | loss 0.1400 0.0920 0.1066 0.0957 0.1161 | lr 1.3e-04 | norm 0.0262 | dt 0.044 type train | step 4440 | loss 0.1389 0.0914 0.1062 0.0953 0.1153 | lr 1.3e-04 | norm 0.0233 | dt 0.045 type train | step 4450 | loss 0.1391 0.0915 0.1063 0.0952 0.1153 | lr 1.3e-04 | norm 0.0199 | dt 0.045 type train | step 4460 | loss 0.1392 0.0917 0.1066 0.0961 0.1164 | lr 1.3e-04 | norm 0.0198 | dt 0.044 type train | step 4470 | loss 0.1401 0.0922 0.1069 0.0959 0.1165 | lr 1.2e-04 | norm 0.0217 | dt 0.045 type train | step 4480 | loss 0.1400 0.0920 0.1067 0.0957 0.1159 | lr 1.2e-04 | norm 0.0176 | dt 0.045 type train | step 4490 | loss 0.1394 0.0918 0.1068 0.0958 0.1162 | lr 1.2e-04 | norm 0.0221 | dt 0.046 type train | step 4500 | loss 0.1396 0.0918 0.1065 0.0955 0.1155 | lr 1.2e-04 | norm 0.0170 | dt 0.044 type train | step 4510 | loss 0.1396 0.0919 0.1065 0.0954 0.1159 | lr 1.2e-04 | norm 0.0208 | dt 0.044 type train | step 4520 | loss 0.1399 0.0920 0.1067 0.0958 0.1163 | lr 1.2e-04 | norm 0.0217 | dt 0.044 type train | step 4530 | loss 0.1428 0.0933 0.1077 0.0968 0.1172 | lr 1.2e-04 | norm 0.0329 | dt 0.045 type train | step 4540 | loss 0.1385 0.0913 0.1061 0.0955 0.1161 | lr 1.2e-04 | norm 0.0250 | dt 0.044 type train | step 4550 | loss 0.1400 0.0919 0.1068 0.0959 0.1166 | lr 1.2e-04 | norm 0.0168 | dt 0.044 type train | step 4560 | loss 0.1411 0.0925 0.1074 0.0966 0.1170 | lr 1.2e-04 | norm 0.0248 | dt 0.044 type train | step 4570 | loss 0.1401 0.0921 0.1068 0.0958 0.1161 | lr 1.2e-04 | norm 0.0244 | dt 0.044 type train | step 4580 | loss 0.1400 0.0921 0.1066 0.0958 0.1158 | lr 1.2e-04 | norm 0.0199 | dt 0.044 type train | step 4590 | loss 0.1403 0.0921 0.1067 0.0958 0.1159 | lr 1.1e-04 | norm 0.0278 | dt 0.045 type train | step 4600 | loss 0.1396 0.0920 0.1066 0.0958 0.1160 | lr 1.1e-04 | norm 0.0223 | dt 0.044 type train | step 4610 | loss 0.1405 0.0923 0.1069 0.0960 0.1165 | lr 1.1e-04 | norm 0.0177 | dt 0.044 type train | step 4620 | loss 0.1407 0.0924 0.1069 0.0963 0.1167 | lr 1.1e-04 | norm 0.0257 | dt 0.044 type train | step 4630 | loss 0.1389 0.0914 0.1062 0.0955 0.1152 | lr 1.1e-04 | norm 0.0208 | dt 0.045 type train | step 4640 | loss 0.1401 0.0921 0.1067 0.0957 0.1157 | lr 1.1e-04 | norm 0.0200 | dt 0.045 type train | step 4650 | loss 0.1389 0.0913 0.1062 0.0955 0.1151 | lr 1.1e-04 | norm 0.0175 | dt 0.045 type train | step 4660 | loss 0.1401 0.0922 0.1069 0.0961 0.1167 | lr 1.1e-04 | norm 0.0178 | dt 0.045 type train | step 4670 | loss 0.1395 0.0916 0.1065 0.0959 0.1157 | lr 1.1e-04 | norm 0.0180 | dt 0.044 type train | step 4680 | loss 0.1402 0.0922 0.1070 0.0961 0.1169 | lr 1.1e-04 | norm 0.0184 | dt 0.045 type train | step 4690 | loss 0.1395 0.0919 0.1065 0.0959 0.1158 | lr 1.1e-04 | norm 0.0185 | dt 0.045 type train | step 4700 | loss 0.1398 0.0917 0.1065 0.0958 0.1163 | lr 1.1e-04 | norm 0.0241 | dt 0.045 type train | step 4710 | loss 0.1405 0.0922 0.1072 0.0963 0.1167 | lr 1.1e-04 | norm 0.0179 | dt 0.047 type train | step 4720 | loss 0.1378 0.0912 0.1060 0.0954 0.1152 | lr 1.1e-04 | norm 0.0229 | dt 0.046 type train | step 4730 | loss 0.1387 0.0915 0.1063 0.0957 0.1160 | lr 1.1e-04 | norm 0.0189 | dt 0.046 type train | step 4740 | loss 0.1411 0.0926 0.1073 0.0964 0.1169 | lr 1.1e-04 | norm 0.0219 | dt 0.045 type train | step 4750 | loss 0.1401 0.0922 0.1071 0.0960 0.1165 | lr 1.1e-04 | norm 0.0230 | dt 0.044 type train | step 4760 | loss 0.1386 0.0915 0.1065 0.0959 0.1156 | lr 1.1e-04 | norm 0.0203 | dt 0.044 type train | step 4770 | loss 0.1389 0.0917 0.1065 0.0957 0.1156 | lr 1.0e-04 | norm 0.0227 | dt 0.044 type train | step 4780 | loss 0.1401 0.0921 0.1068 0.0957 0.1160 | lr 1.0e-04 | norm 0.0160 | dt 0.045 type train | step 4790 | loss 0.1400 0.0919 0.1068 0.0959 0.1163 | lr 1.0e-04 | norm 0.0197 | dt 0.045 type train | step 4800 | loss 0.1397 0.0919 0.1068 0.0961 0.1164 | lr 1.0e-04 | norm 0.0200 | dt 0.044 type train | step 4810 | loss 0.1396 0.0919 0.1069 0.0960 0.1163 | lr 1.0e-04 | norm 0.0190 | dt 0.044 type train | step 4820 | loss 0.1408 0.0924 0.1072 0.0964 0.1164 | lr 1.0e-04 | norm 0.0159 | dt 0.045 type train | step 4830 | loss 0.1413 0.0927 0.1070 0.0960 0.1167 | lr 1.0e-04 | norm 0.0241 | dt 0.045 type train | step 4840 | loss 0.1403 0.0921 0.1068 0.0959 0.1161 | lr 1.0e-04 | norm 0.0231 | dt 0.044 type train | step 4850 | loss 0.1387 0.0915 0.1064 0.0952 0.1151 | lr 1.0e-04 | norm 0.0238 | dt 0.044 type train | step 4860 | loss 0.1400 0.0921 0.1068 0.0957 0.1162 | lr 1.0e-04 | norm 0.0192 | dt 0.045 type train | step 4870 | loss 0.1396 0.0918 0.1064 0.0954 0.1156 | lr 1.0e-04 | norm 0.0378 | dt 0.045 type train | step 4880 | loss 0.1396 0.0915 0.1063 0.0957 0.1159 | lr 1.0e-04 | norm 0.0277 | dt 0.121 type train | step 4890 | loss 0.1408 0.0924 0.1073 0.0964 0.1176 | lr 1.0e-04 | norm 0.0270 | dt 0.044 type train | step 4900 | loss 0.1396 0.0921 0.1069 0.0963 0.1170 | lr 1.0e-04 | norm 0.0161 | dt 0.044 type train | step 4910 | loss 0.1406 0.0922 0.1068 0.0959 0.1161 | lr 1.0e-04 | norm 0.0204 | dt 0.044 type train | step 4920 | loss 0.1389 0.0916 0.1064 0.0956 0.1157 | lr 1.0e-04 | norm 0.0232 | dt 0.044 type train | step 4930 | loss 0.1401 0.0923 0.1070 0.0959 0.1161 | lr 1.0e-04 | norm 0.0201 | dt 0.045 type train | step 4940 | loss 0.1391 0.0915 0.1064 0.0955 0.1159 | lr 1.0e-04 | norm 0.0227 | dt 0.045 type train | step 4950 | loss 0.1403 0.0920 0.1068 0.0963 0.1166 | lr 1.0e-04 | norm 0.0224 | dt 0.044 type train | step 4960 | loss 0.1406 0.0922 0.1067 0.0957 0.1166 | lr 1.0e-04 | norm 0.0166 | dt 0.044 type train | step 4970 | loss 0.1398 0.0918 0.1066 0.0957 0.1161 | lr 1.0e-04 | norm 0.0217 | dt 0.044 type train | step 4980 | loss 0.1398 0.0920 0.1068 0.0958 0.1160 | lr 1.0e-04 | norm 0.0260 | dt 0.044 type train | step 4990 | loss 0.1406 0.0922 0.1071 0.0964 0.1170 | lr 1.0e-04 | norm 0.0179 | dt 0.045 type train | step 5000 | loss 0.1407 0.0923 0.1072 0.0963 0.1172 | lr 1.0e-04 | norm 0.0288 | dt 0.045 type train | step 10 | loss 183.8456 107.5227 71.7251 46.9541 46.7769 | lr 1.0e-03 | norm 313.4257 | dt 0.043 type train | step 20 | loss 128.0049 68.3687 42.7855 28.5920 30.8191 | lr 1.0e-03 | norm 166.1815 | dt 0.042 type train | step 30 | loss 89.7446 42.7137 25.2788 17.0976 18.7992 | lr 1.0e-03 | norm 107.8366 | dt 0.043 type train | step 40 | loss 60.0515 25.3840 14.2872 9.6760 10.6377 | lr 1.0e-03 | norm 79.4220 | dt 0.042 type train | step 50 | loss 39.5663 14.3275 7.6041 5.1121 5.5527 | lr 1.0e-03 | norm 61.3971 | dt 0.043 type train | step 60 | loss 24.1905 7.5095 3.8682 2.5789 2.7282 | lr 1.0e-03 | norm 45.4865 | dt 0.043 type train | step 70 | loss 14.6944 3.8498 1.9555 1.3127 1.3668 | lr 1.0e-03 | norm 32.8605 | dt 0.043 type train | step 80 | loss 8.2269 1.9968 1.0695 0.7314 0.7559 | lr 1.0e-03 | norm 21.5168 | dt 0.042 type train | step 90 | loss 4.3088 1.1583 0.7010 0.5032 0.5211 | lr 1.0e-03 | norm 12.3951 | dt 0.042 type train | step 100 | loss 2.3466 0.8224 0.5590 0.4168 0.4402 | lr 1.0e-03 | norm 6.5034 | dt 0.043 type train | step 110 | loss 1.4031 0.7211 0.4993 0.3731 0.3999 | lr 1.0e-03 | norm 2.7796 | dt 0.043 type train | step 120 | loss 0.9851 0.6523 0.4426 0.3254 0.3576 | lr 1.0e-03 | norm 1.1998 | dt 0.043 type train | step 130 | loss 0.8143 0.5892 0.3930 0.2868 0.3173 | lr 1.0e-03 | norm 0.7874 | dt 0.042 type train | step 140 | loss 0.7276 0.5329 0.3506 0.2523 0.2848 | lr 1.0e-03 | norm 0.6789 | dt 0.043 type train | step 150 | loss 0.6686 0.4910 0.3177 0.2294 0.2649 | lr 1.0e-03 | norm 0.5641 | dt 0.043 type train | step 160 | loss 0.6198 0.4611 0.2944 0.2135 0.2472 | lr 1.0e-03 | norm 0.4302 | dt 0.043 type train | step 170 | loss 0.5819 0.4351 0.2753 0.1999 0.2332 | lr 1.0e-03 | norm 0.3736 | dt 0.043 type train | step 180 | loss 0.5478 0.4137 0.2607 0.1899 0.2242 | lr 1.0e-03 | norm 0.3226 | dt 0.043 type train | step 190 | loss 0.5181 0.3966 0.2487 0.1827 0.2165 | lr 1.0e-03 | norm 0.2627 | dt 0.043 type train | step 200 | loss 0.4954 0.3817 0.2399 0.1773 0.2109 | lr 1.0e-03 | norm 0.2203 | dt 0.043 type train | step 210 | loss 0.4718 0.3658 0.2319 0.1724 0.2043 | lr 1.0e-03 | norm 0.1982 | dt 0.043 type train | step 220 | loss 0.4508 0.3555 0.2280 0.1705 0.2004 | lr 1.0e-03 | norm 0.1532 | dt 0.043 type train | step 230 | loss 0.4303 0.3452 0.2227 0.1675 0.1948 | lr 1.0e-03 | norm 0.1346 | dt 0.043 type train | step 240 | loss 0.4124 0.3361 0.2196 0.1662 0.1926 | lr 9.9e-04 | norm 0.1168 | dt 0.043 type train | step 250 | loss 0.3955 0.3283 0.2173 0.1660 0.1915 | lr 9.9e-04 | norm 0.1026 | dt 0.043 type train | step 260 | loss 0.3840 0.3233 0.2170 0.1671 0.1915 | lr 9.9e-04 | norm 0.0886 | dt 0.043 type train | step 270 | loss 0.3649 0.3143 0.2141 0.1654 0.1885 | lr 9.9e-04 | norm 0.0775 | dt 0.043 type train | step 280 | loss 0.3541 0.3092 0.2134 0.1652 0.1877 | lr 9.9e-04 | norm 0.0653 | dt 0.043 type train | step 290 | loss 0.3434 0.3045 0.2129 0.1658 0.1870 | lr 9.9e-04 | norm 0.0589 | dt 0.043 type train | step 300 | loss 0.3335 0.3003 0.2113 0.1643 0.1842 | lr 9.9e-04 | norm 0.0532 | dt 0.043 type train | step 310 | loss 0.3234 0.2945 0.2092 0.1638 0.1822 | lr 9.9e-04 | norm 0.0468 | dt 0.043 type train | step 320 | loss 0.3166 0.2905 0.2089 0.1636 0.1816 | lr 9.9e-04 | norm 0.0603 | dt 0.044 type train | step 330 | loss 0.3064 0.2864 0.2075 0.1632 0.1810 | lr 9.9e-04 | norm 0.0384 | dt 0.044 type train | step 340 | loss 0.3018 0.2830 0.2064 0.1626 0.1802 | lr 9.9e-04 | norm 0.0333 | dt 0.044 type train | step 350 | loss 0.2963 0.2802 0.2058 0.1628 0.1802 | lr 9.9e-04 | norm 0.0417 | dt 0.044 type train | step 360 | loss 0.2880 0.2753 0.2040 0.1611 0.1764 | lr 9.9e-04 | norm 0.0299 | dt 0.044 type train | step 370 | loss 0.2852 0.2737 0.2038 0.1613 0.1765 | lr 9.9e-04 | norm 0.0303 | dt 0.044 type train | step 380 | loss 0.2786 0.2697 0.2020 0.1605 0.1750 | lr 9.9e-04 | norm 0.0279 | dt 0.044 type train | step 390 | loss 0.2766 0.2687 0.2018 0.1606 0.1765 | lr 9.9e-04 | norm 0.0334 | dt 0.044 type train | step 400 | loss 0.2721 0.2657 0.2006 0.1601 0.1744 | lr 9.9e-04 | norm 0.0283 | dt 0.045 type train | step 410 | loss 0.2696 0.2647 0.2010 0.1603 0.1753 | lr 9.9e-04 | norm 0.0266 | dt 0.044 type train | step 420 | loss 0.2653 0.2622 0.1992 0.1594 0.1734 | lr 9.8e-04 | norm 0.0265 | dt 0.044 type train | step 430 | loss 0.2623 0.2601 0.1986 0.1590 0.1739 | lr 9.8e-04 | norm 0.0343 | dt 0.044 type train | step 440 | loss 0.2610 0.2593 0.1990 0.1597 0.1737 | lr 9.8e-04 | norm 0.0264 | dt 0.045 type train | step 450 | loss 0.2550 0.2565 0.1971 0.1580 0.1715 | lr 9.8e-04 | norm 0.0334 | dt 0.044 type train | step 460 | loss 0.2538 0.2553 0.1969 0.1581 0.1717 | lr 9.8e-04 | norm 0.0307 | dt 0.044 type train | step 470 | loss 0.2546 0.2550 0.1969 0.1584 0.1726 | lr 9.8e-04 | norm 0.0275 | dt 0.044 type train | step 480 | loss 0.2515 0.2538 0.1966 0.1581 0.1719 | lr 9.8e-04 | norm 0.0318 | dt 0.044 type train | step 490 | loss 0.2481 0.2521 0.1961 0.1585 0.1708 | lr 9.8e-04 | norm 0.0266 | dt 0.044 type train | step 500 | loss 0.2461 0.2511 0.1953 0.1575 0.1702 | lr 9.8e-04 | norm 0.0312 | dt 0.046 type train | step 510 | loss 0.2461 0.2505 0.1953 0.1574 0.1703 | lr 9.8e-04 | norm 0.0226 | dt 0.044 type train | step 520 | loss 0.2442 0.2493 0.1946 0.1570 0.1703 | lr 9.8e-04 | norm 0.0313 | dt 0.044 type train | step 530 | loss 0.2428 0.2482 0.1941 0.1572 0.1703 | lr 9.8e-04 | norm 0.0268 | dt 0.044 type train | step 540 | loss 0.2422 0.2482 0.1946 0.1572 0.1701 | lr 9.7e-04 | norm 0.0230 | dt 0.044 type train | step 550 | loss 0.2420 0.2479 0.1945 0.1575 0.1699 | lr 9.7e-04 | norm 0.0216 | dt 0.044 type train | step 560 | loss 0.2422 0.2478 0.1940 0.1565 0.1698 | lr 9.7e-04 | norm 0.0295 | dt 0.044 type train | step 570 | loss 0.2389 0.2461 0.1932 0.1565 0.1693 | lr 9.7e-04 | norm 0.0296 | dt 0.044 type train | step 580 | loss 0.2361 0.2452 0.1932 0.1559 0.1681 | lr 9.7e-04 | norm 0.0275 | dt 0.044 type train | step 590 | loss 0.2375 0.2453 0.1930 0.1563 0.1692 | lr 9.7e-04 | norm 0.0287 | dt 0.044 type train | step 600 | loss 0.2355 0.2441 0.1925 0.1557 0.1678 | lr 9.7e-04 | norm 0.0599 | dt 0.044 type train | step 610 | loss 0.2340 0.2438 0.1924 0.1559 0.1685 | lr 9.7e-04 | norm 0.0256 | dt 0.148 type train | step 620 | loss 0.2357 0.2446 0.1932 0.1571 0.1705 | lr 9.7e-04 | norm 0.0438 | dt 0.044 type train | step 630 | loss 0.2335 0.2436 0.1929 0.1570 0.1700 | lr 9.7e-04 | norm 0.0249 | dt 0.045 type train | step 640 | loss 0.2340 0.2428 0.1920 0.1558 0.1682 | lr 9.6e-04 | norm 0.0232 | dt 0.045 type train | step 650 | loss 0.2312 0.2423 0.1919 0.1558 0.1679 | lr 9.6e-04 | norm 0.0282 | dt 0.045 type train | step 660 | loss 0.2324 0.2428 0.1924 0.1559 0.1682 | lr 9.6e-04 | norm 0.0247 | dt 0.044 type train | step 670 | loss 0.2299 0.2413 0.1916 0.1552 0.1677 | lr 9.6e-04 | norm 0.0318 | dt 0.044 type train | step 680 | loss 0.2316 0.2418 0.1917 0.1561 0.1688 | lr 9.6e-04 | norm 0.0293 | dt 0.044 type train | step 690 | loss 0.2312 0.2415 0.1914 0.1554 0.1685 | lr 9.6e-04 | norm 0.0252 | dt 0.044 type train | step 700 | loss 0.2290 0.2410 0.1913 0.1555 0.1677 | lr 9.6e-04 | norm 0.0336 | dt 0.044 type train | step 710 | loss 0.2291 0.2406 0.1913 0.1555 0.1674 | lr 9.6e-04 | norm 0.0385 | dt 0.044 type train | step 720 | loss 0.2294 0.2408 0.1915 0.1561 0.1688 | lr 9.5e-04 | norm 0.0334 | dt 0.045 type train | step 730 | loss 0.2293 0.2410 0.1919 0.1562 0.1693 | lr 9.5e-04 | norm 0.0405 | dt 0.044 type train | step 740 | loss 0.2290 0.2406 0.1917 0.1559 0.1684 | lr 9.5e-04 | norm 0.0284 | dt 0.044 type train | step 750 | loss 0.2278 0.2401 0.1912 0.1554 0.1675 | lr 9.5e-04 | norm 0.0203 | dt 0.044 type train | step 760 | loss 0.2256 0.2390 0.1906 0.1552 0.1672 | lr 9.5e-04 | norm 0.0208 | dt 0.047 type train | step 770 | loss 0.2267 0.2393 0.1907 0.1549 0.1675 | lr 9.5e-04 | norm 0.0315 | dt 0.047 type train | step 780 | loss 0.2247 0.2383 0.1907 0.1548 0.1660 | lr 9.5e-04 | norm 0.0346 | dt 0.045 type train | step 790 | loss 0.2247 0.2388 0.1905 0.1546 0.1660 | lr 9.5e-04 | norm 0.0239 | dt 0.044 type train | step 800 | loss 0.2243 0.2385 0.1908 0.1557 0.1675 | lr 9.4e-04 | norm 0.0266 | dt 0.045 type train | step 810 | loss 0.2258 0.2391 0.1907 0.1552 0.1675 | lr 9.4e-04 | norm 0.0195 | dt 0.044 type train | step 820 | loss 0.2251 0.2383 0.1905 0.1550 0.1667 | lr 9.4e-04 | norm 0.0240 | dt 0.045 type train | step 830 | loss 0.2244 0.2383 0.1911 0.1554 0.1671 | lr 9.4e-04 | norm 0.0306 | dt 0.045 type train | step 840 | loss 0.2240 0.2378 0.1902 0.1546 0.1658 | lr 9.4e-04 | norm 0.0247 | dt 0.044 type train | step 850 | loss 0.2238 0.2377 0.1901 0.1543 0.1662 | lr 9.4e-04 | norm 0.0271 | dt 0.044 type train | step 860 | loss 0.2242 0.2379 0.1902 0.1547 0.1669 | lr 9.4e-04 | norm 0.0275 | dt 0.045 type train | step 870 | loss 0.2273 0.2391 0.1911 0.1559 0.1681 | lr 9.3e-04 | norm 0.0472 | dt 0.044 type train | step 880 | loss 0.2215 0.2368 0.1898 0.1547 0.1668 | lr 9.3e-04 | norm 0.0291 | dt 0.045 type train | step 890 | loss 0.2233 0.2374 0.1904 0.1551 0.1675 | lr 9.3e-04 | norm 0.0294 | dt 0.045 type train | step 900 | loss 0.2247 0.2379 0.1909 0.1559 0.1679 | lr 9.3e-04 | norm 0.0304 | dt 0.048 type train | step 910 | loss 0.2233 0.2375 0.1904 0.1548 0.1665 | lr 9.3e-04 | norm 0.0321 | dt 0.045 type train | step 920 | loss 0.2225 0.2369 0.1897 0.1548 0.1660 | lr 9.3e-04 | norm 0.0306 | dt 0.045 type train | step 930 | loss 0.2230 0.2369 0.1903 0.1549 0.1662 | lr 9.3e-04 | norm 0.0479 | dt 0.045 type train | step 940 | loss 0.2216 0.2366 0.1900 0.1550 0.1666 | lr 9.2e-04 | norm 0.0305 | dt 0.045 type train | step 950 | loss 0.2228 0.2367 0.1900 0.1549 0.1668 | lr 9.2e-04 | norm 0.0264 | dt 0.045 type train | step 960 | loss 0.2229 0.2370 0.1903 0.1555 0.1676 | lr 9.2e-04 | norm 0.0372 | dt 0.045 type train | step 970 | loss 0.2204 0.2355 0.1894 0.1543 0.1651 | lr 9.2e-04 | norm 0.0245 | dt 0.045 type train | step 980 | loss 0.2222 0.2366 0.1901 0.1548 0.1656 | lr 9.2e-04 | norm 0.0282 | dt 0.045 type train | step 990 | loss 0.2200 0.2351 0.1893 0.1545 0.1650 | lr 9.2e-04 | norm 0.0259 | dt 0.045 type train | step 1000 | loss 0.2219 0.2363 0.1900 0.1549 0.1670 | lr 9.1e-04 | norm 0.0308 | dt 0.045 type train | step 1010 | loss 0.2203 0.2355 0.1894 0.1548 0.1658 | lr 9.1e-04 | norm 0.0264 | dt 0.044 type train | step 1020 | loss 0.2213 0.2363 0.1904 0.1553 0.1672 | lr 9.1e-04 | norm 0.0238 | dt 0.045 type train | step 1030 | loss 0.2206 0.2358 0.1895 0.1547 0.1658 | lr 9.1e-04 | norm 0.0252 | dt 0.045 type train | step 1040 | loss 0.2205 0.2356 0.1895 0.1546 0.1667 | lr 9.1e-04 | norm 0.0326 | dt 0.045 type train | step 1050 | loss 0.2211 0.2362 0.1904 0.1554 0.1669 | lr 9.1e-04 | norm 0.0243 | dt 0.044 type train | step 1060 | loss 0.2176 0.2348 0.1891 0.1541 0.1651 | lr 9.0e-04 | norm 0.0322 | dt 0.045 type train | step 1070 | loss 0.2185 0.2349 0.1894 0.1545 0.1659 | lr 9.0e-04 | norm 0.0315 | dt 0.045 type train | step 1080 | loss 0.2215 0.2360 0.1899 0.1550 0.1669 | lr 9.0e-04 | norm 0.0306 | dt 0.045 type train | step 1090 | loss 0.2202 0.2358 0.1900 0.1549 0.1665 | lr 9.0e-04 | norm 0.0305 | dt 0.045 type train | step 1100 | loss 0.2184 0.2351 0.1898 0.1553 0.1657 | lr 9.0e-04 | norm 0.0268 | dt 0.046 type train | step 1110 | loss 0.2184 0.2349 0.1894 0.1546 0.1654 | lr 8.9e-04 | norm 0.0301 | dt 0.045 type train | step 1120 | loss 0.2201 0.2352 0.1897 0.1546 0.1658 | lr 8.9e-04 | norm 0.0236 | dt 0.045 type train | step 1130 | loss 0.2193 0.2349 0.1894 0.1545 0.1660 | lr 8.9e-04 | norm 0.0314 | dt 0.045 type train | step 1140 | loss 0.2190 0.2349 0.1892 0.1547 0.1663 | lr 8.9e-04 | norm 0.0289 | dt 0.045 type train | step 1150 | loss 0.2191 0.2352 0.1898 0.1549 0.1661 | lr 8.9e-04 | norm 0.0229 | dt 0.045 type train | step 1160 | loss 0.2205 0.2355 0.1900 0.1552 0.1662 | lr 8.9e-04 | norm 0.0215 | dt 0.045 type train | step 1170 | loss 0.2211 0.2358 0.1897 0.1545 0.1664 | lr 8.8e-04 | norm 0.0282 | dt 0.044 type train | step 1180 | loss 0.2193 0.2347 0.1892 0.1546 0.1659 | lr 8.8e-04 | norm 0.0314 | dt 0.044 type train | step 1190 | loss 0.2172 0.2342 0.1893 0.1541 0.1648 | lr 8.8e-04 | norm 0.0283 | dt 0.045 type train | step 1200 | loss 0.2194 0.2349 0.1894 0.1544 0.1660 | lr 8.8e-04 | norm 0.0288 | dt 0.045 type train | step 1210 | loss 0.2184 0.2341 0.1891 0.1541 0.1649 | lr 8.8e-04 | norm 0.0600 | dt 0.045 type train | step 1220 | loss 0.2177 0.2344 0.1891 0.1543 0.1656 | lr 8.7e-04 | norm 0.0262 | dt 0.115 type train | step 1230 | loss 0.2198 0.2351 0.1900 0.1555 0.1677 | lr 8.7e-04 | norm 0.0419 | dt 0.048 type train | step 1240 | loss 0.2182 0.2348 0.1899 0.1555 0.1673 | lr 8.7e-04 | norm 0.0262 | dt 0.048 type train | step 1250 | loss 0.2192 0.2344 0.1892 0.1545 0.1657 | lr 8.7e-04 | norm 0.0228 | dt 0.047 type train | step 1260 | loss 0.2170 0.2339 0.1890 0.1545 0.1654 | lr 8.7e-04 | norm 0.0293 | dt 0.044 type train | step 1270 | loss 0.2185 0.2347 0.1896 0.1547 0.1659 | lr 8.6e-04 | norm 0.0254 | dt 0.044 type train | step 1280 | loss 0.2169 0.2338 0.1890 0.1541 0.1654 | lr 8.6e-04 | norm 0.0325 | dt 0.046 type train | step 1290 | loss 0.2187 0.2343 0.1892 0.1550 0.1666 | lr 8.6e-04 | norm 0.0304 | dt 0.045 type train | step 1300 | loss 0.2192 0.2345 0.1890 0.1544 0.1664 | lr 8.6e-04 | norm 0.0259 | dt 0.045 type train | step 1310 | loss 0.2175 0.2342 0.1890 0.1545 0.1658 | lr 8.6e-04 | norm 0.0331 | dt 0.045 type train | step 1320 | loss 0.2178 0.2341 0.1890 0.1545 0.1654 | lr 8.5e-04 | norm 0.0375 | dt 0.045 type train | step 1330 | loss 0.2186 0.2344 0.1894 0.1552 0.1669 | lr 8.5e-04 | norm 0.0306 | dt 0.045 type train | step 1340 | loss 0.2186 0.2347 0.1897 0.1552 0.1674 | lr 8.5e-04 | norm 0.0461 | dt 0.044 type train | step 1350 | loss 0.2187 0.2346 0.1896 0.1551 0.1666 | lr 8.5e-04 | norm 0.0278 | dt 0.044 type train | step 1360 | loss 0.2176 0.2343 0.1892 0.1546 0.1659 | lr 8.5e-04 | norm 0.0268 | dt 0.044 type train | step 1370 | loss 0.2159 0.2333 0.1886 0.1544 0.1656 | lr 8.4e-04 | norm 0.0221 | dt 0.045 type train | step 1380 | loss 0.2175 0.2337 0.1888 0.1541 0.1659 | lr 8.4e-04 | norm 0.0303 | dt 0.044 type train | step 1390 | loss 0.2156 0.2331 0.1888 0.1540 0.1646 | lr 8.4e-04 | norm 0.0347 | dt 0.045 type train | step 1400 | loss 0.2159 0.2335 0.1887 0.1538 0.1646 | lr 8.4e-04 | norm 0.0246 | dt 0.045 type train | step 1410 | loss 0.2161 0.2335 0.1891 0.1550 0.1661 | lr 8.3e-04 | norm 0.0256 | dt 0.045 type train | step 1420 | loss 0.2175 0.2341 0.1890 0.1545 0.1660 | lr 8.3e-04 | norm 0.0194 | dt 0.044 type train | step 1430 | loss 0.2169 0.2337 0.1888 0.1543 0.1654 | lr 8.3e-04 | norm 0.0236 | dt 0.044 type train | step 1440 | loss 0.2164 0.2338 0.1894 0.1548 0.1659 | lr 8.3e-04 | norm 0.0341 | dt 0.044 type train | step 1450 | loss 0.2163 0.2334 0.1886 0.1539 0.1646 | lr 8.3e-04 | norm 0.0234 | dt 0.044 type train | step 1460 | loss 0.2162 0.2334 0.1884 0.1537 0.1650 | lr 8.2e-04 | norm 0.0253 | dt 0.044 type train | step 1470 | loss 0.2167 0.2335 0.1886 0.1542 0.1657 | lr 8.2e-04 | norm 0.0283 | dt 0.046 type train | step 1480 | loss 0.2199 0.2350 0.1896 0.1553 0.1669 | lr 8.2e-04 | norm 0.0456 | dt 0.044 type train | step 1490 | loss 0.2147 0.2328 0.1883 0.1542 0.1658 | lr 8.2e-04 | norm 0.0380 | dt 0.044 type train | step 1500 | loss 0.2164 0.2334 0.1889 0.1545 0.1664 | lr 8.1e-04 | norm 0.0284 | dt 0.045 type train | step 1510 | loss 0.2181 0.2342 0.1896 0.1553 0.1668 | lr 8.1e-04 | norm 0.0381 | dt 0.045 type train | step 1520 | loss 0.2168 0.2338 0.1889 0.1543 0.1655 | lr 8.1e-04 | norm 0.0321 | dt 0.045 type train | step 1530 | loss 0.2161 0.2335 0.1884 0.1542 0.1650 | lr 8.1e-04 | norm 0.0319 | dt 0.044 type train | step 1540 | loss 0.2168 0.2334 0.1890 0.1544 0.1652 | lr 8.1e-04 | norm 0.0477 | dt 0.045 type train | step 1550 | loss 0.2155 0.2332 0.1887 0.1545 0.1656 | lr 8.0e-04 | norm 0.0344 | dt 0.044 type train | step 1560 | loss 0.2169 0.2335 0.1887 0.1544 0.1659 | lr 8.0e-04 | norm 0.0275 | dt 0.045 type train | step 1570 | loss 0.2171 0.2338 0.1891 0.1550 0.1667 | lr 8.0e-04 | norm 0.0398 | dt 0.045 type train | step 1580 | loss 0.2146 0.2324 0.1882 0.1539 0.1643 | lr 8.0e-04 | norm 0.0230 | dt 0.045 type train | step 1590 | loss 0.2165 0.2335 0.1889 0.1544 0.1648 | lr 7.9e-04 | norm 0.0306 | dt 0.044 type train | step 1600 | loss 0.2144 0.2322 0.1881 0.1540 0.1642 | lr 7.9e-04 | norm 0.0267 | dt 0.044 type train | step 1610 | loss 0.2164 0.2336 0.1888 0.1545 0.1662 | lr 7.9e-04 | norm 0.0300 | dt 0.044 type train | step 1620 | loss 0.2152 0.2326 0.1883 0.1543 0.1650 | lr 7.9e-04 | norm 0.0244 | dt 0.044 type train | step 1630 | loss 0.2162 0.2336 0.1893 0.1548 0.1664 | lr 7.8e-04 | norm 0.0227 | dt 0.045 type train | step 1640 | loss 0.2155 0.2330 0.1885 0.1542 0.1651 | lr 7.8e-04 | norm 0.0241 | dt 0.044 type train | step 1650 | loss 0.2155 0.2329 0.1885 0.1542 0.1660 | lr 7.8e-04 | norm 0.0328 | dt 0.045 type train | step 1660 | loss 0.2161 0.2336 0.1894 0.1550 0.1662 | lr 7.8e-04 | norm 0.0238 | dt 0.045 type train | step 1670 | loss 0.2129 0.2324 0.1882 0.1537 0.1644 | lr 7.7e-04 | norm 0.0342 | dt 0.045 type train | step 1680 | loss 0.2139 0.2324 0.1885 0.1540 0.1652 | lr 7.7e-04 | norm 0.0326 | dt 0.045 type train | step 1690 | loss 0.2170 0.2337 0.1890 0.1546 0.1663 | lr 7.7e-04 | norm 0.0294 | dt 0.044 type train | step 1700 | loss 0.2157 0.2335 0.1891 0.1544 0.1659 | lr 7.7e-04 | norm 0.0309 | dt 0.045 type train | step 1710 | loss 0.2139 0.2327 0.1889 0.1548 0.1650 | lr 7.6e-04 | norm 0.0276 | dt 0.045 type train | step 1720 | loss 0.2139 0.2328 0.1885 0.1542 0.1648 | lr 7.6e-04 | norm 0.0307 | dt 0.044 type train | step 1730 | loss 0.2156 0.2330 0.1889 0.1542 0.1652 | lr 7.6e-04 | norm 0.0252 | dt 0.045 type train | step 1740 | loss 0.2151 0.2328 0.1885 0.1540 0.1654 | lr 7.6e-04 | norm 0.0287 | dt 0.044 type train | step 1750 | loss 0.2149 0.2328 0.1884 0.1543 0.1657 | lr 7.5e-04 | norm 0.0261 | dt 0.046 type train | step 1760 | loss 0.2150 0.2331 0.1889 0.1544 0.1656 | lr 7.5e-04 | norm 0.0227 | dt 0.045 type train | step 1770 | loss 0.2164 0.2336 0.1892 0.1548 0.1657 | lr 7.5e-04 | norm 0.0205 | dt 0.045 type train | step 1780 | loss 0.2169 0.2339 0.1888 0.1540 0.1659 | lr 7.5e-04 | norm 0.0325 | dt 0.044 type train | step 1790 | loss 0.2155 0.2328 0.1884 0.1542 0.1654 | lr 7.4e-04 | norm 0.0300 | dt 0.045 type train | step 1800 | loss 0.2134 0.2323 0.1885 0.1536 0.1643 | lr 7.4e-04 | norm 0.0329 | dt 0.044 type train | step 1810 | loss 0.2154 0.2332 0.1886 0.1540 0.1655 | lr 7.4e-04 | norm 0.0272 | dt 0.044 type train | step 1820 | loss 0.2146 0.2324 0.1883 0.1537 0.1644 | lr 7.4e-04 | norm 0.0633 | dt 0.044 type train | step 1830 | loss 0.2142 0.2325 0.1883 0.1539 0.1652 | lr 7.3e-04 | norm 0.0278 | dt 0.105 type train | step 1840 | loss 0.2161 0.2334 0.1893 0.1551 0.1672 | lr 7.3e-04 | norm 0.0407 | dt 0.048 type train | step 1850 | loss 0.2147 0.2331 0.1892 0.1552 0.1668 | lr 7.3e-04 | norm 0.0256 | dt 0.048 type train | step 1860 | loss 0.2157 0.2327 0.1884 0.1541 0.1653 | lr 7.3e-04 | norm 0.0250 | dt 0.048 type train | step 1870 | loss 0.2136 0.2323 0.1883 0.1541 0.1650 | lr 7.2e-04 | norm 0.0277 | dt 0.048 type train | step 1880 | loss 0.2151 0.2330 0.1889 0.1543 0.1655 | lr 7.2e-04 | norm 0.0309 | dt 0.048 type train | step 1890 | loss 0.2138 0.2323 0.1883 0.1537 0.1650 | lr 7.2e-04 | norm 0.0337 | dt 0.046 type train | step 1900 | loss 0.2153 0.2328 0.1885 0.1546 0.1662 | lr 7.2e-04 | norm 0.0287 | dt 0.045 type train | step 1910 | loss 0.2159 0.2330 0.1884 0.1540 0.1660 | lr 7.1e-04 | norm 0.0288 | dt 0.044 type train | step 1920 | loss 0.2143 0.2327 0.1883 0.1542 0.1654 | lr 7.1e-04 | norm 0.0331 | dt 0.044 type train | step 1930 | loss 0.2147 0.2328 0.1884 0.1541 0.1650 | lr 7.1e-04 | norm 0.0368 | dt 0.044 type train | step 1940 | loss 0.2153 0.2329 0.1887 0.1548 0.1665 | lr 7.1e-04 | norm 0.0289 | dt 0.045 type train | step 1950 | loss 0.2157 0.2334 0.1891 0.1549 0.1670 | lr 7.0e-04 | norm 0.0435 | dt 0.045 type train | step 1960 | loss 0.2156 0.2331 0.1890 0.1547 0.1662 | lr 7.0e-04 | norm 0.0304 | dt 0.045 type train | step 1970 | loss 0.2147 0.2330 0.1886 0.1542 0.1655 | lr 7.0e-04 | norm 0.0243 | dt 0.044 type train | step 1980 | loss 0.2131 0.2320 0.1880 0.1540 0.1652 | lr 6.9e-04 | norm 0.0241 | dt 0.044 type train | step 1990 | loss 0.2146 0.2325 0.1882 0.1538 0.1655 | lr 6.9e-04 | norm 0.0302 | dt 0.045 type train | step 2000 | loss 0.2127 0.2319 0.1882 0.1537 0.1642 | lr 6.9e-04 | norm 0.0360 | dt 0.044 type train | step 2010 | loss 0.2130 0.2323 0.1881 0.1535 0.1642 | lr 6.9e-04 | norm 0.0246 | dt 0.046 type train | step 2020 | loss 0.2134 0.2324 0.1885 0.1547 0.1658 | lr 6.8e-04 | norm 0.0248 | dt 0.048 type train | step 2030 | loss 0.2147 0.2330 0.1884 0.1541 0.1657 | lr 6.8e-04 | norm 0.0191 | dt 0.047 type train | step 2040 | loss 0.2143 0.2325 0.1882 0.1540 0.1650 | lr 6.8e-04 | norm 0.0234 | dt 0.044 type train | step 2050 | loss 0.2137 0.2327 0.1889 0.1544 0.1656 | lr 6.8e-04 | norm 0.0319 | dt 0.044 type train | step 2060 | loss 0.2138 0.2323 0.1881 0.1536 0.1643 | lr 6.7e-04 | norm 0.0235 | dt 0.044 type train | step 2070 | loss 0.2137 0.2323 0.1880 0.1534 0.1647 | lr 6.7e-04 | norm 0.0239 | dt 0.044 type train | step 2080 | loss 0.2142 0.2324 0.1881 0.1538 0.1654 | lr 6.7e-04 | norm 0.0306 | dt 0.044 type train | step 2090 | loss 0.2174 0.2339 0.1891 0.1550 0.1666 | lr 6.6e-04 | norm 0.0444 | dt 0.044 type train | step 2100 | loss 0.2123 0.2319 0.1878 0.1539 0.1655 | lr 6.6e-04 | norm 0.0378 | dt 0.044 type train | step 2110 | loss 0.2140 0.2324 0.1884 0.1542 0.1661 | lr 6.6e-04 | norm 0.0297 | dt 0.044 type train | step 2120 | loss 0.2157 0.2331 0.1891 0.1550 0.1665 | lr 6.6e-04 | norm 0.0372 | dt 0.044 type train | step 2130 | loss 0.2145 0.2329 0.1885 0.1540 0.1652 | lr 6.5e-04 | norm 0.0352 | dt 0.045 type train | step 2140 | loss 0.2138 0.2325 0.1879 0.1539 0.1647 | lr 6.5e-04 | norm 0.0306 | dt 0.047 type train | step 2150 | loss 0.2144 0.2325 0.1885 0.1541 0.1649 | lr 6.5e-04 | norm 0.0446 | dt 0.045 type train | step 2160 | loss 0.2131 0.2323 0.1882 0.1542 0.1654 | lr 6.5e-04 | norm 0.0324 | dt 0.044 type train | step 2170 | loss 0.2146 0.2325 0.1883 0.1541 0.1657 | lr 6.4e-04 | norm 0.0270 | dt 0.045 type train | step 2180 | loss 0.2149 0.2328 0.1887 0.1547 0.1665 | lr 6.4e-04 | norm 0.0374 | dt 0.045 type train | step 2190 | loss 0.2124 0.2316 0.1878 0.1536 0.1640 | lr 6.4e-04 | norm 0.0282 | dt 0.044 type train | step 2200 | loss 0.2144 0.2326 0.1885 0.1541 0.1646 | lr 6.3e-04 | norm 0.0302 | dt 0.044 type train | step 2210 | loss 0.2121 0.2313 0.1876 0.1537 0.1639 | lr 6.3e-04 | norm 0.0219 | dt 0.044 type train | step 2220 | loss 0.2143 0.2326 0.1884 0.1542 0.1660 | lr 6.3e-04 | norm 0.0308 | dt 0.044 type train | step 2230 | loss 0.2132 0.2317 0.1878 0.1541 0.1648 | lr 6.3e-04 | norm 0.0224 | dt 0.044 type train | step 2240 | loss 0.2143 0.2328 0.1889 0.1545 0.1662 | lr 6.2e-04 | norm 0.0209 | dt 0.044 type train | step 2250 | loss 0.2133 0.2321 0.1881 0.1540 0.1648 | lr 6.2e-04 | norm 0.0295 | dt 0.045 type train | step 2260 | loss 0.2136 0.2321 0.1881 0.1539 0.1658 | lr 6.2e-04 | norm 0.0347 | dt 0.047 type train | step 2270 | loss 0.2141 0.2327 0.1890 0.1547 0.1660 | lr 6.1e-04 | norm 0.0237 | dt 0.045 type train | step 2280 | loss 0.2110 0.2316 0.1878 0.1535 0.1642 | lr 6.1e-04 | norm 0.0289 | dt 0.045 type train | step 2290 | loss 0.2119 0.2316 0.1881 0.1538 0.1650 | lr 6.1e-04 | norm 0.0287 | dt 0.045 type train | step 2300 | loss 0.2151 0.2329 0.1886 0.1544 0.1661 | lr 6.1e-04 | norm 0.0275 | dt 0.046 type train | step 2310 | loss 0.2140 0.2327 0.1887 0.1542 0.1657 | lr 6.0e-04 | norm 0.0303 | dt 0.048 type train | step 2320 | loss 0.2121 0.2319 0.1885 0.1546 0.1647 | lr 6.0e-04 | norm 0.0285 | dt 0.047 type train | step 2330 | loss 0.2122 0.2320 0.1881 0.1540 0.1646 | lr 6.0e-04 | norm 0.0302 | dt 0.047 type train | step 2340 | loss 0.2140 0.2322 0.1885 0.1540 0.1650 | lr 6.0e-04 | norm 0.0221 | dt 0.045 type train | step 2350 | loss 0.2134 0.2320 0.1881 0.1538 0.1652 | lr 5.9e-04 | norm 0.0322 | dt 0.045 type train | step 2360 | loss 0.2133 0.2321 0.1881 0.1541 0.1655 | lr 5.9e-04 | norm 0.0303 | dt 0.044 type train | step 2370 | loss 0.2133 0.2324 0.1886 0.1543 0.1654 | lr 5.9e-04 | norm 0.0212 | dt 0.044 type train | step 2380 | loss 0.2147 0.2329 0.1889 0.1546 0.1655 | lr 5.8e-04 | norm 0.0206 | dt 0.044 type train | step 2390 | loss 0.2152 0.2331 0.1885 0.1539 0.1657 | lr 5.8e-04 | norm 0.0303 | dt 0.044 type train | step 2400 | loss 0.2139 0.2321 0.1880 0.1540 0.1652 | lr 5.8e-04 | norm 0.0304 | dt 0.044 type train | step 2410 | loss 0.2119 0.2316 0.1882 0.1535 0.1641 | lr 5.8e-04 | norm 0.0336 | dt 0.044 type train | step 2420 | loss 0.2139 0.2324 0.1883 0.1538 0.1653 | lr 5.7e-04 | norm 0.0273 | dt 0.044 type train | step 2430 | loss 0.2130 0.2317 0.1880 0.1535 0.1642 | lr 5.7e-04 | norm 0.0594 | dt 0.045 type train | step 2440 | loss 0.2126 0.2319 0.1880 0.1538 0.1651 | lr 5.7e-04 | norm 0.0282 | dt 0.423 type train | step 2450 | loss 0.2146 0.2327 0.1890 0.1549 0.1670 | lr 5.6e-04 | norm 0.0374 | dt 0.044 type train | step 2460 | loss 0.2132 0.2325 0.1889 0.1550 0.1666 | lr 5.6e-04 | norm 0.0258 | dt 0.044 type train | step 2470 | loss 0.2144 0.2320 0.1882 0.1540 0.1651 | lr 5.6e-04 | norm 0.0233 | dt 0.045 type train | step 2480 | loss 0.2122 0.2316 0.1880 0.1539 0.1648 | lr 5.6e-04 | norm 0.0304 | dt 0.045 type train | step 2490 | loss 0.2137 0.2324 0.1886 0.1541 0.1653 | lr 5.5e-04 | norm 0.0292 | dt 0.044 type train | step 2500 | loss 0.2124 0.2316 0.1880 0.1536 0.1648 | lr 5.5e-04 | norm 0.0374 | dt 0.044 type train | step 2510 | loss 0.2140 0.2321 0.1883 0.1545 0.1660 | lr 5.5e-04 | norm 0.0287 | dt 0.044 type train | step 2520 | loss 0.2146 0.2323 0.1881 0.1539 0.1658 | lr 5.4e-04 | norm 0.0269 | dt 0.044 type train | step 2530 | loss 0.2130 0.2321 0.1881 0.1540 0.1652 | lr 5.4e-04 | norm 0.0318 | dt 0.044 type train | step 2540 | loss 0.2134 0.2321 0.1881 0.1540 0.1649 | lr 5.4e-04 | norm 0.0348 | dt 0.044 type train | step 2550 | loss 0.2140 0.2323 0.1885 0.1546 0.1663 | lr 5.4e-04 | norm 0.0275 | dt 0.044 type train | step 2560 | loss 0.2145 0.2327 0.1888 0.1548 0.1668 | lr 5.3e-04 | norm 0.0436 | dt 0.044 type train | step 2570 | loss 0.2144 0.2325 0.1887 0.1546 0.1660 | lr 5.3e-04 | norm 0.0267 | dt 0.045 type train | step 2580 | loss 0.2135 0.2324 0.1883 0.1541 0.1654 | lr 5.3e-04 | norm 0.0255 | dt 0.044 type train | step 2590 | loss 0.2119 0.2313 0.1877 0.1539 0.1651 | lr 5.2e-04 | norm 0.0245 | dt 0.044 type train | step 2600 | loss 0.2135 0.2318 0.1879 0.1536 0.1654 | lr 5.2e-04 | norm 0.0292 | dt 0.045 type train | step 2610 | loss 0.2116 0.2312 0.1880 0.1536 0.1641 | lr 5.2e-04 | norm 0.0328 | dt 0.045 type train | step 2620 | loss 0.2120 0.2317 0.1878 0.1534 0.1641 | lr 5.2e-04 | norm 0.0275 | dt 0.045 type train | step 2630 | loss 0.2124 0.2318 0.1882 0.1546 0.1656 | lr 5.1e-04 | norm 0.0241 | dt 0.045 type train | step 2640 | loss 0.2137 0.2324 0.1882 0.1540 0.1656 | lr 5.1e-04 | norm 0.0204 | dt 0.044 type train | step 2650 | loss 0.2132 0.2319 0.1880 0.1539 0.1649 | lr 5.1e-04 | norm 0.0243 | dt 0.044 type train | step 2660 | loss 0.2127 0.2321 0.1886 0.1543 0.1654 | lr 5.0e-04 | norm 0.0320 | dt 0.045 type train | step 2670 | loss 0.2128 0.2317 0.1878 0.1535 0.1641 | lr 5.0e-04 | norm 0.0229 | dt 0.044 type train | step 2680 | loss 0.2128 0.2317 0.1877 0.1533 0.1646 | lr 5.0e-04 | norm 0.0233 | dt 0.044 type train | step 2690 | loss 0.2133 0.2318 0.1879 0.1537 0.1653 | lr 5.0e-04 | norm 0.0304 | dt 0.044 type train | step 2700 | loss 0.2164 0.2334 0.1888 0.1548 0.1665 | lr 4.9e-04 | norm 0.0438 | dt 0.045 type train | step 2710 | loss 0.2114 0.2313 0.1876 0.1538 0.1654 | lr 4.9e-04 | norm 0.0391 | dt 0.045 type train | step 2720 | loss 0.2131 0.2318 0.1881 0.1541 0.1660 | lr 4.9e-04 | norm 0.0270 | dt 0.044 type train | step 2730 | loss 0.2148 0.2326 0.1888 0.1549 0.1664 | lr 4.9e-04 | norm 0.0385 | dt 0.044 type train | step 2740 | loss 0.2136 0.2323 0.1883 0.1539 0.1651 | lr 4.8e-04 | norm 0.0344 | dt 0.044 type train | step 2750 | loss 0.2129 0.2320 0.1877 0.1538 0.1645 | lr 4.8e-04 | norm 0.0336 | dt 0.044 type train | step 2760 | loss 0.2135 0.2319 0.1883 0.1540 0.1648 | lr 4.8e-04 | norm 0.0439 | dt 0.046 type train | step 2770 | loss 0.2123 0.2318 0.1879 0.1541 0.1652 | lr 4.7e-04 | norm 0.0268 | dt 0.044 type train | step 2780 | loss 0.2139 0.2320 0.1881 0.1541 0.1656 | lr 4.7e-04 | norm 0.0274 | dt 0.044 type train | step 2790 | loss 0.2140 0.2323 0.1884 0.1546 0.1663 | lr 4.7e-04 | norm 0.0370 | dt 0.044 type train | step 2800 | loss 0.2117 0.2310 0.1876 0.1535 0.1639 | lr 4.7e-04 | norm 0.0241 | dt 0.044 type train | step 2810 | loss 0.2136 0.2320 0.1882 0.1540 0.1645 | lr 4.6e-04 | norm 0.0300 | dt 0.044 type train | step 2820 | loss 0.2113 0.2308 0.1874 0.1536 0.1638 | lr 4.6e-04 | norm 0.0214 | dt 0.045 type train | step 2830 | loss 0.2135 0.2321 0.1882 0.1541 0.1659 | lr 4.6e-04 | norm 0.0329 | dt 0.045 type train | step 2840 | loss 0.2124 0.2313 0.1877 0.1540 0.1647 | lr 4.5e-04 | norm 0.0226 | dt 0.044 type train | step 2850 | loss 0.2135 0.2323 0.1887 0.1544 0.1660 | lr 4.5e-04 | norm 0.0235 | dt 0.044 type train | step 2860 | loss 0.2125 0.2317 0.1879 0.1539 0.1647 | lr 4.5e-04 | norm 0.0230 | dt 0.045 type train | step 2870 | loss 0.2128 0.2316 0.1879 0.1539 0.1657 | lr 4.5e-04 | norm 0.0324 | dt 0.044 type train | step 2880 | loss 0.2134 0.2322 0.1888 0.1546 0.1659 | lr 4.4e-04 | norm 0.0258 | dt 0.044 type train | step 2890 | loss 0.2103 0.2310 0.1876 0.1534 0.1641 | lr 4.4e-04 | norm 0.0329 | dt 0.045 type train | step 2900 | loss 0.2112 0.2311 0.1879 0.1537 0.1649 | lr 4.4e-04 | norm 0.0287 | dt 0.044 type train | step 2910 | loss 0.2144 0.2325 0.1884 0.1543 0.1660 | lr 4.4e-04 | norm 0.0254 | dt 0.044 type train | step 2920 | loss 0.2133 0.2322 0.1886 0.1542 0.1656 | lr 4.3e-04 | norm 0.0286 | dt 0.044 type train | step 2930 | loss 0.2115 0.2315 0.1883 0.1546 0.1646 | lr 4.3e-04 | norm 0.0270 | dt 0.045 type train | step 2940 | loss 0.2115 0.2316 0.1879 0.1539 0.1645 | lr 4.3e-04 | norm 0.0290 | dt 0.044 type train | step 2950 | loss 0.2134 0.2318 0.1883 0.1539 0.1649 | lr 4.2e-04 | norm 0.0221 | dt 0.045 type train | step 2960 | loss 0.2127 0.2317 0.1879 0.1537 0.1651 | lr 4.2e-04 | norm 0.0315 | dt 0.044 type train | step 2970 | loss 0.2127 0.2316 0.1879 0.1541 0.1654 | lr 4.2e-04 | norm 0.0299 | dt 0.045 type train | step 2980 | loss 0.2126 0.2319 0.1884 0.1542 0.1653 | lr 4.2e-04 | norm 0.0233 | dt 0.045 type train | step 2990 | loss 0.2141 0.2324 0.1887 0.1545 0.1654 | lr 4.1e-04 | norm 0.0221 | dt 0.044 type train | step 3000 | loss 0.2145 0.2326 0.1883 0.1538 0.1656 | lr 4.1e-04 | norm 0.0293 | dt 0.044 type train | step 3010 | loss 0.2133 0.2317 0.1878 0.1540 0.1651 | lr 4.1e-04 | norm 0.0338 | dt 0.044 type train | step 3020 | loss 0.2112 0.2312 0.1881 0.1534 0.1641 | lr 4.1e-04 | norm 0.0283 | dt 0.044 type train | step 3030 | loss 0.2133 0.2319 0.1881 0.1538 0.1652 | lr 4.0e-04 | norm 0.0251 | dt 0.045 type train | step 3040 | loss 0.2124 0.2313 0.1878 0.1534 0.1642 | lr 4.0e-04 | norm 0.0562 | dt 0.045 type train | step 3050 | loss 0.2119 0.2314 0.1879 0.1538 0.1650 | lr 4.0e-04 | norm 0.0304 | dt 0.152 type train | step 3060 | loss 0.2140 0.2323 0.1888 0.1549 0.1669 | lr 3.9e-04 | norm 0.0382 | dt 0.047 type train | step 3070 | loss 0.2126 0.2321 0.1887 0.1549 0.1665 | lr 3.9e-04 | norm 0.0240 | dt 0.045 type train | step 3080 | loss 0.2138 0.2316 0.1880 0.1539 0.1651 | lr 3.9e-04 | norm 0.0264 | dt 0.044 type train | step 3090 | loss 0.2116 0.2312 0.1879 0.1538 0.1647 | lr 3.9e-04 | norm 0.0276 | dt 0.045 type train | step 3100 | loss 0.2132 0.2320 0.1884 0.1540 0.1652 | lr 3.8e-04 | norm 0.0276 | dt 0.045 type train | step 3110 | loss 0.2118 0.2312 0.1879 0.1535 0.1647 | lr 3.8e-04 | norm 0.0338 | dt 0.044 type train | step 3120 | loss 0.2135 0.2317 0.1881 0.1544 0.1659 | lr 3.8e-04 | norm 0.0297 | dt 0.045 type train | step 3130 | loss 0.2140 0.2319 0.1879 0.1538 0.1657 | lr 3.8e-04 | norm 0.0257 | dt 0.044 type train | step 3140 | loss 0.2124 0.2317 0.1879 0.1539 0.1651 | lr 3.7e-04 | norm 0.0296 | dt 0.045 type train | step 3150 | loss 0.2129 0.2317 0.1880 0.1539 0.1648 | lr 3.7e-04 | norm 0.0361 | dt 0.044 type train | step 3160 | loss 0.2135 0.2319 0.1883 0.1545 0.1662 | lr 3.7e-04 | norm 0.0254 | dt 0.044 type train | step 3170 | loss 0.2140 0.2323 0.1886 0.1547 0.1668 | lr 3.7e-04 | norm 0.0439 | dt 0.047 type train | step 3180 | loss 0.2138 0.2322 0.1885 0.1545 0.1659 | lr 3.6e-04 | norm 0.0260 | dt 0.046 type train | step 3190 | loss 0.2130 0.2321 0.1882 0.1540 0.1653 | lr 3.6e-04 | norm 0.0222 | dt 0.049 type train | step 3200 | loss 0.2113 0.2310 0.1875 0.1538 0.1650 | lr 3.6e-04 | norm 0.0212 | dt 0.048 type train | step 3210 | loss 0.2130 0.2315 0.1878 0.1536 0.1653 | lr 3.6e-04 | norm 0.0303 | dt 0.049 type train | step 3220 | loss 0.2111 0.2309 0.1878 0.1535 0.1640 | lr 3.5e-04 | norm 0.0317 | dt 0.048 type train | step 3230 | loss 0.2115 0.2313 0.1876 0.1533 0.1640 | lr 3.5e-04 | norm 0.0235 | dt 0.048 type train | step 3240 | loss 0.2119 0.2314 0.1881 0.1545 0.1656 | lr 3.5e-04 | norm 0.0276 | dt 0.048 type train | step 3250 | loss 0.2132 0.2321 0.1881 0.1539 0.1655 | lr 3.5e-04 | norm 0.0209 | dt 0.046 type train | step 3260 | loss 0.2127 0.2316 0.1879 0.1538 0.1648 | lr 3.4e-04 | norm 0.0240 | dt 0.047 type train | step 3270 | loss 0.2121 0.2318 0.1884 0.1543 0.1653 | lr 3.4e-04 | norm 0.0268 | dt 0.046 type train | step 3280 | loss 0.2124 0.2314 0.1877 0.1534 0.1640 | lr 3.4e-04 | norm 0.0204 | dt 0.048 type train | step 3290 | loss 0.2123 0.2314 0.1876 0.1532 0.1645 | lr 3.4e-04 | norm 0.0237 | dt 0.047 type train | step 3300 | loss 0.2128 0.2314 0.1877 0.1537 0.1652 | lr 3.3e-04 | norm 0.0263 | dt 0.047 type train | step 3310 | loss 0.2160 0.2331 0.1887 0.1548 0.1664 | lr 3.3e-04 | norm 0.0429 | dt 0.045 type train | step 3320 | loss 0.2110 0.2310 0.1875 0.1537 0.1653 | lr 3.3e-04 | norm 0.0310 | dt 0.044 type train | step 3330 | loss 0.2126 0.2315 0.1880 0.1541 0.1659 | lr 3.3e-04 | norm 0.0235 | dt 0.044 type train | step 3340 | loss 0.2143 0.2323 0.1887 0.1548 0.1663 | lr 3.2e-04 | norm 0.0376 | dt 0.045 type train | step 3350 | loss 0.2131 0.2321 0.1881 0.1538 0.1650 | lr 3.2e-04 | norm 0.0293 | dt 0.044 type train | step 3360 | loss 0.2125 0.2317 0.1875 0.1537 0.1645 | lr 3.2e-04 | norm 0.0280 | dt 0.047 type train | step 3370 | loss 0.2130 0.2316 0.1881 0.1539 0.1647 | lr 3.2e-04 | norm 0.0386 | dt 0.044 type train | step 3380 | loss 0.2119 0.2315 0.1878 0.1540 0.1652 | lr 3.1e-04 | norm 0.0259 | dt 0.044 type train | step 3390 | loss 0.2135 0.2318 0.1879 0.1540 0.1655 | lr 3.1e-04 | norm 0.0249 | dt 0.044 type train | step 3400 | loss 0.2136 0.2320 0.1883 0.1545 0.1662 | lr 3.1e-04 | norm 0.0334 | dt 0.044 type train | step 3410 | loss 0.2113 0.2308 0.1874 0.1534 0.1638 | lr 3.1e-04 | norm 0.0252 | dt 0.044 type train | step 3420 | loss 0.2131 0.2317 0.1881 0.1539 0.1644 | lr 3.0e-04 | norm 0.0280 | dt 0.044 type train | step 3430 | loss 0.2108 0.2306 0.1873 0.1535 0.1637 | lr 3.0e-04 | norm 0.0226 | dt 0.045 type train | step 3440 | loss 0.2131 0.2318 0.1880 0.1540 0.1658 | lr 3.0e-04 | norm 0.0254 | dt 0.044 type train | step 3450 | loss 0.2119 0.2310 0.1875 0.1539 0.1646 | lr 3.0e-04 | norm 0.0199 | dt 0.044 type train | step 3460 | loss 0.2132 0.2320 0.1886 0.1544 0.1660 | lr 2.9e-04 | norm 0.0207 | dt 0.044 type train | step 3470 | loss 0.2120 0.2314 0.1877 0.1538 0.1646 | lr 2.9e-04 | norm 0.0215 | dt 0.045 type train | step 3480 | loss 0.2123 0.2314 0.1878 0.1538 0.1656 | lr 2.9e-04 | norm 0.0336 | dt 0.044 type train | step 3490 | loss 0.2130 0.2320 0.1887 0.1546 0.1658 | lr 2.9e-04 | norm 0.0214 | dt 0.044 type train | step 3500 | loss 0.2099 0.2308 0.1874 0.1533 0.1640 | lr 2.9e-04 | norm 0.0287 | dt 0.044 type train | step 3510 | loss 0.2109 0.2309 0.1877 0.1537 0.1649 | lr 2.8e-04 | norm 0.0266 | dt 0.047 type train | step 3520 | loss 0.2140 0.2323 0.1883 0.1542 0.1659 | lr 2.8e-04 | norm 0.0266 | dt 0.047 type train | step 3530 | loss 0.2129 0.2320 0.1885 0.1541 0.1655 | lr 2.8e-04 | norm 0.0284 | dt 0.045 type train | step 3540 | loss 0.2111 0.2312 0.1882 0.1545 0.1646 | lr 2.8e-04 | norm 0.0221 | dt 0.045 type train | step 3550 | loss 0.2111 0.2313 0.1878 0.1538 0.1644 | lr 2.7e-04 | norm 0.0295 | dt 0.044 type train | step 3560 | loss 0.2130 0.2315 0.1882 0.1538 0.1648 | lr 2.7e-04 | norm 0.0207 | dt 0.044 type train | step 3570 | loss 0.2124 0.2315 0.1878 0.1537 0.1650 | lr 2.7e-04 | norm 0.0292 | dt 0.044 type train | step 3580 | loss 0.2123 0.2314 0.1877 0.1540 0.1654 | lr 2.7e-04 | norm 0.0290 | dt 0.044 type train | step 3590 | loss 0.2123 0.2316 0.1883 0.1541 0.1653 | lr 2.7e-04 | norm 0.0247 | dt 0.046 type train | step 3600 | loss 0.2138 0.2322 0.1886 0.1545 0.1653 | lr 2.6e-04 | norm 0.0197 | dt 0.045 type train | step 3610 | loss 0.2141 0.2324 0.1882 0.1538 0.1656 | lr 2.6e-04 | norm 0.0303 | dt 0.044 type train | step 3620 | loss 0.2130 0.2315 0.1877 0.1539 0.1651 | lr 2.6e-04 | norm 0.0301 | dt 0.045 type train | step 3630 | loss 0.2109 0.2310 0.1879 0.1534 0.1640 | lr 2.6e-04 | norm 0.0301 | dt 0.044 type train | step 3640 | loss 0.2129 0.2317 0.1880 0.1537 0.1652 | lr 2.5e-04 | norm 0.0257 | dt 0.045 type train | step 3650 | loss 0.2121 0.2311 0.1877 0.1533 0.1641 | lr 2.5e-04 | norm 0.0539 | dt 0.045 type train | step 3660 | loss 0.2116 0.2312 0.1878 0.1537 0.1650 | lr 2.5e-04 | norm 0.0348 | dt 0.103 type train | step 3670 | loss 0.2137 0.2320 0.1887 0.1548 0.1669 | lr 2.5e-04 | norm 0.0348 | dt 0.044 type train | step 3680 | loss 0.2123 0.2319 0.1886 0.1549 0.1665 | lr 2.5e-04 | norm 0.0251 | dt 0.045 type train | step 3690 | loss 0.2135 0.2314 0.1879 0.1538 0.1650 | lr 2.4e-04 | norm 0.0264 | dt 0.045 type train | step 3700 | loss 0.2113 0.2310 0.1878 0.1538 0.1647 | lr 2.4e-04 | norm 0.0265 | dt 0.044 type train | step 3710 | loss 0.2129 0.2318 0.1883 0.1540 0.1652 | lr 2.4e-04 | norm 0.0308 | dt 0.044 type train | step 3720 | loss 0.2115 0.2310 0.1878 0.1535 0.1647 | lr 2.4e-04 | norm 0.0308 | dt 0.045 type train | step 3730 | loss 0.2132 0.2315 0.1879 0.1543 0.1659 | lr 2.4e-04 | norm 0.0272 | dt 0.044 type train | step 3740 | loss 0.2137 0.2317 0.1878 0.1537 0.1657 | lr 2.3e-04 | norm 0.0228 | dt 0.044 type train | step 3750 | loss 0.2121 0.2315 0.1878 0.1539 0.1651 | lr 2.3e-04 | norm 0.0276 | dt 0.044 type train | step 3760 | loss 0.2126 0.2314 0.1879 0.1538 0.1647 | lr 2.3e-04 | norm 0.0341 | dt 0.047 type train | step 3770 | loss 0.2131 0.2317 0.1882 0.1545 0.1662 | lr 2.3e-04 | norm 0.0236 | dt 0.045 type train | step 3780 | loss 0.2137 0.2321 0.1885 0.1546 0.1667 | lr 2.3e-04 | norm 0.0402 | dt 0.044 type train | step 3790 | loss 0.2136 0.2320 0.1884 0.1545 0.1658 | lr 2.2e-04 | norm 0.0238 | dt 0.045 type train | step 3800 | loss 0.2127 0.2318 0.1881 0.1540 0.1652 | lr 2.2e-04 | norm 0.0205 | dt 0.044 type train | step 3810 | loss 0.2111 0.2309 0.1874 0.1538 0.1650 | lr 2.2e-04 | norm 0.0217 | dt 0.045 type train | step 3820 | loss 0.2127 0.2313 0.1877 0.1535 0.1652 | lr 2.2e-04 | norm 0.0309 | dt 0.045 type train | step 3830 | loss 0.2109 0.2307 0.1877 0.1534 0.1640 | lr 2.2e-04 | norm 0.0304 | dt 0.044 type train | step 3840 | loss 0.2113 0.2311 0.1875 0.1533 0.1640 | lr 2.1e-04 | norm 0.0239 | dt 0.045 type train | step 3850 | loss 0.2116 0.2312 0.1879 0.1544 0.1655 | lr 2.1e-04 | norm 0.0266 | dt 0.046 type train | step 3860 | loss 0.2128 0.2319 0.1880 0.1539 0.1655 | lr 2.1e-04 | norm 0.0207 | dt 0.045 type train | step 3870 | loss 0.2124 0.2315 0.1878 0.1538 0.1648 | lr 2.1e-04 | norm 0.0233 | dt 0.044 type train | step 3880 | loss 0.2119 0.2316 0.1883 0.1542 0.1653 | lr 2.1e-04 | norm 0.0254 | dt 0.045 type train | step 3890 | loss 0.2121 0.2312 0.1876 0.1534 0.1640 | lr 2.1e-04 | norm 0.0208 | dt 0.045 type train | step 3900 | loss 0.2121 0.2313 0.1874 0.1532 0.1644 | lr 2.0e-04 | norm 0.0244 | dt 0.044 type train | step 3910 | loss 0.2125 0.2313 0.1876 0.1536 0.1652 | lr 2.0e-04 | norm 0.0268 | dt 0.047 type train | step 3920 | loss 0.2157 0.2329 0.1886 0.1547 0.1663 | lr 2.0e-04 | norm 0.0423 | dt 0.044 type train | step 3930 | loss 0.2107 0.2308 0.1874 0.1536 0.1653 | lr 2.0e-04 | norm 0.0293 | dt 0.044 type train | step 3940 | loss 0.2123 0.2314 0.1879 0.1540 0.1659 | lr 2.0e-04 | norm 0.0209 | dt 0.046 type train | step 3950 | loss 0.2141 0.2321 0.1886 0.1548 0.1663 | lr 1.9e-04 | norm 0.0366 | dt 0.045 type train | step 3960 | loss 0.2128 0.2319 0.1880 0.1538 0.1650 | lr 1.9e-04 | norm 0.0280 | dt 0.047 type train | step 3970 | loss 0.2122 0.2315 0.1874 0.1537 0.1644 | lr 1.9e-04 | norm 0.0255 | dt 0.046 type train | step 3980 | loss 0.2128 0.2315 0.1880 0.1539 0.1647 | lr 1.9e-04 | norm 0.0356 | dt 0.045 type train | step 3990 | loss 0.2116 0.2313 0.1877 0.1540 0.1651 | lr 1.9e-04 | norm 0.0275 | dt 0.044 type train | step 4000 | loss 0.2132 0.2317 0.1878 0.1540 0.1654 | lr 1.9e-04 | norm 0.0266 | dt 0.044 type train | step 4010 | loss 0.2134 0.2319 0.1882 0.1545 0.1662 | lr 1.8e-04 | norm 0.0317 | dt 0.044 type train | step 4020 | loss 0.2111 0.2306 0.1874 0.1534 0.1638 | lr 1.8e-04 | norm 0.0262 | dt 0.044 type train | step 4030 | loss 0.2129 0.2316 0.1880 0.1539 0.1643 | lr 1.8e-04 | norm 0.0252 | dt 0.044 type train | step 4040 | loss 0.2106 0.2304 0.1872 0.1535 0.1637 | lr 1.8e-04 | norm 0.0210 | dt 0.044 type train | step 4050 | loss 0.2129 0.2317 0.1879 0.1540 0.1658 | lr 1.8e-04 | norm 0.0212 | dt 0.044 type train | step 4060 | loss 0.2118 0.2308 0.1874 0.1539 0.1646 | lr 1.8e-04 | norm 0.0210 | dt 0.044 type train | step 4070 | loss 0.2130 0.2319 0.1885 0.1543 0.1660 | lr 1.7e-04 | norm 0.0192 | dt 0.045 type train | step 4080 | loss 0.2118 0.2313 0.1877 0.1538 0.1646 | lr 1.7e-04 | norm 0.0222 | dt 0.045 type train | step 4090 | loss 0.2122 0.2313 0.1877 0.1538 0.1655 | lr 1.7e-04 | norm 0.0317 | dt 0.045 type train | step 4100 | loss 0.2128 0.2319 0.1886 0.1546 0.1658 | lr 1.7e-04 | norm 0.0223 | dt 0.045 type train | step 4110 | loss 0.2098 0.2307 0.1873 0.1533 0.1640 | lr 1.7e-04 | norm 0.0291 | dt 0.045 type train | step 4120 | loss 0.2107 0.2308 0.1877 0.1536 0.1648 | lr 1.7e-04 | norm 0.0256 | dt 0.045 type train | step 4130 | loss 0.2138 0.2321 0.1882 0.1542 0.1659 | lr 1.7e-04 | norm 0.0251 | dt 0.044 type train | step 4140 | loss 0.2127 0.2319 0.1884 0.1541 0.1655 | lr 1.6e-04 | norm 0.0272 | dt 0.044 type train | step 4150 | loss 0.2110 0.2310 0.1881 0.1545 0.1645 | lr 1.6e-04 | norm 0.0225 | dt 0.044 type train | step 4160 | loss 0.2109 0.2312 0.1877 0.1538 0.1644 | lr 1.6e-04 | norm 0.0279 | dt 0.046 type train | step 4170 | loss 0.2128 0.2314 0.1881 0.1538 0.1648 | lr 1.6e-04 | norm 0.0220 | dt 0.045 type train | step 4180 | loss 0.2122 0.2313 0.1877 0.1536 0.1650 | lr 1.6e-04 | norm 0.0257 | dt 0.045 type train | step 4190 | loss 0.2122 0.2312 0.1877 0.1540 0.1653 | lr 1.6e-04 | norm 0.0268 | dt 0.045 type train | step 4200 | loss 0.2121 0.2315 0.1882 0.1541 0.1652 | lr 1.6e-04 | norm 0.0221 | dt 0.045 type train | step 4210 | loss 0.2136 0.2321 0.1885 0.1544 0.1653 | lr 1.5e-04 | norm 0.0183 | dt 0.045 type train | step 4220 | loss 0.2139 0.2323 0.1881 0.1537 0.1655 | lr 1.5e-04 | norm 0.0281 | dt 0.044 type train | step 4230 | loss 0.2128 0.2314 0.1876 0.1539 0.1650 | lr 1.5e-04 | norm 0.0305 | dt 0.044 type train | step 4240 | loss 0.2108 0.2309 0.1879 0.1533 0.1640 | lr 1.5e-04 | norm 0.0316 | dt 0.044 type train | step 4250 | loss 0.2127 0.2316 0.1879 0.1537 0.1651 | lr 1.5e-04 | norm 0.0219 | dt 0.044 type train | step 4260 | loss 0.2119 0.2310 0.1876 0.1533 0.1641 | lr 1.5e-04 | norm 0.0528 | dt 0.045 type train | step 4270 | loss 0.2114 0.2311 0.1877 0.1537 0.1649 | lr 1.5e-04 | norm 0.0328 | dt 0.304 type train | step 4280 | loss 0.2135 0.2319 0.1887 0.1548 0.1668 | lr 1.5e-04 | norm 0.0340 | dt 0.045 type train | step 4290 | loss 0.2121 0.2318 0.1885 0.1548 0.1664 | lr 1.4e-04 | norm 0.0216 | dt 0.044 type train | step 4300 | loss 0.2133 0.2313 0.1878 0.1538 0.1650 | lr 1.4e-04 | norm 0.0262 | dt 0.044 type train | step 4310 | loss 0.2111 0.2309 0.1877 0.1538 0.1647 | lr 1.4e-04 | norm 0.0280 | dt 0.044 type train | step 4320 | loss 0.2127 0.2317 0.1882 0.1539 0.1651 | lr 1.4e-04 | norm 0.0256 | dt 0.045 type train | step 4330 | loss 0.2113 0.2309 0.1877 0.1535 0.1647 | lr 1.4e-04 | norm 0.0308 | dt 0.044 type train | step 4340 | loss 0.2130 0.2314 0.1879 0.1543 0.1658 | lr 1.4e-04 | norm 0.0267 | dt 0.045 type train | step 4350 | loss 0.2136 0.2316 0.1877 0.1537 0.1657 | lr 1.4e-04 | norm 0.0226 | dt 0.044 type train | step 4360 | loss 0.2119 0.2314 0.1877 0.1539 0.1650 | lr 1.4e-04 | norm 0.0271 | dt 0.044 type train | step 4370 | loss 0.2124 0.2314 0.1878 0.1538 0.1647 | lr 1.3e-04 | norm 0.0295 | dt 0.044 type train | step 4380 | loss 0.2130 0.2316 0.1882 0.1545 0.1661 | lr 1.3e-04 | norm 0.0217 | dt 0.044 type train | step 4390 | loss 0.2136 0.2320 0.1885 0.1546 0.1667 | lr 1.3e-04 | norm 0.0392 | dt 0.045 type train | step 4400 | loss 0.2135 0.2318 0.1884 0.1544 0.1658 | lr 1.3e-04 | norm 0.0233 | dt 0.044 type train | step 4410 | loss 0.2125 0.2317 0.1880 0.1540 0.1652 | lr 1.3e-04 | norm 0.0199 | dt 0.044 type train | step 4420 | loss 0.2109 0.2307 0.1874 0.1537 0.1649 | lr 1.3e-04 | norm 0.0220 | dt 0.045 type train | step 4430 | loss 0.2126 0.2312 0.1876 0.1535 0.1652 | lr 1.3e-04 | norm 0.0288 | dt 0.044 type train | step 4440 | loss 0.2107 0.2306 0.1876 0.1534 0.1640 | lr 1.3e-04 | norm 0.0301 | dt 0.044 type train | step 4450 | loss 0.2112 0.2311 0.1875 0.1532 0.1639 | lr 1.3e-04 | norm 0.0233 | dt 0.044 type train | step 4460 | loss 0.2114 0.2311 0.1879 0.1544 0.1655 | lr 1.3e-04 | norm 0.0256 | dt 0.045 type train | step 4470 | loss 0.2127 0.2318 0.1879 0.1539 0.1654 | lr 1.2e-04 | norm 0.0224 | dt 0.047 type train | step 4480 | loss 0.2123 0.2314 0.1877 0.1537 0.1647 | lr 1.2e-04 | norm 0.0193 | dt 0.045 type train | step 4490 | loss 0.2117 0.2315 0.1883 0.1542 0.1653 | lr 1.2e-04 | norm 0.0251 | dt 0.047 type train | step 4500 | loss 0.2119 0.2311 0.1875 0.1534 0.1640 | lr 1.2e-04 | norm 0.0210 | dt 0.050 type train | step 4510 | loss 0.2119 0.2312 0.1874 0.1532 0.1644 | lr 1.2e-04 | norm 0.0245 | dt 0.044 type train | step 4520 | loss 0.2124 0.2311 0.1876 0.1536 0.1652 | lr 1.2e-04 | norm 0.0273 | dt 0.046 type train | step 4530 | loss 0.2156 0.2328 0.1885 0.1547 0.1663 | lr 1.2e-04 | norm 0.0409 | dt 0.044 type train | step 4540 | loss 0.2106 0.2307 0.1873 0.1536 0.1653 | lr 1.2e-04 | norm 0.0296 | dt 0.044 type train | step 4550 | loss 0.2122 0.2312 0.1878 0.1540 0.1659 | lr 1.2e-04 | norm 0.0221 | dt 0.044 type train | step 4560 | loss 0.2139 0.2320 0.1885 0.1548 0.1662 | lr 1.2e-04 | norm 0.0300 | dt 0.044 type train | step 4570 | loss 0.2127 0.2318 0.1880 0.1538 0.1650 | lr 1.2e-04 | norm 0.0281 | dt 0.044 type train | step 4580 | loss 0.2121 0.2314 0.1873 0.1537 0.1644 | lr 1.2e-04 | norm 0.0216 | dt 0.044 type train | step 4590 | loss 0.2127 0.2314 0.1880 0.1538 0.1647 | lr 1.1e-04 | norm 0.0361 | dt 0.044 type train | step 4600 | loss 0.2115 0.2312 0.1877 0.1539 0.1651 | lr 1.1e-04 | norm 0.0264 | dt 0.045 type train | step 4610 | loss 0.2131 0.2315 0.1878 0.1539 0.1654 | lr 1.1e-04 | norm 0.0241 | dt 0.044 type train | step 4620 | loss 0.2133 0.2318 0.1881 0.1545 0.1661 | lr 1.1e-04 | norm 0.0318 | dt 0.045 type train | step 4630 | loss 0.2109 0.2305 0.1873 0.1533 0.1638 | lr 1.1e-04 | norm 0.0238 | dt 0.044 type train | step 4640 | loss 0.2128 0.2315 0.1880 0.1539 0.1643 | lr 1.1e-04 | norm 0.0241 | dt 0.044 type train | step 4650 | loss 0.2105 0.2303 0.1871 0.1535 0.1636 | lr 1.1e-04 | norm 0.0205 | dt 0.044 type train | step 4660 | loss 0.2128 0.2316 0.1879 0.1540 0.1658 | lr 1.1e-04 | norm 0.0209 | dt 0.044 type train | step 4670 | loss 0.2117 0.2307 0.1874 0.1538 0.1645 | lr 1.1e-04 | norm 0.0213 | dt 0.044 type train | step 4680 | loss 0.2129 0.2318 0.1885 0.1543 0.1659 | lr 1.1e-04 | norm 0.0203 | dt 0.044 type train | step 4690 | loss 0.2117 0.2311 0.1876 0.1538 0.1646 | lr 1.1e-04 | norm 0.0209 | dt 0.047 type train | step 4700 | loss 0.2120 0.2312 0.1877 0.1537 0.1655 | lr 1.1e-04 | norm 0.0297 | dt 0.045 type train | step 4710 | loss 0.2127 0.2318 0.1886 0.1545 0.1657 | lr 1.1e-04 | norm 0.0217 | dt 0.044 type train | step 4720 | loss 0.2097 0.2306 0.1873 0.1533 0.1639 | lr 1.1e-04 | norm 0.0286 | dt 0.044 type train | step 4730 | loss 0.2106 0.2307 0.1876 0.1536 0.1648 | lr 1.1e-04 | norm 0.0248 | dt 0.045 type train | step 4740 | loss 0.2137 0.2320 0.1882 0.1542 0.1659 | lr 1.1e-04 | norm 0.0251 | dt 0.044 type train | step 4750 | loss 0.2126 0.2318 0.1883 0.1540 0.1655 | lr 1.1e-04 | norm 0.0266 | dt 0.044 type train | step 4760 | loss 0.2108 0.2310 0.1881 0.1544 0.1645 | lr 1.1e-04 | norm 0.0226 | dt 0.046 type train | step 4770 | loss 0.2108 0.2311 0.1877 0.1538 0.1643 | lr 1.0e-04 | norm 0.0270 | dt 0.045 type train | step 4780 | loss 0.2127 0.2313 0.1881 0.1538 0.1648 | lr 1.0e-04 | norm 0.0210 | dt 0.044 type train | step 4790 | loss 0.2121 0.2312 0.1877 0.1536 0.1650 | lr 1.0e-04 | norm 0.0244 | dt 0.044 type train | step 4800 | loss 0.2121 0.2311 0.1876 0.1540 0.1653 | lr 1.0e-04 | norm 0.0258 | dt 0.044 type train | step 4810 | loss 0.2120 0.2314 0.1882 0.1541 0.1652 | lr 1.0e-04 | norm 0.0224 | dt 0.044 type train | step 4820 | loss 0.2135 0.2320 0.1885 0.1544 0.1652 | lr 1.0e-04 | norm 0.0163 | dt 0.044 type train | step 4830 | loss 0.2138 0.2322 0.1881 0.1537 0.1655 | lr 1.0e-04 | norm 0.0327 | dt 0.045 type train | step 4840 | loss 0.2127 0.2313 0.1876 0.1539 0.1650 | lr 1.0e-04 | norm 0.0294 | dt 0.044 type train | step 4850 | loss 0.2106 0.2307 0.1878 0.1533 0.1640 | lr 1.0e-04 | norm 0.0301 | dt 0.044 type train | step 4860 | loss 0.2126 0.2315 0.1878 0.1537 0.1651 | lr 1.0e-04 | norm 0.0212 | dt 0.044 type train | step 4870 | loss 0.2118 0.2309 0.1875 0.1533 0.1640 | lr 1.0e-04 | norm 0.0500 | dt 0.044 type train | step 4880 | loss 0.2113 0.2310 0.1877 0.1537 0.1649 | lr 1.0e-04 | norm 0.0321 | dt 0.101 type train | step 4890 | loss 0.2134 0.2318 0.1886 0.1547 0.1668 | lr 1.0e-04 | norm 0.0341 | dt 0.044 type train | step 4900 | loss 0.2120 0.2317 0.1885 0.1548 0.1664 | lr 1.0e-04 | norm 0.0198 | dt 0.044 type train | step 4910 | loss 0.2132 0.2312 0.1878 0.1538 0.1650 | lr 1.0e-04 | norm 0.0267 | dt 0.045 type train | step 4920 | loss 0.2110 0.2308 0.1877 0.1537 0.1646 | lr 1.0e-04 | norm 0.0262 | dt 0.045 type train | step 4930 | loss 0.2126 0.2316 0.1882 0.1539 0.1651 | lr 1.0e-04 | norm 0.0248 | dt 0.045 type train | step 4940 | loss 0.2112 0.2308 0.1877 0.1534 0.1646 | lr 1.0e-04 | norm 0.0302 | dt 0.044 type train | step 4950 | loss 0.2129 0.2313 0.1878 0.1543 0.1658 | lr 1.0e-04 | norm 0.0270 | dt 0.044 type train | step 4960 | loss 0.2135 0.2316 0.1877 0.1537 0.1656 | lr 1.0e-04 | norm 0.0222 | dt 0.044 type train | step 4970 | loss 0.2118 0.2313 0.1877 0.1539 0.1650 | lr 1.0e-04 | norm 0.0279 | dt 0.044 type train | step 4980 | loss 0.2123 0.2313 0.1878 0.1538 0.1647 | lr 1.0e-04 | norm 0.0313 | dt 0.044 type train | step 4990 | loss 0.2129 0.2315 0.1881 0.1545 0.1661 | lr 1.0e-04 | norm 0.0232 | dt 0.045 type train | step 5000 | loss 0.2135 0.2320 0.1884 0.1545 0.1666 | lr 1.0e-04 | norm 0.0362 | dt 0.045 type train | step 10 | loss 164.1321 96.4339 59.9745 38.2387 38.5477 | lr 1.0e-03 | norm 275.8710 | dt 0.043 type train | step 20 | loss 112.5391 59.3483 34.1462 22.2766 23.9752 | lr 1.0e-03 | norm 143.5928 | dt 0.043 type train | step 30 | loss 77.1660 36.0876 19.1686 12.8599 13.8983 | lr 1.0e-03 | norm 95.5597 | dt 0.043 type train | step 40 | loss 49.5867 20.9227 10.2423 6.9528 7.3766 | lr 1.0e-03 | norm 71.0766 | dt 0.043 type train | step 50 | loss 30.9603 11.5150 5.1896 3.4210 3.5190 | lr 1.0e-03 | norm 54.0938 | dt 0.043 type train | step 60 | loss 17.8134 5.7321 2.3516 1.5578 1.5125 | lr 1.0e-03 | norm 38.5698 | dt 0.042 type train | step 70 | loss 10.2134 2.7130 1.0300 0.6948 0.6673 | lr 1.0e-03 | norm 26.5156 | dt 0.043 type train | step 80 | loss 5.5063 1.2111 0.5001 0.3517 0.3645 | lr 1.0e-03 | norm 16.4150 | dt 0.043 type train | step 90 | loss 2.8475 0.5924 0.3371 0.2524 0.2809 | lr 1.0e-03 | norm 8.7546 | dt 0.043 type train | step 100 | loss 1.5424 0.3923 0.2867 0.2194 0.2421 | lr 1.0e-03 | norm 4.0870 | dt 0.043 type train | step 110 | loss 0.9433 0.3316 0.2475 0.1909 0.2142 | lr 1.0e-03 | norm 1.7449 | dt 0.043 type train | step 120 | loss 0.6260 0.2762 0.2155 0.1660 0.1912 | lr 1.0e-03 | norm 0.5977 | dt 0.043 type train | step 130 | loss 0.4981 0.2415 0.1938 0.1489 0.1737 | lr 1.0e-03 | norm 0.2909 | dt 0.043 type train | step 140 | loss 0.4235 0.2122 0.1767 0.1357 0.1592 | lr 1.0e-03 | norm 0.2131 | dt 0.043 type train | step 150 | loss 0.3753 0.1929 0.1642 0.1253 0.1493 | lr 1.0e-03 | norm 0.1543 | dt 0.043 type train | step 160 | loss 0.3407 0.1783 0.1537 0.1190 0.1409 | lr 1.0e-03 | norm 0.1250 | dt 0.043 type train | step 170 | loss 0.3143 0.1648 0.1444 0.1120 0.1336 | lr 1.0e-03 | norm 0.1068 | dt 0.043 type train | step 180 | loss 0.2934 0.1552 0.1368 0.1069 0.1273 | lr 1.0e-03 | norm 0.0963 | dt 0.044 type train | step 190 | loss 0.2726 0.1456 0.1303 0.1031 0.1232 | lr 1.0e-03 | norm 0.0808 | dt 0.044 type train | step 200 | loss 0.2575 0.1384 0.1250 0.0995 0.1194 | lr 1.0e-03 | norm 0.0682 | dt 0.044 type train | step 210 | loss 0.2428 0.1303 0.1192 0.0957 0.1143 | lr 1.0e-03 | norm 0.0629 | dt 0.044 type train | step 220 | loss 0.2302 0.1243 0.1151 0.0930 0.1112 | lr 1.0e-03 | norm 0.0589 | dt 0.044 type train | step 230 | loss 0.2185 0.1182 0.1107 0.0900 0.1075 | lr 1.0e-03 | norm 0.0525 | dt 0.044 type train | step 240 | loss 0.2088 0.1131 0.1071 0.0878 0.1053 | lr 9.9e-04 | norm 0.0491 | dt 0.043 type train | step 250 | loss 0.1990 0.1087 0.1039 0.0861 0.1033 | lr 9.9e-04 | norm 0.0502 | dt 0.043 type train | step 260 | loss 0.1924 0.1055 0.1020 0.0852 0.1022 | lr 9.9e-04 | norm 0.0468 | dt 0.045 type train | step 270 | loss 0.1812 0.0998 0.0979 0.0825 0.0997 | lr 9.9e-04 | norm 0.0423 | dt 0.045 type train | step 280 | loss 0.1744 0.0970 0.0961 0.0813 0.0983 | lr 9.9e-04 | norm 0.0365 | dt 0.044 type train | step 290 | loss 0.1682 0.0941 0.0943 0.0805 0.0972 | lr 9.9e-04 | norm 0.0351 | dt 0.044 type train | step 300 | loss 0.1615 0.0914 0.0921 0.0788 0.0951 | lr 9.9e-04 | norm 0.0332 | dt 0.044 type train | step 310 | loss 0.1546 0.0881 0.0899 0.0775 0.0936 | lr 9.9e-04 | norm 0.0319 | dt 0.044 type train | step 320 | loss 0.1499 0.0860 0.0886 0.0766 0.0930 | lr 9.9e-04 | norm 0.0374 | dt 0.044 type train | step 330 | loss 0.1440 0.0835 0.0868 0.0755 0.0919 | lr 9.9e-04 | norm 0.0303 | dt 0.045 type train | step 340 | loss 0.1401 0.0824 0.0858 0.0749 0.0911 | lr 9.9e-04 | norm 0.0257 | dt 0.045 type train | step 350 | loss 0.1360 0.0804 0.0847 0.0744 0.0906 | lr 9.9e-04 | norm 0.0278 | dt 0.044 type train | step 360 | loss 0.1307 0.0779 0.0828 0.0729 0.0887 | lr 9.9e-04 | norm 0.0214 | dt 0.044 type train | step 370 | loss 0.1281 0.0771 0.0823 0.0725 0.0885 | lr 9.9e-04 | norm 0.0202 | dt 0.045 type train | step 380 | loss 0.1237 0.0751 0.0808 0.0718 0.0874 | lr 9.9e-04 | norm 0.0197 | dt 0.045 type train | step 390 | loss 0.1219 0.0745 0.0806 0.0716 0.0878 | lr 9.9e-04 | norm 0.0215 | dt 0.044 type train | step 400 | loss 0.1191 0.0733 0.0795 0.0710 0.0866 | lr 9.9e-04 | norm 0.0201 | dt 0.045 type train | step 410 | loss 0.1171 0.0726 0.0791 0.0706 0.0868 | lr 9.9e-04 | norm 0.0192 | dt 0.045 type train | step 420 | loss 0.1143 0.0713 0.0780 0.0700 0.0856 | lr 9.8e-04 | norm 0.0186 | dt 0.044 type train | step 430 | loss 0.1125 0.0703 0.0772 0.0695 0.0855 | lr 9.8e-04 | norm 0.0219 | dt 0.044 type train | step 440 | loss 0.1111 0.0701 0.0773 0.0695 0.0854 | lr 9.8e-04 | norm 0.0167 | dt 0.044 type train | step 450 | loss 0.1078 0.0684 0.0758 0.0684 0.0840 | lr 9.8e-04 | norm 0.0211 | dt 0.045 type train | step 460 | loss 0.1071 0.0679 0.0754 0.0683 0.0842 | lr 9.8e-04 | norm 0.0222 | dt 0.045 type train | step 470 | loss 0.1070 0.0682 0.0757 0.0686 0.0845 | lr 9.8e-04 | norm 0.0186 | dt 0.048 type train | step 480 | loss 0.1054 0.0672 0.0751 0.0681 0.0839 | lr 9.8e-04 | norm 0.0207 | dt 0.045 type train | step 490 | loss 0.1036 0.0662 0.0744 0.0677 0.0832 | lr 9.8e-04 | norm 0.0195 | dt 0.045 type train | step 500 | loss 0.1023 0.0657 0.0739 0.0673 0.0828 | lr 9.8e-04 | norm 0.0194 | dt 0.045 type train | step 510 | loss 0.1020 0.0655 0.0738 0.0671 0.0828 | lr 9.8e-04 | norm 0.0173 | dt 0.047 type train | step 520 | loss 0.1012 0.0651 0.0735 0.0671 0.0827 | lr 9.8e-04 | norm 0.0208 | dt 0.046 type train | step 530 | loss 0.1001 0.0646 0.0730 0.0669 0.0825 | lr 9.8e-04 | norm 0.0162 | dt 0.045 type train | step 540 | loss 0.0995 0.0641 0.0729 0.0667 0.0824 | lr 9.7e-04 | norm 0.0185 | dt 0.044 type train | step 550 | loss 0.0995 0.0640 0.0729 0.0669 0.0824 | lr 9.7e-04 | norm 0.0168 | dt 0.044 type train | step 560 | loss 0.0995 0.0640 0.0725 0.0664 0.0823 | lr 9.7e-04 | norm 0.0190 | dt 0.045 type train | step 570 | loss 0.0977 0.0629 0.0720 0.0661 0.0816 | lr 9.7e-04 | norm 0.0210 | dt 0.045 type train | step 580 | loss 0.0961 0.0622 0.0715 0.0655 0.0809 | lr 9.7e-04 | norm 0.0168 | dt 0.045 type train | step 590 | loss 0.0966 0.0624 0.0715 0.0657 0.0815 | lr 9.7e-04 | norm 0.0192 | dt 0.046 type train | step 600 | loss 0.0956 0.0617 0.0711 0.0653 0.0809 | lr 9.7e-04 | norm 0.0331 | dt 0.045 type train | step 610 | loss 0.0948 0.0615 0.0707 0.0656 0.0809 | lr 9.7e-04 | norm 0.0179 | dt 0.100 type train | step 620 | loss 0.0955 0.0619 0.0714 0.0659 0.0821 | lr 9.7e-04 | norm 0.0282 | dt 0.045 type train | step 630 | loss 0.0944 0.0612 0.0709 0.0655 0.0815 | lr 9.7e-04 | norm 0.0203 | dt 0.046 type train | step 640 | loss 0.0945 0.0609 0.0706 0.0652 0.0809 | lr 9.6e-04 | norm 0.0160 | dt 0.046 type train | step 650 | loss 0.0932 0.0605 0.0702 0.0650 0.0805 | lr 9.6e-04 | norm 0.0192 | dt 0.046 type train | step 660 | loss 0.0935 0.0606 0.0705 0.0650 0.0807 | lr 9.6e-04 | norm 0.0167 | dt 0.045 type train | step 670 | loss 0.0922 0.0598 0.0699 0.0645 0.0803 | lr 9.6e-04 | norm 0.0179 | dt 0.045 type train | step 680 | loss 0.0929 0.0602 0.0702 0.0651 0.0809 | lr 9.6e-04 | norm 0.0169 | dt 0.044 type train | step 690 | loss 0.0926 0.0599 0.0699 0.0647 0.0806 | lr 9.6e-04 | norm 0.0162 | dt 0.045 type train | step 700 | loss 0.0916 0.0595 0.0696 0.0645 0.0802 | lr 9.6e-04 | norm 0.0233 | dt 0.044 type train | step 710 | loss 0.0915 0.0595 0.0697 0.0646 0.0802 | lr 9.6e-04 | norm 0.0225 | dt 0.045 type train | step 720 | loss 0.0915 0.0595 0.0698 0.0649 0.0807 | lr 9.5e-04 | norm 0.0198 | dt 0.044 type train | step 730 | loss 0.0913 0.0593 0.0697 0.0648 0.0807 | lr 9.5e-04 | norm 0.0243 | dt 0.044 type train | step 740 | loss 0.0914 0.0591 0.0696 0.0646 0.0804 | lr 9.5e-04 | norm 0.0200 | dt 0.045 type train | step 750 | loss 0.0906 0.0589 0.0694 0.0644 0.0800 | lr 9.5e-04 | norm 0.0153 | dt 0.045 type train | step 760 | loss 0.0893 0.0583 0.0687 0.0639 0.0798 | lr 9.5e-04 | norm 0.0184 | dt 0.045 type train | step 770 | loss 0.0899 0.0585 0.0690 0.0640 0.0798 | lr 9.5e-04 | norm 0.0225 | dt 0.044 type train | step 780 | loss 0.0889 0.0579 0.0685 0.0637 0.0791 | lr 9.5e-04 | norm 0.0236 | dt 0.044 type train | step 790 | loss 0.0886 0.0579 0.0684 0.0636 0.0791 | lr 9.5e-04 | norm 0.0205 | dt 0.045 type train | step 800 | loss 0.0885 0.0577 0.0686 0.0640 0.0797 | lr 9.4e-04 | norm 0.0185 | dt 0.045 type train | step 810 | loss 0.0890 0.0582 0.0688 0.0640 0.0799 | lr 9.4e-04 | norm 0.0157 | dt 0.045 type train | step 820 | loss 0.0887 0.0579 0.0686 0.0638 0.0794 | lr 9.4e-04 | norm 0.0166 | dt 0.045 type train | step 830 | loss 0.0882 0.0576 0.0686 0.0637 0.0795 | lr 9.4e-04 | norm 0.0218 | dt 0.044 type train | step 840 | loss 0.0881 0.0575 0.0683 0.0636 0.0790 | lr 9.4e-04 | norm 0.0183 | dt 0.045 type train | step 850 | loss 0.0880 0.0573 0.0683 0.0635 0.0792 | lr 9.4e-04 | norm 0.0195 | dt 0.045 type train | step 860 | loss 0.0882 0.0575 0.0684 0.0637 0.0795 | lr 9.4e-04 | norm 0.0197 | dt 0.045 type train | step 870 | loss 0.0897 0.0583 0.0691 0.0644 0.0800 | lr 9.3e-04 | norm 0.0266 | dt 0.045 type train | step 880 | loss 0.0867 0.0567 0.0677 0.0633 0.0792 | lr 9.3e-04 | norm 0.0247 | dt 0.045 type train | step 890 | loss 0.0874 0.0571 0.0683 0.0637 0.0795 | lr 9.3e-04 | norm 0.0177 | dt 0.045 type train | step 900 | loss 0.0880 0.0574 0.0686 0.0640 0.0797 | lr 9.3e-04 | norm 0.0227 | dt 0.044 type train | step 910 | loss 0.0873 0.0571 0.0681 0.0634 0.0791 | lr 9.3e-04 | norm 0.0230 | dt 0.045 type train | step 920 | loss 0.0870 0.0570 0.0680 0.0634 0.0789 | lr 9.3e-04 | norm 0.0228 | dt 0.046 type train | step 930 | loss 0.0869 0.0569 0.0679 0.0634 0.0790 | lr 9.3e-04 | norm 0.0292 | dt 0.045 type train | step 940 | loss 0.0863 0.0567 0.0677 0.0633 0.0789 | lr 9.2e-04 | norm 0.0218 | dt 0.045 type train | step 950 | loss 0.0869 0.0569 0.0681 0.0634 0.0792 | lr 9.2e-04 | norm 0.0190 | dt 0.044 type train | step 960 | loss 0.0870 0.0569 0.0680 0.0637 0.0794 | lr 9.2e-04 | norm 0.0219 | dt 0.044 type train | step 970 | loss 0.0856 0.0562 0.0673 0.0630 0.0783 | lr 9.2e-04 | norm 0.0168 | dt 0.045 type train | step 980 | loss 0.0865 0.0565 0.0677 0.0631 0.0787 | lr 9.2e-04 | norm 0.0171 | dt 0.044 type train | step 990 | loss 0.0853 0.0559 0.0672 0.0629 0.0782 | lr 9.2e-04 | norm 0.0183 | dt 0.044 type train | step 1000 | loss 0.0860 0.0564 0.0678 0.0633 0.0792 | lr 9.1e-04 | norm 0.0206 | dt 0.045 type train | step 1010 | loss 0.0856 0.0562 0.0676 0.0632 0.0785 | lr 9.1e-04 | norm 0.0253 | dt 0.044 type train | step 1020 | loss 0.0859 0.0564 0.0678 0.0633 0.0792 | lr 9.1e-04 | norm 0.0205 | dt 0.045 type train | step 1030 | loss 0.0855 0.0561 0.0674 0.0631 0.0785 | lr 9.1e-04 | norm 0.0190 | dt 0.045 type train | step 1040 | loss 0.0853 0.0559 0.0672 0.0630 0.0788 | lr 9.1e-04 | norm 0.0210 | dt 0.045 type train | step 1050 | loss 0.0857 0.0563 0.0677 0.0634 0.0791 | lr 9.1e-04 | norm 0.0162 | dt 0.045 type train | step 1060 | loss 0.0837 0.0554 0.0669 0.0626 0.0780 | lr 9.0e-04 | norm 0.0192 | dt 0.044 type train | step 1070 | loss 0.0844 0.0556 0.0670 0.0628 0.0786 | lr 9.0e-04 | norm 0.0235 | dt 0.044 type train | step 1080 | loss 0.0859 0.0564 0.0678 0.0634 0.0792 | lr 9.0e-04 | norm 0.0218 | dt 0.045 type train | step 1090 | loss 0.0851 0.0560 0.0676 0.0631 0.0788 | lr 9.0e-04 | norm 0.0224 | dt 0.044 type train | step 1100 | loss 0.0842 0.0555 0.0671 0.0629 0.0783 | lr 9.0e-04 | norm 0.0241 | dt 0.044 type train | step 1110 | loss 0.0841 0.0555 0.0670 0.0628 0.0782 | lr 8.9e-04 | norm 0.0218 | dt 0.045 type train | step 1120 | loss 0.0849 0.0558 0.0673 0.0628 0.0785 | lr 8.9e-04 | norm 0.0183 | dt 0.045 type train | step 1130 | loss 0.0846 0.0557 0.0672 0.0631 0.0786 | lr 8.9e-04 | norm 0.0222 | dt 0.047 type train | step 1140 | loss 0.0843 0.0556 0.0671 0.0630 0.0786 | lr 8.9e-04 | norm 0.0172 | dt 0.050 type train | step 1150 | loss 0.0843 0.0556 0.0673 0.0629 0.0785 | lr 8.9e-04 | norm 0.0192 | dt 0.049 type train | step 1160 | loss 0.0852 0.0559 0.0674 0.0633 0.0788 | lr 8.9e-04 | norm 0.0169 | dt 0.049 type train | step 1170 | loss 0.0854 0.0561 0.0674 0.0630 0.0789 | lr 8.8e-04 | norm 0.0209 | dt 0.049 type train | step 1180 | loss 0.0845 0.0556 0.0671 0.0629 0.0784 | lr 8.8e-04 | norm 0.0211 | dt 0.048 type train | step 1190 | loss 0.0833 0.0551 0.0667 0.0623 0.0777 | lr 8.8e-04 | norm 0.0206 | dt 0.049 type train | step 1200 | loss 0.0842 0.0554 0.0670 0.0627 0.0784 | lr 8.8e-04 | norm 0.0209 | dt 0.048 type train | step 1210 | loss 0.0839 0.0552 0.0667 0.0624 0.0780 | lr 8.8e-04 | norm 0.0329 | dt 0.048 type train | step 1220 | loss 0.0835 0.0551 0.0665 0.0627 0.0781 | lr 8.7e-04 | norm 0.0197 | dt 0.098 type train | step 1230 | loss 0.0845 0.0556 0.0673 0.0631 0.0793 | lr 8.7e-04 | norm 0.0287 | dt 0.047 type train | step 1240 | loss 0.0838 0.0554 0.0670 0.0629 0.0788 | lr 8.7e-04 | norm 0.0181 | dt 0.048 type train | step 1250 | loss 0.0843 0.0553 0.0669 0.0627 0.0783 | lr 8.7e-04 | norm 0.0170 | dt 0.046 type train | step 1260 | loss 0.0832 0.0549 0.0666 0.0625 0.0780 | lr 8.7e-04 | norm 0.0213 | dt 0.045 type train | step 1270 | loss 0.0839 0.0553 0.0669 0.0627 0.0782 | lr 8.6e-04 | norm 0.0196 | dt 0.044 type train | step 1280 | loss 0.0831 0.0548 0.0666 0.0623 0.0780 | lr 8.6e-04 | norm 0.0195 | dt 0.045 type train | step 1290 | loss 0.0839 0.0552 0.0669 0.0629 0.0786 | lr 8.6e-04 | norm 0.0194 | dt 0.045 type train | step 1300 | loss 0.0839 0.0552 0.0667 0.0626 0.0784 | lr 8.6e-04 | norm 0.0188 | dt 0.045 type train | step 1310 | loss 0.0833 0.0549 0.0666 0.0625 0.0781 | lr 8.6e-04 | norm 0.0242 | dt 0.044 type train | step 1320 | loss 0.0833 0.0550 0.0667 0.0626 0.0781 | lr 8.5e-04 | norm 0.0246 | dt 0.044 type train | step 1330 | loss 0.0838 0.0551 0.0670 0.0630 0.0788 | lr 8.5e-04 | norm 0.0214 | dt 0.045 type train | step 1340 | loss 0.0836 0.0551 0.0669 0.0629 0.0788 | lr 8.5e-04 | norm 0.0251 | dt 0.045 type train | step 1350 | loss 0.0839 0.0553 0.0669 0.0628 0.0785 | lr 8.5e-04 | norm 0.0198 | dt 0.045 type train | step 1360 | loss 0.0834 0.0550 0.0667 0.0626 0.0782 | lr 8.5e-04 | norm 0.0196 | dt 0.044 type train | step 1370 | loss 0.0822 0.0545 0.0662 0.0622 0.0780 | lr 8.4e-04 | norm 0.0180 | dt 0.045 type train | step 1380 | loss 0.0831 0.0548 0.0665 0.0624 0.0781 | lr 8.4e-04 | norm 0.0220 | dt 0.045 type train | step 1390 | loss 0.0824 0.0544 0.0661 0.0621 0.0774 | lr 8.4e-04 | norm 0.0236 | dt 0.045 type train | step 1400 | loss 0.0822 0.0545 0.0660 0.0620 0.0774 | lr 8.4e-04 | norm 0.0216 | dt 0.045 type train | step 1410 | loss 0.0823 0.0544 0.0663 0.0625 0.0781 | lr 8.3e-04 | norm 0.0194 | dt 0.045 type train | step 1420 | loss 0.0830 0.0549 0.0666 0.0625 0.0783 | lr 8.3e-04 | norm 0.0183 | dt 0.045 type train | step 1430 | loss 0.0830 0.0547 0.0665 0.0623 0.0779 | lr 8.3e-04 | norm 0.0159 | dt 0.044 type train | step 1440 | loss 0.0825 0.0545 0.0665 0.0623 0.0780 | lr 8.3e-04 | norm 0.0226 | dt 0.045 type train | step 1450 | loss 0.0825 0.0545 0.0662 0.0623 0.0776 | lr 8.3e-04 | norm 0.0180 | dt 0.044 type train | step 1460 | loss 0.0827 0.0545 0.0663 0.0621 0.0779 | lr 8.2e-04 | norm 0.0189 | dt 0.044 type train | step 1470 | loss 0.0829 0.0546 0.0665 0.0624 0.0781 | lr 8.2e-04 | norm 0.0190 | dt 0.045 type train | step 1480 | loss 0.0844 0.0555 0.0672 0.0632 0.0787 | lr 8.2e-04 | norm 0.0270 | dt 0.045 type train | step 1490 | loss 0.0817 0.0540 0.0658 0.0621 0.0778 | lr 8.2e-04 | norm 0.0251 | dt 0.046 type train | step 1500 | loss 0.0825 0.0544 0.0665 0.0625 0.0783 | lr 8.1e-04 | norm 0.0180 | dt 0.045 type train | step 1510 | loss 0.0833 0.0548 0.0668 0.0629 0.0785 | lr 8.1e-04 | norm 0.0265 | dt 0.045 type train | step 1520 | loss 0.0826 0.0546 0.0663 0.0623 0.0780 | lr 8.1e-04 | norm 0.0227 | dt 0.045 type train | step 1530 | loss 0.0824 0.0545 0.0663 0.0623 0.0777 | lr 8.1e-04 | norm 0.0228 | dt 0.046 type train | step 1540 | loss 0.0826 0.0546 0.0663 0.0624 0.0779 | lr 8.1e-04 | norm 0.0300 | dt 0.045 type train | step 1550 | loss 0.0821 0.0544 0.0661 0.0622 0.0778 | lr 8.0e-04 | norm 0.0225 | dt 0.045 type train | step 1560 | loss 0.0828 0.0547 0.0665 0.0624 0.0781 | lr 8.0e-04 | norm 0.0189 | dt 0.045 type train | step 1570 | loss 0.0828 0.0547 0.0665 0.0627 0.0783 | lr 8.0e-04 | norm 0.0221 | dt 0.045 type train | step 1580 | loss 0.0816 0.0540 0.0658 0.0620 0.0772 | lr 8.0e-04 | norm 0.0183 | dt 0.045 type train | step 1590 | loss 0.0825 0.0544 0.0661 0.0621 0.0777 | lr 7.9e-04 | norm 0.0168 | dt 0.044 type train | step 1600 | loss 0.0814 0.0538 0.0657 0.0619 0.0772 | lr 7.9e-04 | norm 0.0173 | dt 0.044 type train | step 1610 | loss 0.0822 0.0544 0.0663 0.0624 0.0782 | lr 7.9e-04 | norm 0.0220 | dt 0.046 type train | step 1620 | loss 0.0818 0.0541 0.0662 0.0623 0.0775 | lr 7.9e-04 | norm 0.0265 | dt 0.045 type train | step 1630 | loss 0.0822 0.0545 0.0664 0.0625 0.0783 | lr 7.8e-04 | norm 0.0216 | dt 0.045 type train | step 1640 | loss 0.0819 0.0542 0.0661 0.0623 0.0776 | lr 7.8e-04 | norm 0.0196 | dt 0.044 type train | step 1650 | loss 0.0818 0.0540 0.0659 0.0621 0.0779 | lr 7.8e-04 | norm 0.0211 | dt 0.045 type train | step 1660 | loss 0.0823 0.0544 0.0665 0.0626 0.0783 | lr 7.8e-04 | norm 0.0166 | dt 0.045 type train | step 1670 | loss 0.0804 0.0536 0.0656 0.0618 0.0771 | lr 7.7e-04 | norm 0.0203 | dt 0.044 type train | step 1680 | loss 0.0811 0.0538 0.0657 0.0620 0.0777 | lr 7.7e-04 | norm 0.0268 | dt 0.045 type train | step 1690 | loss 0.0826 0.0547 0.0666 0.0627 0.0784 | lr 7.7e-04 | norm 0.0235 | dt 0.045 type train | step 1700 | loss 0.0820 0.0543 0.0664 0.0623 0.0780 | lr 7.7e-04 | norm 0.0210 | dt 0.045 type train | step 1710 | loss 0.0811 0.0538 0.0659 0.0621 0.0774 | lr 7.6e-04 | norm 0.0241 | dt 0.045 type train | step 1720 | loss 0.0810 0.0538 0.0658 0.0620 0.0774 | lr 7.6e-04 | norm 0.0216 | dt 0.045 type train | step 1730 | loss 0.0818 0.0542 0.0661 0.0621 0.0777 | lr 7.6e-04 | norm 0.0181 | dt 0.045 type train | step 1740 | loss 0.0818 0.0541 0.0661 0.0624 0.0778 | lr 7.6e-04 | norm 0.0210 | dt 0.044 type train | step 1750 | loss 0.0815 0.0541 0.0661 0.0623 0.0779 | lr 7.5e-04 | norm 0.0181 | dt 0.045 type train | step 1760 | loss 0.0815 0.0541 0.0662 0.0622 0.0778 | lr 7.5e-04 | norm 0.0182 | dt 0.046 type train | step 1770 | loss 0.0825 0.0544 0.0663 0.0626 0.0780 | lr 7.5e-04 | norm 0.0188 | dt 0.045 type train | step 1780 | loss 0.0826 0.0546 0.0664 0.0624 0.0782 | lr 7.5e-04 | norm 0.0212 | dt 0.044 type train | step 1790 | loss 0.0818 0.0542 0.0661 0.0622 0.0777 | lr 7.4e-04 | norm 0.0241 | dt 0.045 type train | step 1800 | loss 0.0807 0.0537 0.0657 0.0617 0.0771 | lr 7.4e-04 | norm 0.0198 | dt 0.045 type train | step 1810 | loss 0.0817 0.0541 0.0660 0.0621 0.0777 | lr 7.4e-04 | norm 0.0223 | dt 0.044 type train | step 1820 | loss 0.0815 0.0538 0.0658 0.0618 0.0773 | lr 7.4e-04 | norm 0.0338 | dt 0.044 type train | step 1830 | loss 0.0810 0.0537 0.0656 0.0620 0.0775 | lr 7.3e-04 | norm 0.0200 | dt 0.691 type train | step 1840 | loss 0.0820 0.0543 0.0664 0.0625 0.0787 | lr 7.3e-04 | norm 0.0273 | dt 0.044 type train | step 1850 | loss 0.0813 0.0540 0.0661 0.0624 0.0782 | lr 7.3e-04 | norm 0.0189 | dt 0.045 type train | step 1860 | loss 0.0819 0.0540 0.0661 0.0622 0.0777 | lr 7.3e-04 | norm 0.0173 | dt 0.044 type train | step 1870 | loss 0.0808 0.0536 0.0657 0.0619 0.0773 | lr 7.2e-04 | norm 0.0191 | dt 0.044 type train | step 1880 | loss 0.0816 0.0541 0.0661 0.0621 0.0776 | lr 7.2e-04 | norm 0.0183 | dt 0.045 type train | step 1890 | loss 0.0809 0.0536 0.0657 0.0617 0.0774 | lr 7.2e-04 | norm 0.0203 | dt 0.045 type train | step 1900 | loss 0.0816 0.0540 0.0660 0.0624 0.0780 | lr 7.2e-04 | norm 0.0186 | dt 0.045 type train | step 1910 | loss 0.0818 0.0540 0.0659 0.0620 0.0778 | lr 7.1e-04 | norm 0.0178 | dt 0.044 type train | step 1920 | loss 0.0812 0.0538 0.0658 0.0619 0.0776 | lr 7.1e-04 | norm 0.0260 | dt 0.044 type train | step 1930 | loss 0.0813 0.0538 0.0659 0.0620 0.0776 | lr 7.1e-04 | norm 0.0231 | dt 0.044 type train | step 1940 | loss 0.0817 0.0540 0.0662 0.0625 0.0782 | lr 7.1e-04 | norm 0.0215 | dt 0.045 type train | step 1950 | loss 0.0816 0.0540 0.0662 0.0624 0.0783 | lr 7.0e-04 | norm 0.0246 | dt 0.045 type train | step 1960 | loss 0.0819 0.0542 0.0662 0.0623 0.0780 | lr 7.0e-04 | norm 0.0197 | dt 0.044 type train | step 1970 | loss 0.0814 0.0539 0.0660 0.0621 0.0777 | lr 7.0e-04 | norm 0.0212 | dt 0.044 type train | step 1980 | loss 0.0803 0.0534 0.0655 0.0617 0.0775 | lr 6.9e-04 | norm 0.0185 | dt 0.045 type train | step 1990 | loss 0.0812 0.0538 0.0658 0.0619 0.0776 | lr 6.9e-04 | norm 0.0213 | dt 0.045 type train | step 2000 | loss 0.0805 0.0534 0.0654 0.0616 0.0769 | lr 6.9e-04 | norm 0.0236 | dt 0.045 type train | step 2010 | loss 0.0804 0.0534 0.0654 0.0616 0.0769 | lr 6.9e-04 | norm 0.0207 | dt 0.044 type train | step 2020 | loss 0.0805 0.0534 0.0656 0.0621 0.0777 | lr 6.8e-04 | norm 0.0205 | dt 0.044 type train | step 2030 | loss 0.0811 0.0539 0.0659 0.0621 0.0778 | lr 6.8e-04 | norm 0.0190 | dt 0.045 type train | step 2040 | loss 0.0811 0.0537 0.0658 0.0619 0.0775 | lr 6.8e-04 | norm 0.0165 | dt 0.045 type train | step 2050 | loss 0.0807 0.0535 0.0658 0.0618 0.0775 | lr 6.8e-04 | norm 0.0253 | dt 0.044 type train | step 2060 | loss 0.0808 0.0536 0.0656 0.0618 0.0771 | lr 6.7e-04 | norm 0.0180 | dt 0.044 type train | step 2070 | loss 0.0810 0.0535 0.0657 0.0617 0.0774 | lr 6.7e-04 | norm 0.0184 | dt 0.044 type train | step 2080 | loss 0.0812 0.0537 0.0658 0.0620 0.0777 | lr 6.7e-04 | norm 0.0192 | dt 0.044 type train | step 2090 | loss 0.0827 0.0546 0.0666 0.0627 0.0782 | lr 6.6e-04 | norm 0.0258 | dt 0.045 type train | step 2100 | loss 0.0801 0.0532 0.0652 0.0617 0.0774 | lr 6.6e-04 | norm 0.0215 | dt 0.044 type train | step 2110 | loss 0.0808 0.0536 0.0659 0.0621 0.0779 | lr 6.6e-04 | norm 0.0180 | dt 0.044 type train | step 2120 | loss 0.0817 0.0540 0.0663 0.0625 0.0781 | lr 6.6e-04 | norm 0.0261 | dt 0.045 type train | step 2130 | loss 0.0810 0.0537 0.0658 0.0619 0.0776 | lr 6.5e-04 | norm 0.0242 | dt 0.045 type train | step 2140 | loss 0.0809 0.0537 0.0657 0.0619 0.0773 | lr 6.5e-04 | norm 0.0233 | dt 0.043 type train | step 2150 | loss 0.0811 0.0538 0.0658 0.0620 0.0775 | lr 6.5e-04 | norm 0.0285 | dt 0.044 type train | step 2160 | loss 0.0806 0.0536 0.0655 0.0619 0.0774 | lr 6.5e-04 | norm 0.0196 | dt 0.044 type train | step 2170 | loss 0.0813 0.0539 0.0660 0.0620 0.0778 | lr 6.4e-04 | norm 0.0172 | dt 0.044 type train | step 2180 | loss 0.0813 0.0539 0.0659 0.0623 0.0779 | lr 6.4e-04 | norm 0.0240 | dt 0.044 type train | step 2190 | loss 0.0802 0.0532 0.0653 0.0617 0.0769 | lr 6.4e-04 | norm 0.0178 | dt 0.044 type train | step 2200 | loss 0.0811 0.0536 0.0656 0.0618 0.0773 | lr 6.3e-04 | norm 0.0179 | dt 0.044 type train | step 2210 | loss 0.0799 0.0530 0.0652 0.0616 0.0768 | lr 6.3e-04 | norm 0.0193 | dt 0.044 type train | step 2220 | loss 0.0809 0.0536 0.0658 0.0621 0.0778 | lr 6.3e-04 | norm 0.0224 | dt 0.045 type train | step 2230 | loss 0.0805 0.0533 0.0657 0.0619 0.0772 | lr 6.3e-04 | norm 0.0255 | dt 0.045 type train | step 2240 | loss 0.0809 0.0537 0.0659 0.0622 0.0780 | lr 6.2e-04 | norm 0.0212 | dt 0.044 type train | step 2250 | loss 0.0806 0.0534 0.0656 0.0619 0.0773 | lr 6.2e-04 | norm 0.0197 | dt 0.044 type train | step 2260 | loss 0.0804 0.0533 0.0654 0.0618 0.0775 | lr 6.2e-04 | norm 0.0237 | dt 0.046 type train | step 2270 | loss 0.0810 0.0537 0.0660 0.0622 0.0779 | lr 6.1e-04 | norm 0.0167 | dt 0.045 type train | step 2280 | loss 0.0791 0.0529 0.0651 0.0615 0.0768 | lr 6.1e-04 | norm 0.0189 | dt 0.045 type train | step 2290 | loss 0.0799 0.0531 0.0653 0.0617 0.0774 | lr 6.1e-04 | norm 0.0254 | dt 0.045 type train | step 2300 | loss 0.0813 0.0540 0.0662 0.0624 0.0781 | lr 6.1e-04 | norm 0.0233 | dt 0.045 type train | step 2310 | loss 0.0808 0.0537 0.0659 0.0620 0.0777 | lr 6.0e-04 | norm 0.0197 | dt 0.045 type train | step 2320 | loss 0.0799 0.0531 0.0655 0.0618 0.0771 | lr 6.0e-04 | norm 0.0238 | dt 0.044 type train | step 2330 | loss 0.0798 0.0532 0.0655 0.0617 0.0771 | lr 6.0e-04 | norm 0.0193 | dt 0.045 type train | step 2340 | loss 0.0807 0.0535 0.0657 0.0618 0.0774 | lr 6.0e-04 | norm 0.0190 | dt 0.045 type train | step 2350 | loss 0.0806 0.0535 0.0657 0.0621 0.0775 | lr 5.9e-04 | norm 0.0234 | dt 0.045 type train | step 2360 | loss 0.0804 0.0534 0.0657 0.0620 0.0776 | lr 5.9e-04 | norm 0.0190 | dt 0.045 type train | step 2370 | loss 0.0805 0.0534 0.0658 0.0619 0.0775 | lr 5.9e-04 | norm 0.0182 | dt 0.045 type train | step 2380 | loss 0.0814 0.0537 0.0660 0.0623 0.0777 | lr 5.8e-04 | norm 0.0177 | dt 0.045 type train | step 2390 | loss 0.0815 0.0540 0.0660 0.0621 0.0779 | lr 5.8e-04 | norm 0.0212 | dt 0.046 type train | step 2400 | loss 0.0808 0.0536 0.0657 0.0620 0.0774 | lr 5.8e-04 | norm 0.0234 | dt 0.045 type train | step 2410 | loss 0.0796 0.0530 0.0653 0.0614 0.0768 | lr 5.8e-04 | norm 0.0206 | dt 0.045 type train | step 2420 | loss 0.0806 0.0535 0.0657 0.0618 0.0774 | lr 5.7e-04 | norm 0.0197 | dt 0.044 type train | step 2430 | loss 0.0804 0.0533 0.0654 0.0615 0.0771 | lr 5.7e-04 | norm 0.0308 | dt 0.045 type train | step 2440 | loss 0.0799 0.0532 0.0652 0.0618 0.0772 | lr 5.7e-04 | norm 0.0209 | dt 0.378 type train | step 2450 | loss 0.0810 0.0537 0.0660 0.0623 0.0785 | lr 5.6e-04 | norm 0.0258 | dt 0.045 type train | step 2460 | loss 0.0803 0.0534 0.0657 0.0621 0.0779 | lr 5.6e-04 | norm 0.0229 | dt 0.045 type train | step 2470 | loss 0.0809 0.0535 0.0657 0.0619 0.0774 | lr 5.6e-04 | norm 0.0171 | dt 0.045 type train | step 2480 | loss 0.0798 0.0531 0.0653 0.0617 0.0771 | lr 5.6e-04 | norm 0.0188 | dt 0.045 type train | step 2490 | loss 0.0806 0.0535 0.0657 0.0619 0.0773 | lr 5.5e-04 | norm 0.0179 | dt 0.045 type train | step 2500 | loss 0.0799 0.0530 0.0653 0.0615 0.0772 | lr 5.5e-04 | norm 0.0206 | dt 0.044 type train | step 2510 | loss 0.0806 0.0534 0.0657 0.0622 0.0777 | lr 5.5e-04 | norm 0.0188 | dt 0.047 type train | step 2520 | loss 0.0809 0.0535 0.0656 0.0618 0.0776 | lr 5.4e-04 | norm 0.0182 | dt 0.045 type train | step 2530 | loss 0.0803 0.0533 0.0655 0.0617 0.0773 | lr 5.4e-04 | norm 0.0213 | dt 0.044 type train | step 2540 | loss 0.0804 0.0533 0.0656 0.0618 0.0773 | lr 5.4e-04 | norm 0.0224 | dt 0.044 type train | step 2550 | loss 0.0809 0.0535 0.0659 0.0622 0.0780 | lr 5.4e-04 | norm 0.0203 | dt 0.045 type train | step 2560 | loss 0.0807 0.0535 0.0658 0.0622 0.0780 | lr 5.3e-04 | norm 0.0238 | dt 0.044 type train | step 2570 | loss 0.0811 0.0537 0.0659 0.0621 0.0778 | lr 5.3e-04 | norm 0.0192 | dt 0.045 type train | step 2580 | loss 0.0805 0.0535 0.0657 0.0619 0.0775 | lr 5.3e-04 | norm 0.0177 | dt 0.045 type train | step 2590 | loss 0.0795 0.0529 0.0652 0.0615 0.0772 | lr 5.2e-04 | norm 0.0165 | dt 0.045 type train | step 2600 | loss 0.0803 0.0533 0.0655 0.0617 0.0773 | lr 5.2e-04 | norm 0.0196 | dt 0.046 type train | step 2610 | loss 0.0797 0.0529 0.0652 0.0614 0.0767 | lr 5.2e-04 | norm 0.0226 | dt 0.044 type train | step 2620 | loss 0.0796 0.0530 0.0651 0.0614 0.0767 | lr 5.2e-04 | norm 0.0193 | dt 0.045 type train | step 2630 | loss 0.0798 0.0530 0.0654 0.0619 0.0775 | lr 5.1e-04 | norm 0.0188 | dt 0.046 type train | step 2640 | loss 0.0803 0.0535 0.0656 0.0619 0.0776 | lr 5.1e-04 | norm 0.0163 | dt 0.045 type train | step 2650 | loss 0.0803 0.0533 0.0655 0.0617 0.0772 | lr 5.1e-04 | norm 0.0171 | dt 0.045 type train | step 2660 | loss 0.0799 0.0531 0.0655 0.0616 0.0773 | lr 5.0e-04 | norm 0.0258 | dt 0.045 type train | step 2670 | loss 0.0800 0.0531 0.0653 0.0616 0.0769 | lr 5.0e-04 | norm 0.0161 | dt 0.045 type train | step 2680 | loss 0.0802 0.0531 0.0654 0.0615 0.0772 | lr 5.0e-04 | norm 0.0168 | dt 0.045 type train | step 2690 | loss 0.0804 0.0533 0.0656 0.0618 0.0775 | lr 5.0e-04 | norm 0.0191 | dt 0.045 type train | step 2700 | loss 0.0819 0.0541 0.0663 0.0625 0.0780 | lr 4.9e-04 | norm 0.0248 | dt 0.045 type train | step 2710 | loss 0.0793 0.0527 0.0650 0.0615 0.0772 | lr 4.9e-04 | norm 0.0230 | dt 0.045 type train | step 2720 | loss 0.0800 0.0532 0.0656 0.0619 0.0776 | lr 4.9e-04 | norm 0.0190 | dt 0.046 type train | step 2730 | loss 0.0810 0.0536 0.0661 0.0623 0.0779 | lr 4.9e-04 | norm 0.0271 | dt 0.044 type train | step 2740 | loss 0.0803 0.0533 0.0655 0.0617 0.0774 | lr 4.8e-04 | norm 0.0245 | dt 0.046 type train | step 2750 | loss 0.0802 0.0533 0.0654 0.0618 0.0771 | lr 4.8e-04 | norm 0.0210 | dt 0.046 type train | step 2760 | loss 0.0804 0.0533 0.0655 0.0618 0.0773 | lr 4.8e-04 | norm 0.0263 | dt 0.045 type train | step 2770 | loss 0.0799 0.0532 0.0653 0.0617 0.0772 | lr 4.7e-04 | norm 0.0182 | dt 0.044 type train | step 2780 | loss 0.0807 0.0535 0.0657 0.0619 0.0776 | lr 4.7e-04 | norm 0.0185 | dt 0.044 type train | step 2790 | loss 0.0806 0.0535 0.0657 0.0622 0.0777 | lr 4.7e-04 | norm 0.0246 | dt 0.045 type train | step 2800 | loss 0.0795 0.0528 0.0651 0.0615 0.0767 | lr 4.7e-04 | norm 0.0187 | dt 0.045 type train | step 2810 | loss 0.0804 0.0532 0.0654 0.0616 0.0772 | lr 4.6e-04 | norm 0.0181 | dt 0.045 type train | step 2820 | loss 0.0793 0.0527 0.0650 0.0615 0.0766 | lr 4.6e-04 | norm 0.0161 | dt 0.046 type train | step 2830 | loss 0.0802 0.0533 0.0656 0.0620 0.0776 | lr 4.6e-04 | norm 0.0189 | dt 0.045 type train | step 2840 | loss 0.0798 0.0530 0.0654 0.0618 0.0770 | lr 4.5e-04 | norm 0.0200 | dt 0.044 type train | step 2850 | loss 0.0803 0.0534 0.0657 0.0620 0.0778 | lr 4.5e-04 | norm 0.0183 | dt 0.044 type train | step 2860 | loss 0.0799 0.0531 0.0654 0.0618 0.0771 | lr 4.5e-04 | norm 0.0171 | dt 0.044 type train | step 2870 | loss 0.0798 0.0529 0.0652 0.0617 0.0773 | lr 4.5e-04 | norm 0.0223 | dt 0.044 type train | step 2880 | loss 0.0804 0.0534 0.0658 0.0621 0.0778 | lr 4.4e-04 | norm 0.0171 | dt 0.045 type train | step 2890 | loss 0.0785 0.0526 0.0649 0.0613 0.0766 | lr 4.4e-04 | norm 0.0182 | dt 0.045 type train | step 2900 | loss 0.0793 0.0528 0.0651 0.0616 0.0772 | lr 4.4e-04 | norm 0.0229 | dt 0.046 type train | step 2910 | loss 0.0807 0.0537 0.0659 0.0623 0.0779 | lr 4.4e-04 | norm 0.0245 | dt 0.045 type train | step 2920 | loss 0.0802 0.0533 0.0657 0.0619 0.0775 | lr 4.3e-04 | norm 0.0197 | dt 0.045 type train | step 2930 | loss 0.0793 0.0528 0.0653 0.0617 0.0769 | lr 4.3e-04 | norm 0.0179 | dt 0.045 type train | step 2940 | loss 0.0792 0.0528 0.0653 0.0616 0.0769 | lr 4.3e-04 | norm 0.0190 | dt 0.046 type train | step 2950 | loss 0.0800 0.0532 0.0655 0.0617 0.0773 | lr 4.2e-04 | norm 0.0181 | dt 0.045 type train | step 2960 | loss 0.0800 0.0531 0.0655 0.0620 0.0774 | lr 4.2e-04 | norm 0.0212 | dt 0.046 type train | step 2970 | loss 0.0798 0.0531 0.0655 0.0619 0.0775 | lr 4.2e-04 | norm 0.0177 | dt 0.045 type train | step 2980 | loss 0.0799 0.0531 0.0656 0.0618 0.0773 | lr 4.2e-04 | norm 0.0169 | dt 0.045 type train | step 2990 | loss 0.0808 0.0534 0.0658 0.0622 0.0776 | lr 4.1e-04 | norm 0.0178 | dt 0.046 type train | step 3000 | loss 0.0809 0.0536 0.0658 0.0620 0.0777 | lr 4.1e-04 | norm 0.0197 | dt 0.045 type train | step 3010 | loss 0.0802 0.0533 0.0655 0.0618 0.0773 | lr 4.1e-04 | norm 0.0186 | dt 0.045 type train | step 3020 | loss 0.0791 0.0527 0.0651 0.0613 0.0767 | lr 4.1e-04 | norm 0.0187 | dt 0.045 type train | step 3030 | loss 0.0801 0.0532 0.0655 0.0617 0.0773 | lr 4.0e-04 | norm 0.0196 | dt 0.045 type train | step 3040 | loss 0.0799 0.0530 0.0652 0.0614 0.0769 | lr 4.0e-04 | norm 0.0307 | dt 0.044 type train | step 3050 | loss 0.0794 0.0529 0.0651 0.0617 0.0771 | lr 4.0e-04 | norm 0.0221 | dt 0.137 type train | step 3060 | loss 0.0805 0.0534 0.0659 0.0621 0.0783 | lr 3.9e-04 | norm 0.0228 | dt 0.044 type train | step 3070 | loss 0.0798 0.0531 0.0656 0.0620 0.0778 | lr 3.9e-04 | norm 0.0203 | dt 0.044 type train | step 3080 | loss 0.0803 0.0532 0.0656 0.0618 0.0773 | lr 3.9e-04 | norm 0.0156 | dt 0.045 type train | step 3090 | loss 0.0792 0.0528 0.0651 0.0615 0.0770 | lr 3.9e-04 | norm 0.0183 | dt 0.045 type train | step 3100 | loss 0.0801 0.0533 0.0656 0.0618 0.0772 | lr 3.8e-04 | norm 0.0163 | dt 0.044 type train | step 3110 | loss 0.0794 0.0527 0.0652 0.0614 0.0770 | lr 3.8e-04 | norm 0.0225 | dt 0.044 type train | step 3120 | loss 0.0801 0.0531 0.0655 0.0621 0.0776 | lr 3.8e-04 | norm 0.0178 | dt 0.044 type train | step 3130 | loss 0.0804 0.0532 0.0654 0.0617 0.0775 | lr 3.8e-04 | norm 0.0179 | dt 0.044 type train | step 3140 | loss 0.0798 0.0530 0.0653 0.0616 0.0772 | lr 3.7e-04 | norm 0.0178 | dt 0.045 type train | step 3150 | loss 0.0800 0.0531 0.0654 0.0617 0.0772 | lr 3.7e-04 | norm 0.0221 | dt 0.044 type train | step 3160 | loss 0.0804 0.0532 0.0657 0.0621 0.0779 | lr 3.7e-04 | norm 0.0190 | dt 0.044 type train | step 3170 | loss 0.0802 0.0532 0.0657 0.0621 0.0779 | lr 3.7e-04 | norm 0.0241 | dt 0.044 type train | step 3180 | loss 0.0806 0.0534 0.0657 0.0620 0.0776 | lr 3.6e-04 | norm 0.0171 | dt 0.045 type train | step 3190 | loss 0.0801 0.0532 0.0656 0.0618 0.0773 | lr 3.6e-04 | norm 0.0155 | dt 0.045 type train | step 3200 | loss 0.0790 0.0527 0.0650 0.0614 0.0771 | lr 3.6e-04 | norm 0.0180 | dt 0.045 type train | step 3210 | loss 0.0799 0.0530 0.0653 0.0616 0.0772 | lr 3.6e-04 | norm 0.0189 | dt 0.045 type train | step 3220 | loss 0.0792 0.0526 0.0650 0.0613 0.0766 | lr 3.5e-04 | norm 0.0189 | dt 0.045 type train | step 3230 | loss 0.0792 0.0527 0.0649 0.0613 0.0766 | lr 3.5e-04 | norm 0.0162 | dt 0.045 type train | step 3240 | loss 0.0793 0.0527 0.0652 0.0618 0.0773 | lr 3.5e-04 | norm 0.0184 | dt 0.044 type train | step 3250 | loss 0.0798 0.0532 0.0655 0.0618 0.0775 | lr 3.5e-04 | norm 0.0171 | dt 0.045 type train | step 3260 | loss 0.0799 0.0530 0.0654 0.0616 0.0771 | lr 3.4e-04 | norm 0.0163 | dt 0.047 type train | step 3270 | loss 0.0794 0.0528 0.0653 0.0615 0.0772 | lr 3.4e-04 | norm 0.0210 | dt 0.045 type train | step 3280 | loss 0.0796 0.0529 0.0651 0.0615 0.0768 | lr 3.4e-04 | norm 0.0162 | dt 0.045 type train | step 3290 | loss 0.0798 0.0529 0.0653 0.0614 0.0771 | lr 3.4e-04 | norm 0.0177 | dt 0.045 type train | step 3300 | loss 0.0800 0.0530 0.0654 0.0617 0.0774 | lr 3.3e-04 | norm 0.0187 | dt 0.046 type train | step 3310 | loss 0.0815 0.0539 0.0661 0.0624 0.0779 | lr 3.3e-04 | norm 0.0243 | dt 0.049 type train | step 3320 | loss 0.0789 0.0525 0.0648 0.0614 0.0771 | lr 3.3e-04 | norm 0.0222 | dt 0.047 type train | step 3330 | loss 0.0796 0.0529 0.0655 0.0618 0.0775 | lr 3.3e-04 | norm 0.0155 | dt 0.048 type train | step 3340 | loss 0.0806 0.0534 0.0659 0.0622 0.0778 | lr 3.2e-04 | norm 0.0233 | dt 0.046 type train | step 3350 | loss 0.0798 0.0531 0.0654 0.0616 0.0773 | lr 3.2e-04 | norm 0.0224 | dt 0.045 type train | step 3360 | loss 0.0798 0.0531 0.0653 0.0617 0.0770 | lr 3.2e-04 | norm 0.0192 | dt 0.044 type train | step 3370 | loss 0.0799 0.0531 0.0654 0.0617 0.0772 | lr 3.2e-04 | norm 0.0240 | dt 0.044 type train | step 3380 | loss 0.0795 0.0530 0.0652 0.0616 0.0771 | lr 3.1e-04 | norm 0.0175 | dt 0.044 type train | step 3390 | loss 0.0803 0.0533 0.0656 0.0618 0.0775 | lr 3.1e-04 | norm 0.0163 | dt 0.044 type train | step 3400 | loss 0.0802 0.0533 0.0656 0.0621 0.0776 | lr 3.1e-04 | norm 0.0218 | dt 0.045 type train | step 3410 | loss 0.0792 0.0526 0.0649 0.0614 0.0766 | lr 3.1e-04 | norm 0.0187 | dt 0.044 type train | step 3420 | loss 0.0801 0.0530 0.0653 0.0616 0.0771 | lr 3.0e-04 | norm 0.0179 | dt 0.044 type train | step 3430 | loss 0.0789 0.0524 0.0648 0.0614 0.0765 | lr 3.0e-04 | norm 0.0138 | dt 0.045 type train | step 3440 | loss 0.0799 0.0531 0.0654 0.0619 0.0775 | lr 3.0e-04 | norm 0.0172 | dt 0.044 type train | step 3450 | loss 0.0794 0.0528 0.0653 0.0617 0.0769 | lr 3.0e-04 | norm 0.0175 | dt 0.044 type train | step 3460 | loss 0.0799 0.0532 0.0656 0.0619 0.0777 | lr 2.9e-04 | norm 0.0159 | dt 0.045 type train | step 3470 | loss 0.0795 0.0529 0.0653 0.0617 0.0770 | lr 2.9e-04 | norm 0.0144 | dt 0.045 type train | step 3480 | loss 0.0795 0.0527 0.0650 0.0616 0.0772 | lr 2.9e-04 | norm 0.0190 | dt 0.044 type train | step 3490 | loss 0.0800 0.0532 0.0657 0.0620 0.0777 | lr 2.9e-04 | norm 0.0141 | dt 0.045 type train | step 3500 | loss 0.0782 0.0524 0.0648 0.0613 0.0765 | lr 2.9e-04 | norm 0.0171 | dt 0.044 type train | step 3510 | loss 0.0789 0.0526 0.0650 0.0615 0.0771 | lr 2.8e-04 | norm 0.0208 | dt 0.045 type train | step 3520 | loss 0.0804 0.0535 0.0658 0.0622 0.0778 | lr 2.8e-04 | norm 0.0189 | dt 0.044 type train | step 3530 | loss 0.0798 0.0531 0.0656 0.0618 0.0774 | lr 2.8e-04 | norm 0.0170 | dt 0.044 type train | step 3540 | loss 0.0789 0.0526 0.0652 0.0616 0.0769 | lr 2.8e-04 | norm 0.0162 | dt 0.044 type train | step 3550 | loss 0.0789 0.0527 0.0651 0.0615 0.0768 | lr 2.7e-04 | norm 0.0173 | dt 0.044 type train | step 3560 | loss 0.0797 0.0531 0.0654 0.0616 0.0772 | lr 2.7e-04 | norm 0.0166 | dt 0.044 type train | step 3570 | loss 0.0796 0.0530 0.0654 0.0619 0.0773 | lr 2.7e-04 | norm 0.0186 | dt 0.047 type train | step 3580 | loss 0.0795 0.0530 0.0654 0.0619 0.0774 | lr 2.7e-04 | norm 0.0172 | dt 0.045 type train | step 3590 | loss 0.0795 0.0529 0.0655 0.0617 0.0773 | lr 2.7e-04 | norm 0.0177 | dt 0.045 type train | step 3600 | loss 0.0805 0.0533 0.0657 0.0621 0.0775 | lr 2.6e-04 | norm 0.0148 | dt 0.044 type train | step 3610 | loss 0.0806 0.0535 0.0656 0.0619 0.0776 | lr 2.6e-04 | norm 0.0182 | dt 0.044 type train | step 3620 | loss 0.0799 0.0531 0.0654 0.0617 0.0772 | lr 2.6e-04 | norm 0.0178 | dt 0.045 type train | step 3630 | loss 0.0787 0.0526 0.0650 0.0612 0.0766 | lr 2.6e-04 | norm 0.0180 | dt 0.045 type train | step 3640 | loss 0.0797 0.0530 0.0654 0.0616 0.0772 | lr 2.5e-04 | norm 0.0162 | dt 0.045 type train | step 3650 | loss 0.0796 0.0528 0.0651 0.0613 0.0769 | lr 2.5e-04 | norm 0.0283 | dt 0.044 type train | step 3660 | loss 0.0791 0.0527 0.0650 0.0616 0.0770 | lr 2.5e-04 | norm 0.0190 | dt 0.317 type train | step 3670 | loss 0.0802 0.0533 0.0658 0.0621 0.0782 | lr 2.5e-04 | norm 0.0232 | dt 0.048 type train | step 3680 | loss 0.0795 0.0530 0.0655 0.0619 0.0777 | lr 2.5e-04 | norm 0.0145 | dt 0.048 type train | step 3690 | loss 0.0800 0.0530 0.0655 0.0617 0.0772 | lr 2.4e-04 | norm 0.0159 | dt 0.048 type train | step 3700 | loss 0.0789 0.0527 0.0650 0.0615 0.0769 | lr 2.4e-04 | norm 0.0157 | dt 0.048 type train | step 3710 | loss 0.0798 0.0531 0.0655 0.0617 0.0771 | lr 2.4e-04 | norm 0.0170 | dt 0.045 type train | step 3720 | loss 0.0791 0.0526 0.0651 0.0613 0.0770 | lr 2.4e-04 | norm 0.0183 | dt 0.045 type train | step 3730 | loss 0.0798 0.0530 0.0654 0.0620 0.0775 | lr 2.4e-04 | norm 0.0182 | dt 0.044 type train | step 3740 | loss 0.0801 0.0530 0.0653 0.0616 0.0774 | lr 2.3e-04 | norm 0.0160 | dt 0.044 type train | step 3750 | loss 0.0796 0.0529 0.0652 0.0615 0.0771 | lr 2.3e-04 | norm 0.0209 | dt 0.044 type train | step 3760 | loss 0.0797 0.0529 0.0653 0.0616 0.0771 | lr 2.3e-04 | norm 0.0214 | dt 0.045 type train | step 3770 | loss 0.0801 0.0531 0.0656 0.0621 0.0778 | lr 2.3e-04 | norm 0.0177 | dt 0.045 type train | step 3780 | loss 0.0799 0.0531 0.0656 0.0620 0.0778 | lr 2.3e-04 | norm 0.0239 | dt 0.044 type train | step 3790 | loss 0.0804 0.0533 0.0656 0.0620 0.0775 | lr 2.2e-04 | norm 0.0164 | dt 0.045 type train | step 3800 | loss 0.0798 0.0531 0.0655 0.0617 0.0773 | lr 2.2e-04 | norm 0.0147 | dt 0.044 type train | step 3810 | loss 0.0788 0.0525 0.0649 0.0614 0.0770 | lr 2.2e-04 | norm 0.0182 | dt 0.044 type train | step 3820 | loss 0.0796 0.0529 0.0652 0.0616 0.0771 | lr 2.2e-04 | norm 0.0180 | dt 0.046 type train | step 3830 | loss 0.0790 0.0525 0.0649 0.0612 0.0765 | lr 2.2e-04 | norm 0.0193 | dt 0.045 type train | step 3840 | loss 0.0789 0.0526 0.0648 0.0612 0.0765 | lr 2.1e-04 | norm 0.0157 | dt 0.046 type train | step 3850 | loss 0.0790 0.0526 0.0651 0.0617 0.0773 | lr 2.1e-04 | norm 0.0152 | dt 0.044 type train | step 3860 | loss 0.0796 0.0531 0.0654 0.0617 0.0775 | lr 2.1e-04 | norm 0.0158 | dt 0.044 type train | step 3870 | loss 0.0797 0.0529 0.0653 0.0616 0.0771 | lr 2.1e-04 | norm 0.0146 | dt 0.044 type train | step 3880 | loss 0.0792 0.0527 0.0653 0.0615 0.0771 | lr 2.1e-04 | norm 0.0200 | dt 0.045 type train | step 3890 | loss 0.0794 0.0528 0.0651 0.0615 0.0767 | lr 2.1e-04 | norm 0.0143 | dt 0.045 type train | step 3900 | loss 0.0795 0.0528 0.0652 0.0614 0.0770 | lr 2.0e-04 | norm 0.0159 | dt 0.044 type train | step 3910 | loss 0.0798 0.0529 0.0653 0.0617 0.0773 | lr 2.0e-04 | norm 0.0174 | dt 0.044 type train | step 3920 | loss 0.0813 0.0538 0.0660 0.0624 0.0779 | lr 2.0e-04 | norm 0.0238 | dt 0.045 type train | step 3930 | loss 0.0786 0.0524 0.0648 0.0614 0.0771 | lr 2.0e-04 | norm 0.0211 | dt 0.044 type train | step 3940 | loss 0.0794 0.0528 0.0654 0.0618 0.0775 | lr 2.0e-04 | norm 0.0140 | dt 0.045 type train | step 3950 | loss 0.0803 0.0532 0.0658 0.0622 0.0777 | lr 1.9e-04 | norm 0.0210 | dt 0.045 type train | step 3960 | loss 0.0796 0.0530 0.0653 0.0616 0.0772 | lr 1.9e-04 | norm 0.0178 | dt 0.044 type train | step 3970 | loss 0.0795 0.0529 0.0652 0.0616 0.0769 | lr 1.9e-04 | norm 0.0187 | dt 0.048 type train | step 3980 | loss 0.0797 0.0530 0.0653 0.0616 0.0771 | lr 1.9e-04 | norm 0.0221 | dt 0.049 type train | step 3990 | loss 0.0792 0.0529 0.0651 0.0616 0.0770 | lr 1.9e-04 | norm 0.0159 | dt 0.048 type train | step 4000 | loss 0.0801 0.0532 0.0655 0.0617 0.0774 | lr 1.9e-04 | norm 0.0162 | dt 0.049 type train | step 4010 | loss 0.0800 0.0531 0.0655 0.0620 0.0776 | lr 1.8e-04 | norm 0.0199 | dt 0.048 type train | step 4020 | loss 0.0790 0.0525 0.0649 0.0614 0.0765 | lr 1.8e-04 | norm 0.0185 | dt 0.048 type train | step 4030 | loss 0.0798 0.0529 0.0652 0.0615 0.0770 | lr 1.8e-04 | norm 0.0168 | dt 0.045 type train | step 4040 | loss 0.0787 0.0524 0.0648 0.0613 0.0765 | lr 1.8e-04 | norm 0.0140 | dt 0.045 type train | step 4050 | loss 0.0797 0.0530 0.0653 0.0618 0.0775 | lr 1.8e-04 | norm 0.0149 | dt 0.045 type train | step 4060 | loss 0.0792 0.0527 0.0652 0.0617 0.0768 | lr 1.8e-04 | norm 0.0164 | dt 0.044 type train | step 4070 | loss 0.0797 0.0531 0.0655 0.0618 0.0777 | lr 1.7e-04 | norm 0.0152 | dt 0.044 type train | step 4080 | loss 0.0793 0.0528 0.0652 0.0616 0.0770 | lr 1.7e-04 | norm 0.0150 | dt 0.044 type train | step 4090 | loss 0.0793 0.0526 0.0650 0.0615 0.0772 | lr 1.7e-04 | norm 0.0182 | dt 0.045 type train | step 4100 | loss 0.0799 0.0531 0.0656 0.0619 0.0776 | lr 1.7e-04 | norm 0.0143 | dt 0.045 type train | step 4110 | loss 0.0780 0.0523 0.0647 0.0612 0.0765 | lr 1.7e-04 | norm 0.0171 | dt 0.045 type train | step 4120 | loss 0.0787 0.0525 0.0649 0.0615 0.0771 | lr 1.7e-04 | norm 0.0161 | dt 0.045 type train | step 4130 | loss 0.0802 0.0534 0.0657 0.0621 0.0778 | lr 1.7e-04 | norm 0.0174 | dt 0.045 type train | step 4140 | loss 0.0796 0.0530 0.0655 0.0618 0.0774 | lr 1.6e-04 | norm 0.0166 | dt 0.045 type train | step 4150 | loss 0.0787 0.0525 0.0651 0.0615 0.0768 | lr 1.6e-04 | norm 0.0168 | dt 0.044 type train | step 4160 | loss 0.0788 0.0526 0.0651 0.0615 0.0767 | lr 1.6e-04 | norm 0.0162 | dt 0.044 type train | step 4170 | loss 0.0795 0.0530 0.0653 0.0616 0.0771 | lr 1.6e-04 | norm 0.0138 | dt 0.045 type train | step 4180 | loss 0.0794 0.0529 0.0654 0.0618 0.0772 | lr 1.6e-04 | norm 0.0180 | dt 0.045 type train | step 4190 | loss 0.0794 0.0529 0.0653 0.0618 0.0773 | lr 1.6e-04 | norm 0.0153 | dt 0.045 type train | step 4200 | loss 0.0794 0.0528 0.0654 0.0617 0.0772 | lr 1.6e-04 | norm 0.0164 | dt 0.047 type train | step 4210 | loss 0.0803 0.0532 0.0656 0.0621 0.0774 | lr 1.5e-04 | norm 0.0144 | dt 0.049 type train | step 4220 | loss 0.0804 0.0534 0.0656 0.0618 0.0776 | lr 1.5e-04 | norm 0.0172 | dt 0.049 type train | step 4230 | loss 0.0797 0.0530 0.0653 0.0617 0.0772 | lr 1.5e-04 | norm 0.0182 | dt 0.049 type train | step 4240 | loss 0.0786 0.0525 0.0650 0.0611 0.0765 | lr 1.5e-04 | norm 0.0183 | dt 0.046 type train | step 4250 | loss 0.0796 0.0529 0.0653 0.0616 0.0771 | lr 1.5e-04 | norm 0.0146 | dt 0.045 type train | step 4260 | loss 0.0794 0.0527 0.0651 0.0613 0.0768 | lr 1.5e-04 | norm 0.0285 | dt 0.047 type train | step 4270 | loss 0.0789 0.0526 0.0649 0.0616 0.0770 | lr 1.5e-04 | norm 0.0201 | dt 0.265 type train | step 4280 | loss 0.0800 0.0532 0.0657 0.0620 0.0782 | lr 1.5e-04 | norm 0.0211 | dt 0.044 type train | step 4290 | loss 0.0794 0.0529 0.0654 0.0619 0.0777 | lr 1.4e-04 | norm 0.0133 | dt 0.044 type train | step 4300 | loss 0.0799 0.0529 0.0654 0.0617 0.0772 | lr 1.4e-04 | norm 0.0159 | dt 0.044 type train | step 4310 | loss 0.0788 0.0526 0.0650 0.0614 0.0769 | lr 1.4e-04 | norm 0.0159 | dt 0.044 type train | step 4320 | loss 0.0796 0.0530 0.0654 0.0617 0.0771 | lr 1.4e-04 | norm 0.0168 | dt 0.045 type train | step 4330 | loss 0.0790 0.0525 0.0650 0.0613 0.0769 | lr 1.4e-04 | norm 0.0177 | dt 0.044 type train | step 4340 | loss 0.0796 0.0529 0.0654 0.0619 0.0775 | lr 1.4e-04 | norm 0.0158 | dt 0.044 type train | step 4350 | loss 0.0799 0.0530 0.0653 0.0616 0.0774 | lr 1.4e-04 | norm 0.0136 | dt 0.045 type train | step 4360 | loss 0.0794 0.0528 0.0652 0.0615 0.0771 | lr 1.4e-04 | norm 0.0175 | dt 0.044 type train | step 4370 | loss 0.0795 0.0528 0.0653 0.0616 0.0770 | lr 1.3e-04 | norm 0.0195 | dt 0.044 type train | step 4380 | loss 0.0800 0.0530 0.0656 0.0620 0.0777 | lr 1.3e-04 | norm 0.0148 | dt 0.045 type train | step 4390 | loss 0.0798 0.0530 0.0655 0.0620 0.0778 | lr 1.3e-04 | norm 0.0233 | dt 0.045 type train | step 4400 | loss 0.0802 0.0532 0.0656 0.0619 0.0775 | lr 1.3e-04 | norm 0.0143 | dt 0.044 type train | step 4410 | loss 0.0797 0.0530 0.0654 0.0617 0.0772 | lr 1.3e-04 | norm 0.0145 | dt 0.044 type train | step 4420 | loss 0.0786 0.0525 0.0649 0.0613 0.0770 | lr 1.3e-04 | norm 0.0169 | dt 0.044 type train | step 4430 | loss 0.0795 0.0528 0.0652 0.0615 0.0771 | lr 1.3e-04 | norm 0.0182 | dt 0.044 type train | step 4440 | loss 0.0788 0.0524 0.0649 0.0612 0.0765 | lr 1.3e-04 | norm 0.0173 | dt 0.045 type train | step 4450 | loss 0.0788 0.0525 0.0648 0.0612 0.0765 | lr 1.3e-04 | norm 0.0155 | dt 0.044 type train | step 4460 | loss 0.0789 0.0525 0.0651 0.0617 0.0772 | lr 1.3e-04 | norm 0.0153 | dt 0.044 type train | step 4470 | loss 0.0795 0.0530 0.0654 0.0617 0.0775 | lr 1.2e-04 | norm 0.0182 | dt 0.045 type train | step 4480 | loss 0.0796 0.0528 0.0653 0.0615 0.0770 | lr 1.2e-04 | norm 0.0136 | dt 0.045 type train | step 4490 | loss 0.0791 0.0526 0.0652 0.0614 0.0771 | lr 1.2e-04 | norm 0.0171 | dt 0.045 type train | step 4500 | loss 0.0793 0.0527 0.0650 0.0614 0.0767 | lr 1.2e-04 | norm 0.0138 | dt 0.045 type train | step 4510 | loss 0.0794 0.0527 0.0651 0.0613 0.0770 | lr 1.2e-04 | norm 0.0160 | dt 0.046 type train | step 4520 | loss 0.0797 0.0529 0.0653 0.0616 0.0773 | lr 1.2e-04 | norm 0.0157 | dt 0.047 type train | step 4530 | loss 0.0812 0.0537 0.0660 0.0623 0.0778 | lr 1.2e-04 | norm 0.0239 | dt 0.047 type train | step 4540 | loss 0.0785 0.0523 0.0647 0.0613 0.0770 | lr 1.2e-04 | norm 0.0192 | dt 0.045 type train | step 4550 | loss 0.0793 0.0528 0.0653 0.0617 0.0774 | lr 1.2e-04 | norm 0.0128 | dt 0.044 type train | step 4560 | loss 0.0802 0.0532 0.0658 0.0622 0.0777 | lr 1.2e-04 | norm 0.0199 | dt 0.045 type train | step 4570 | loss 0.0795 0.0529 0.0653 0.0616 0.0772 | lr 1.2e-04 | norm 0.0187 | dt 0.045 type train | step 4580 | loss 0.0794 0.0529 0.0652 0.0616 0.0769 | lr 1.2e-04 | norm 0.0160 | dt 0.045 type train | step 4590 | loss 0.0796 0.0529 0.0653 0.0616 0.0771 | lr 1.1e-04 | norm 0.0202 | dt 0.045 type train | step 4600 | loss 0.0791 0.0528 0.0651 0.0615 0.0770 | lr 1.1e-04 | norm 0.0160 | dt 0.044 type train | step 4610 | loss 0.0799 0.0531 0.0655 0.0617 0.0774 | lr 1.1e-04 | norm 0.0159 | dt 0.044 type train | step 4620 | loss 0.0799 0.0531 0.0654 0.0620 0.0775 | lr 1.1e-04 | norm 0.0189 | dt 0.044 type train | step 4630 | loss 0.0788 0.0525 0.0648 0.0614 0.0765 | lr 1.1e-04 | norm 0.0160 | dt 0.044 type train | step 4640 | loss 0.0797 0.0529 0.0652 0.0615 0.0770 | lr 1.1e-04 | norm 0.0153 | dt 0.044 type train | step 4650 | loss 0.0786 0.0523 0.0647 0.0613 0.0765 | lr 1.1e-04 | norm 0.0135 | dt 0.044 type train | step 4660 | loss 0.0796 0.0529 0.0653 0.0618 0.0775 | lr 1.1e-04 | norm 0.0140 | dt 0.045 type train | step 4670 | loss 0.0791 0.0526 0.0652 0.0616 0.0768 | lr 1.1e-04 | norm 0.0159 | dt 0.045 type train | step 4680 | loss 0.0796 0.0530 0.0654 0.0618 0.0776 | lr 1.1e-04 | norm 0.0151 | dt 0.044 type train | step 4690 | loss 0.0792 0.0528 0.0652 0.0616 0.0769 | lr 1.1e-04 | norm 0.0152 | dt 0.044 type train | step 4700 | loss 0.0792 0.0526 0.0649 0.0615 0.0771 | lr 1.1e-04 | norm 0.0175 | dt 0.045 type train | step 4710 | loss 0.0798 0.0530 0.0655 0.0619 0.0776 | lr 1.1e-04 | norm 0.0145 | dt 0.045 type train | step 4720 | loss 0.0779 0.0522 0.0647 0.0612 0.0764 | lr 1.1e-04 | norm 0.0170 | dt 0.045 type train | step 4730 | loss 0.0786 0.0524 0.0649 0.0614 0.0771 | lr 1.1e-04 | norm 0.0148 | dt 0.045 type train | step 4740 | loss 0.0801 0.0533 0.0657 0.0621 0.0777 | lr 1.1e-04 | norm 0.0170 | dt 0.044 type train | step 4750 | loss 0.0795 0.0530 0.0655 0.0617 0.0773 | lr 1.1e-04 | norm 0.0171 | dt 0.045 type train | step 4760 | loss 0.0786 0.0524 0.0651 0.0615 0.0768 | lr 1.1e-04 | norm 0.0154 | dt 0.047 type train | step 4770 | loss 0.0787 0.0525 0.0650 0.0614 0.0767 | lr 1.0e-04 | norm 0.0161 | dt 0.047 type train | step 4780 | loss 0.0794 0.0529 0.0653 0.0615 0.0771 | lr 1.0e-04 | norm 0.0143 | dt 0.047 type train | step 4790 | loss 0.0793 0.0528 0.0653 0.0618 0.0772 | lr 1.0e-04 | norm 0.0167 | dt 0.047 type train | step 4800 | loss 0.0793 0.0528 0.0653 0.0618 0.0773 | lr 1.0e-04 | norm 0.0154 | dt 0.045 type train | step 4810 | loss 0.0792 0.0527 0.0654 0.0617 0.0772 | lr 1.0e-04 | norm 0.0155 | dt 0.044 type train | step 4820 | loss 0.0802 0.0531 0.0655 0.0621 0.0774 | lr 1.0e-04 | norm 0.0146 | dt 0.044 type train | step 4830 | loss 0.0803 0.0533 0.0656 0.0618 0.0776 | lr 1.0e-04 | norm 0.0178 | dt 0.044 type train | step 4840 | loss 0.0796 0.0530 0.0653 0.0617 0.0771 | lr 1.0e-04 | norm 0.0175 | dt 0.045 type train | step 4850 | loss 0.0785 0.0524 0.0649 0.0611 0.0765 | lr 1.0e-04 | norm 0.0173 | dt 0.045 type train | step 4860 | loss 0.0795 0.0529 0.0653 0.0616 0.0771 | lr 1.0e-04 | norm 0.0139 | dt 0.045 type train | step 4870 | loss 0.0793 0.0527 0.0650 0.0613 0.0768 | lr 1.0e-04 | norm 0.0278 | dt 0.044 type train | step 4880 | loss 0.0788 0.0526 0.0649 0.0615 0.0770 | lr 1.0e-04 | norm 0.0197 | dt 0.143 type train | step 4890 | loss 0.0799 0.0531 0.0657 0.0620 0.0781 | lr 1.0e-04 | norm 0.0204 | dt 0.048 type train | step 4900 | loss 0.0793 0.0529 0.0654 0.0619 0.0776 | lr 1.0e-04 | norm 0.0131 | dt 0.048 type train | step 4910 | loss 0.0798 0.0529 0.0654 0.0617 0.0772 | lr 1.0e-04 | norm 0.0149 | dt 0.047 type train | step 4920 | loss 0.0787 0.0525 0.0650 0.0614 0.0768 | lr 1.0e-04 | norm 0.0164 | dt 0.048 type train | step 4930 | loss 0.0795 0.0530 0.0654 0.0616 0.0771 | lr 1.0e-04 | norm 0.0149 | dt 0.047 type train | step 4940 | loss 0.0789 0.0525 0.0650 0.0613 0.0769 | lr 1.0e-04 | norm 0.0168 | dt 0.048 type train | step 4950 | loss 0.0795 0.0528 0.0653 0.0619 0.0774 | lr 1.0e-04 | norm 0.0145 | dt 0.048 type train | step 4960 | loss 0.0799 0.0529 0.0652 0.0616 0.0773 | lr 1.0e-04 | norm 0.0133 | dt 0.048 type train | step 4970 | loss 0.0793 0.0527 0.0652 0.0615 0.0771 | lr 1.0e-04 | norm 0.0169 | dt 0.048 type train | step 4980 | loss 0.0794 0.0528 0.0652 0.0616 0.0770 | lr 1.0e-04 | norm 0.0183 | dt 0.047 type train | step 4990 | loss 0.0799 0.0530 0.0655 0.0620 0.0777 | lr 1.0e-04 | norm 0.0139 | dt 0.046 type train | step 5000 | loss 0.0797 0.0530 0.0655 0.0620 0.0778 | lr 1.0e-04 | norm 0.0226 | dt 0.045 type train | step 10 | loss 701.1827 339.4582 203.2977 145.2065 157.8008 | lr 1.0e-03 | norm 799.1240 | dt 0.045 type train | step 20 | loss 498.8257 215.2137 117.7174 83.7656 100.8582 | lr 1.0e-03 | norm 369.5327 | dt 0.045 type train | step 30 | loss 358.4208 134.6771 66.6718 47.0856 59.7548 | lr 1.0e-03 | norm 268.3696 | dt 0.045 type train | step 40 | loss 247.0007 80.4763 36.0432 24.8699 32.5738 | lr 1.0e-03 | norm 231.3823 | dt 0.045 type train | step 50 | loss 167.8983 45.8454 18.6193 12.3990 16.4511 | lr 1.0e-03 | norm 201.1501 | dt 0.045 type train | step 60 | loss 107.3436 24.1513 9.1392 5.8342 7.6112 | lr 1.0e-03 | norm 163.0977 | dt 0.045 type train | step 70 | loss 68.5090 11.9573 4.2929 2.6378 3.4211 | lr 1.0e-03 | norm 131.8208 | dt 0.045 type train | step 80 | loss 40.4384 5.5558 1.9655 1.1804 1.5144 | lr 1.0e-03 | norm 96.2002 | dt 0.045 type train | step 90 | loss 22.2480 2.4525 0.9312 0.5721 0.7196 | lr 1.0e-03 | norm 64.9774 | dt 0.045 type train | step 100 | loss 11.5827 1.0385 0.5080 0.3413 0.4205 | lr 1.0e-03 | norm 40.7027 | dt 0.045 type train | step 110 | loss 5.8882 0.5580 0.3765 0.2811 0.3399 | lr 1.0e-03 | norm 24.0519 | dt 0.045 type train | step 120 | loss 2.6854 0.4042 0.3181 0.2425 0.2917 | lr 1.0e-03 | norm 11.3043 | dt 0.045 type train | step 130 | loss 1.2993 0.3324 0.2725 0.2098 0.2489 | lr 1.0e-03 | norm 4.2855 | dt 0.045 type train | step 140 | loss 0.7075 0.2673 0.2337 0.1807 0.2141 | lr 1.0e-03 | norm 1.1597 | dt 0.045 type train | step 150 | loss 0.4900 0.2296 0.2047 0.1598 0.1976 | lr 1.0e-03 | norm 0.3667 | dt 0.045 type train | step 160 | loss 0.4087 0.2062 0.1825 0.1439 0.1737 | lr 1.0e-03 | norm 0.2331 | dt 0.045 type train | step 170 | loss 0.3552 0.1858 0.1668 0.1318 0.1577 | lr 1.0e-03 | norm 0.1797 | dt 0.045 type train | step 180 | loss 0.3153 0.1717 0.1558 0.1246 0.1527 | lr 1.0e-03 | norm 0.1422 | dt 0.045 type train | step 190 | loss 0.2876 0.1590 0.1450 0.1172 0.1415 | lr 1.0e-03 | norm 0.1140 | dt 0.045 type train | step 200 | loss 0.2655 0.1506 0.1378 0.1117 0.1365 | lr 1.0e-03 | norm 0.0867 | dt 0.045 type train | step 210 | loss 0.2477 0.1404 0.1301 0.1058 0.1288 | lr 1.0e-03 | norm 0.0844 | dt 0.045 type train | step 220 | loss 0.2319 0.1331 0.1249 0.1020 0.1234 | lr 1.0e-03 | norm 0.0820 | dt 0.045 type train | step 230 | loss 0.2186 0.1264 0.1189 0.0976 0.1185 | lr 1.0e-03 | norm 0.0686 | dt 0.045 type train | step 240 | loss 0.2077 0.1198 0.1140 0.0944 0.1160 | lr 9.9e-04 | norm 0.0575 | dt 0.045 type train | step 250 | loss 0.1970 0.1145 0.1100 0.0915 0.1121 | lr 9.9e-04 | norm 0.0667 | dt 0.045 type train | step 260 | loss 0.1901 0.1123 0.1069 0.0900 0.1112 | lr 9.9e-04 | norm 0.0550 | dt 0.046 type train | step 270 | loss 0.1776 0.1044 0.1018 0.0863 0.1070 | lr 9.9e-04 | norm 0.0560 | dt 0.046 type train | step 280 | loss 0.1708 0.1013 0.0996 0.0849 0.1038 | lr 9.9e-04 | norm 0.0437 | dt 0.046 type train | step 290 | loss 0.1637 0.0980 0.0974 0.0837 0.1023 | lr 9.9e-04 | norm 0.0412 | dt 0.046 type train | step 300 | loss 0.1573 0.0948 0.0944 0.0809 0.0992 | lr 9.9e-04 | norm 0.0413 | dt 0.045 type train | step 310 | loss 0.1500 0.0908 0.0917 0.0795 0.0973 | lr 9.9e-04 | norm 0.0383 | dt 0.046 type train | step 320 | loss 0.1455 0.0880 0.0898 0.0781 0.0958 | lr 9.9e-04 | norm 0.0414 | dt 0.046 type train | step 330 | loss 0.1388 0.0852 0.0879 0.0769 0.0942 | lr 9.9e-04 | norm 0.0335 | dt 0.046 type train | step 340 | loss 0.1351 0.0837 0.0866 0.0760 0.0932 | lr 9.9e-04 | norm 0.0274 | dt 0.046 type train | step 350 | loss 0.1307 0.0814 0.0851 0.0752 0.0925 | lr 9.9e-04 | norm 0.0295 | dt 0.046 type train | step 360 | loss 0.1252 0.0784 0.0830 0.0735 0.0900 | lr 9.9e-04 | norm 0.0252 | dt 0.046 type train | step 370 | loss 0.1232 0.0772 0.0822 0.0730 0.0897 | lr 9.9e-04 | norm 0.0248 | dt 0.046 type train | step 380 | loss 0.1182 0.0750 0.0807 0.0720 0.0883 | lr 9.9e-04 | norm 0.0232 | dt 0.046 type train | step 390 | loss 0.1163 0.0741 0.0803 0.0718 0.0886 | lr 9.9e-04 | norm 0.0226 | dt 0.046 type train | step 400 | loss 0.1132 0.0726 0.0791 0.0710 0.0872 | lr 9.9e-04 | norm 0.0228 | dt 0.046 type train | step 410 | loss 0.1108 0.0717 0.0785 0.0705 0.0873 | lr 9.9e-04 | norm 0.0236 | dt 0.046 type train | step 420 | loss 0.1083 0.0702 0.0773 0.0698 0.0860 | lr 9.8e-04 | norm 0.0201 | dt 0.046 type train | step 430 | loss 0.1057 0.0690 0.0765 0.0691 0.0857 | lr 9.8e-04 | norm 0.0225 | dt 0.046 type train | step 440 | loss 0.1044 0.0685 0.0764 0.0692 0.0855 | lr 9.8e-04 | norm 0.0171 | dt 0.046 type train | step 450 | loss 0.1009 0.0668 0.0749 0.0680 0.0840 | lr 9.8e-04 | norm 0.0212 | dt 0.046 type train | step 460 | loss 0.1000 0.0662 0.0745 0.0679 0.0841 | lr 9.8e-04 | norm 0.0231 | dt 0.046 type train | step 470 | loss 0.1002 0.0664 0.0747 0.0681 0.0843 | lr 9.8e-04 | norm 0.0207 | dt 0.046 type train | step 480 | loss 0.0980 0.0652 0.0740 0.0675 0.0835 | lr 9.8e-04 | norm 0.0218 | dt 0.046 type train | step 490 | loss 0.0959 0.0640 0.0730 0.0671 0.0828 | lr 9.8e-04 | norm 0.0194 | dt 0.046 type train | step 500 | loss 0.0946 0.0634 0.0727 0.0666 0.0823 | lr 9.8e-04 | norm 0.0216 | dt 0.046 type train | step 510 | loss 0.0945 0.0633 0.0724 0.0663 0.0824 | lr 9.8e-04 | norm 0.0162 | dt 0.047 type train | step 520 | loss 0.0935 0.0626 0.0720 0.0663 0.0821 | lr 9.8e-04 | norm 0.0226 | dt 0.047 type train | step 530 | loss 0.0922 0.0621 0.0716 0.0661 0.0820 | lr 9.8e-04 | norm 0.0188 | dt 0.047 type train | step 540 | loss 0.0915 0.0616 0.0714 0.0658 0.0816 | lr 9.7e-04 | norm 0.0191 | dt 0.047 type train | step 550 | loss 0.0916 0.0614 0.0713 0.0659 0.0816 | lr 9.7e-04 | norm 0.0179 | dt 0.047 type train | step 560 | loss 0.0915 0.0613 0.0711 0.0656 0.0816 | lr 9.7e-04 | norm 0.0199 | dt 0.047 type train | step 570 | loss 0.0896 0.0604 0.0704 0.0652 0.0809 | lr 9.7e-04 | norm 0.0197 | dt 0.048 type train | step 580 | loss 0.0881 0.0595 0.0699 0.0645 0.0801 | lr 9.7e-04 | norm 0.0195 | dt 0.047 type train | step 590 | loss 0.0884 0.0595 0.0699 0.0647 0.0805 | lr 9.7e-04 | norm 0.0200 | dt 0.047 type train | step 600 | loss 0.0877 0.0590 0.0694 0.0643 0.0799 | lr 9.7e-04 | norm 0.0314 | dt 0.047 type train | step 610 | loss 0.0870 0.0587 0.0691 0.0648 0.0800 | lr 9.7e-04 | norm 0.0213 | dt 0.088 type train | step 620 | loss 0.0873 0.0589 0.0698 0.0648 0.0810 | lr 9.7e-04 | norm 0.0287 | dt 0.048 type train | step 630 | loss 0.0860 0.0583 0.0691 0.0644 0.0803 | lr 9.7e-04 | norm 0.0197 | dt 0.047 type train | step 640 | loss 0.0863 0.0579 0.0689 0.0642 0.0797 | lr 9.6e-04 | norm 0.0192 | dt 0.047 type train | step 650 | loss 0.0849 0.0575 0.0685 0.0638 0.0792 | lr 9.6e-04 | norm 0.0196 | dt 0.047 type train | step 660 | loss 0.0851 0.0576 0.0686 0.0639 0.0794 | lr 9.6e-04 | norm 0.0173 | dt 0.048 type train | step 670 | loss 0.0842 0.0568 0.0682 0.0634 0.0790 | lr 9.6e-04 | norm 0.0189 | dt 0.048 type train | step 680 | loss 0.0843 0.0571 0.0683 0.0640 0.0795 | lr 9.6e-04 | norm 0.0171 | dt 0.047 type train | step 690 | loss 0.0844 0.0568 0.0680 0.0635 0.0793 | lr 9.6e-04 | norm 0.0177 | dt 0.047 type train | step 700 | loss 0.0835 0.0564 0.0679 0.0633 0.0788 | lr 9.6e-04 | norm 0.0232 | dt 0.047 type train | step 710 | loss 0.0832 0.0563 0.0678 0.0634 0.0787 | lr 9.6e-04 | norm 0.0233 | dt 0.048 type train | step 720 | loss 0.0830 0.0563 0.0680 0.0636 0.0793 | lr 9.5e-04 | norm 0.0232 | dt 0.047 type train | step 730 | loss 0.0828 0.0561 0.0679 0.0635 0.0793 | lr 9.5e-04 | norm 0.0261 | dt 0.047 type train | step 740 | loss 0.0828 0.0560 0.0677 0.0633 0.0788 | lr 9.5e-04 | norm 0.0210 | dt 0.046 type train | step 750 | loss 0.0822 0.0556 0.0674 0.0631 0.0784 | lr 9.5e-04 | norm 0.0172 | dt 0.048 type train | step 760 | loss 0.0811 0.0550 0.0668 0.0627 0.0782 | lr 9.5e-04 | norm 0.0196 | dt 0.049 type train | step 770 | loss 0.0816 0.0552 0.0670 0.0628 0.0782 | lr 9.5e-04 | norm 0.0246 | dt 0.047 type train | step 780 | loss 0.0805 0.0547 0.0666 0.0624 0.0775 | lr 9.5e-04 | norm 0.0239 | dt 0.048 type train | step 790 | loss 0.0804 0.0546 0.0665 0.0622 0.0774 | lr 9.5e-04 | norm 0.0200 | dt 0.047 type train | step 800 | loss 0.0801 0.0546 0.0667 0.0626 0.0781 | lr 9.4e-04 | norm 0.0206 | dt 0.047 type train | step 810 | loss 0.0807 0.0549 0.0668 0.0626 0.0782 | lr 9.4e-04 | norm 0.0161 | dt 0.047 type train | step 820 | loss 0.0804 0.0546 0.0666 0.0624 0.0777 | lr 9.4e-04 | norm 0.0185 | dt 0.047 type train | step 830 | loss 0.0798 0.0543 0.0666 0.0624 0.0778 | lr 9.4e-04 | norm 0.0233 | dt 0.048 type train | step 840 | loss 0.0799 0.0542 0.0662 0.0622 0.0773 | lr 9.4e-04 | norm 0.0192 | dt 0.047 type train | step 850 | loss 0.0799 0.0541 0.0662 0.0621 0.0775 | lr 9.4e-04 | norm 0.0192 | dt 0.047 type train | step 860 | loss 0.0796 0.0541 0.0663 0.0623 0.0778 | lr 9.4e-04 | norm 0.0200 | dt 0.047 type train | step 870 | loss 0.0811 0.0548 0.0670 0.0630 0.0782 | lr 9.3e-04 | norm 0.0267 | dt 0.048 type train | step 880 | loss 0.0784 0.0533 0.0656 0.0619 0.0774 | lr 9.3e-04 | norm 0.0268 | dt 0.047 type train | step 890 | loss 0.0791 0.0536 0.0662 0.0622 0.0777 | lr 9.3e-04 | norm 0.0190 | dt 0.047 type train | step 900 | loss 0.0796 0.0540 0.0665 0.0627 0.0779 | lr 9.3e-04 | norm 0.0255 | dt 0.047 type train | step 910 | loss 0.0789 0.0536 0.0660 0.0619 0.0774 | lr 9.3e-04 | norm 0.0225 | dt 0.048 type train | step 920 | loss 0.0787 0.0535 0.0658 0.0620 0.0771 | lr 9.3e-04 | norm 0.0234 | dt 0.047 type train | step 930 | loss 0.0789 0.0535 0.0658 0.0620 0.0771 | lr 9.3e-04 | norm 0.0299 | dt 0.047 type train | step 940 | loss 0.0782 0.0533 0.0656 0.0618 0.0771 | lr 9.2e-04 | norm 0.0229 | dt 0.047 type train | step 950 | loss 0.0787 0.0535 0.0659 0.0620 0.0774 | lr 9.2e-04 | norm 0.0197 | dt 0.048 type train | step 960 | loss 0.0786 0.0533 0.0659 0.0622 0.0776 | lr 9.2e-04 | norm 0.0249 | dt 0.048 type train | step 970 | loss 0.0776 0.0528 0.0652 0.0616 0.0764 | lr 9.2e-04 | norm 0.0181 | dt 0.048 type train | step 980 | loss 0.0781 0.0530 0.0655 0.0616 0.0768 | lr 9.2e-04 | norm 0.0175 | dt 0.049 type train | step 990 | loss 0.0772 0.0524 0.0650 0.0614 0.0763 | lr 9.2e-04 | norm 0.0193 | dt 0.048 type train | step 1000 | loss 0.0778 0.0529 0.0656 0.0619 0.0773 | lr 9.1e-04 | norm 0.0263 | dt 0.047 type train | step 1010 | loss 0.0774 0.0526 0.0654 0.0617 0.0765 | lr 9.1e-04 | norm 0.0238 | dt 0.049 type train | step 1020 | loss 0.0777 0.0529 0.0655 0.0618 0.0773 | lr 9.1e-04 | norm 0.0230 | dt 0.047 type train | step 1030 | loss 0.0773 0.0525 0.0651 0.0616 0.0766 | lr 9.1e-04 | norm 0.0201 | dt 0.048 type train | step 1040 | loss 0.0771 0.0523 0.0650 0.0614 0.0768 | lr 9.1e-04 | norm 0.0226 | dt 0.049 type train | step 1050 | loss 0.0774 0.0525 0.0655 0.0618 0.0771 | lr 9.1e-04 | norm 0.0163 | dt 0.049 type train | step 1060 | loss 0.0758 0.0519 0.0646 0.0611 0.0761 | lr 9.0e-04 | norm 0.0206 | dt 0.048 type train | step 1070 | loss 0.0763 0.0520 0.0648 0.0613 0.0766 | lr 9.0e-04 | norm 0.0250 | dt 0.048 type train | step 1080 | loss 0.0777 0.0528 0.0655 0.0619 0.0772 | lr 9.0e-04 | norm 0.0213 | dt 0.048 type train | step 1090 | loss 0.0770 0.0523 0.0653 0.0615 0.0768 | lr 9.0e-04 | norm 0.0212 | dt 0.047 type train | step 1100 | loss 0.0760 0.0518 0.0648 0.0613 0.0763 | lr 9.0e-04 | norm 0.0229 | dt 0.047 type train | step 1110 | loss 0.0760 0.0518 0.0647 0.0612 0.0761 | lr 8.9e-04 | norm 0.0230 | dt 0.047 type train | step 1120 | loss 0.0766 0.0522 0.0650 0.0613 0.0765 | lr 8.9e-04 | norm 0.0201 | dt 0.047 type train | step 1130 | loss 0.0765 0.0520 0.0649 0.0614 0.0765 | lr 8.9e-04 | norm 0.0231 | dt 0.049 type train | step 1140 | loss 0.0763 0.0520 0.0649 0.0615 0.0767 | lr 8.9e-04 | norm 0.0183 | dt 0.047 type train | step 1150 | loss 0.0760 0.0518 0.0649 0.0613 0.0764 | lr 8.9e-04 | norm 0.0217 | dt 0.047 type train | step 1160 | loss 0.0770 0.0521 0.0651 0.0617 0.0766 | lr 8.9e-04 | norm 0.0199 | dt 0.047 type train | step 1170 | loss 0.0772 0.0522 0.0650 0.0614 0.0769 | lr 8.8e-04 | norm 0.0191 | dt 0.047 type train | step 1180 | loss 0.0765 0.0519 0.0648 0.0613 0.0763 | lr 8.8e-04 | norm 0.0223 | dt 0.049 type train | step 1190 | loss 0.0754 0.0513 0.0643 0.0607 0.0757 | lr 8.8e-04 | norm 0.0212 | dt 0.049 type train | step 1200 | loss 0.0759 0.0516 0.0646 0.0611 0.0763 | lr 8.8e-04 | norm 0.0225 | dt 0.047 type train | step 1210 | loss 0.0759 0.0515 0.0644 0.0608 0.0760 | lr 8.8e-04 | norm 0.0346 | dt 0.048 type train | step 1220 | loss 0.0756 0.0514 0.0642 0.0613 0.0761 | lr 8.7e-04 | norm 0.0216 | dt 0.088 type train | step 1230 | loss 0.0763 0.0518 0.0650 0.0615 0.0772 | lr 8.7e-04 | norm 0.0297 | dt 0.048 type train | step 1240 | loss 0.0756 0.0516 0.0646 0.0613 0.0767 | lr 8.7e-04 | norm 0.0194 | dt 0.047 type train | step 1250 | loss 0.0762 0.0514 0.0646 0.0611 0.0762 | lr 8.7e-04 | norm 0.0194 | dt 0.047 type train | step 1260 | loss 0.0752 0.0512 0.0641 0.0608 0.0758 | lr 8.7e-04 | norm 0.0202 | dt 0.047 type train | step 1270 | loss 0.0757 0.0515 0.0646 0.0610 0.0762 | lr 8.6e-04 | norm 0.0165 | dt 0.047 type train | step 1280 | loss 0.0751 0.0509 0.0642 0.0606 0.0759 | lr 8.6e-04 | norm 0.0208 | dt 0.048 type train | step 1290 | loss 0.0756 0.0513 0.0645 0.0613 0.0764 | lr 8.6e-04 | norm 0.0224 | dt 0.048 type train | step 1300 | loss 0.0758 0.0512 0.0643 0.0608 0.0763 | lr 8.6e-04 | norm 0.0191 | dt 0.050 type train | step 1310 | loss 0.0752 0.0511 0.0642 0.0608 0.0760 | lr 8.6e-04 | norm 0.0260 | dt 0.050 type train | step 1320 | loss 0.0753 0.0511 0.0643 0.0609 0.0759 | lr 8.5e-04 | norm 0.0237 | dt 0.050 type train | step 1330 | loss 0.0755 0.0513 0.0646 0.0613 0.0766 | lr 8.5e-04 | norm 0.0241 | dt 0.048 type train | step 1340 | loss 0.0754 0.0512 0.0646 0.0612 0.0767 | lr 8.5e-04 | norm 0.0258 | dt 0.047 type train | step 1350 | loss 0.0756 0.0513 0.0644 0.0611 0.0763 | lr 8.5e-04 | norm 0.0206 | dt 0.047 type train | step 1360 | loss 0.0753 0.0511 0.0643 0.0609 0.0760 | lr 8.5e-04 | norm 0.0207 | dt 0.048 type train | step 1370 | loss 0.0743 0.0506 0.0637 0.0605 0.0758 | lr 8.4e-04 | norm 0.0198 | dt 0.047 type train | step 1380 | loss 0.0749 0.0509 0.0641 0.0607 0.0759 | lr 8.4e-04 | norm 0.0231 | dt 0.050 type train | step 1390 | loss 0.0741 0.0505 0.0638 0.0603 0.0753 | lr 8.4e-04 | norm 0.0244 | dt 0.048 type train | step 1400 | loss 0.0742 0.0506 0.0637 0.0603 0.0752 | lr 8.4e-04 | norm 0.0227 | dt 0.048 type train | step 1410 | loss 0.0743 0.0507 0.0640 0.0608 0.0761 | lr 8.3e-04 | norm 0.0214 | dt 0.048 type train | step 1420 | loss 0.0748 0.0510 0.0642 0.0607 0.0761 | lr 8.3e-04 | norm 0.0184 | dt 0.048 type train | step 1430 | loss 0.0747 0.0508 0.0640 0.0606 0.0757 | lr 8.3e-04 | norm 0.0189 | dt 0.049 type train | step 1440 | loss 0.0742 0.0506 0.0639 0.0605 0.0758 | lr 8.3e-04 | norm 0.0235 | dt 0.048 type train | step 1450 | loss 0.0745 0.0506 0.0638 0.0605 0.0754 | lr 8.3e-04 | norm 0.0226 | dt 0.050 type train | step 1460 | loss 0.0746 0.0505 0.0638 0.0604 0.0757 | lr 8.2e-04 | norm 0.0209 | dt 0.048 type train | step 1470 | loss 0.0745 0.0506 0.0639 0.0607 0.0759 | lr 8.2e-04 | norm 0.0223 | dt 0.048 type train | step 1480 | loss 0.0760 0.0513 0.0646 0.0613 0.0765 | lr 8.2e-04 | norm 0.0277 | dt 0.048 type train | step 1490 | loss 0.0736 0.0502 0.0635 0.0603 0.0757 | lr 8.2e-04 | norm 0.0257 | dt 0.049 type train | step 1500 | loss 0.0742 0.0505 0.0640 0.0607 0.0760 | lr 8.1e-04 | norm 0.0206 | dt 0.048 type train | step 1510 | loss 0.0750 0.0509 0.0644 0.0611 0.0763 | lr 8.1e-04 | norm 0.0280 | dt 0.050 type train | step 1520 | loss 0.0744 0.0505 0.0639 0.0605 0.0758 | lr 8.1e-04 | norm 0.0244 | dt 0.050 type train | step 1530 | loss 0.0741 0.0505 0.0638 0.0605 0.0755 | lr 8.1e-04 | norm 0.0236 | dt 0.047 type train | step 1540 | loss 0.0745 0.0506 0.0638 0.0605 0.0756 | lr 8.1e-04 | norm 0.0325 | dt 0.047 type train | step 1550 | loss 0.0740 0.0505 0.0637 0.0604 0.0756 | lr 8.0e-04 | norm 0.0252 | dt 0.047 type train | step 1560 | loss 0.0745 0.0506 0.0640 0.0606 0.0759 | lr 8.0e-04 | norm 0.0185 | dt 0.048 type train | step 1570 | loss 0.0745 0.0506 0.0639 0.0608 0.0761 | lr 8.0e-04 | norm 0.0249 | dt 0.047 type train | step 1580 | loss 0.0736 0.0501 0.0634 0.0603 0.0751 | lr 8.0e-04 | norm 0.0204 | dt 0.050 type train | step 1590 | loss 0.0742 0.0504 0.0637 0.0603 0.0754 | lr 7.9e-04 | norm 0.0190 | dt 0.049 type train | step 1600 | loss 0.0734 0.0499 0.0632 0.0602 0.0750 | lr 7.9e-04 | norm 0.0202 | dt 0.047 type train | step 1610 | loss 0.0740 0.0504 0.0638 0.0607 0.0760 | lr 7.9e-04 | norm 0.0296 | dt 0.047 type train | step 1620 | loss 0.0737 0.0501 0.0636 0.0605 0.0753 | lr 7.9e-04 | norm 0.0278 | dt 0.048 type train | step 1630 | loss 0.0741 0.0504 0.0638 0.0606 0.0760 | lr 7.8e-04 | norm 0.0251 | dt 0.048 type train | step 1640 | loss 0.0737 0.0502 0.0635 0.0604 0.0753 | lr 7.8e-04 | norm 0.0202 | dt 0.049 type train | step 1650 | loss 0.0737 0.0500 0.0634 0.0602 0.0756 | lr 7.8e-04 | norm 0.0207 | dt 0.051 type train | step 1660 | loss 0.0740 0.0503 0.0639 0.0607 0.0759 | lr 7.8e-04 | norm 0.0176 | dt 0.051 type train | step 1670 | loss 0.0725 0.0497 0.0631 0.0600 0.0749 | lr 7.7e-04 | norm 0.0202 | dt 0.050 type train | step 1680 | loss 0.0730 0.0499 0.0632 0.0602 0.0755 | lr 7.7e-04 | norm 0.0256 | dt 0.050 type train | step 1690 | loss 0.0744 0.0506 0.0640 0.0609 0.0761 | lr 7.7e-04 | norm 0.0219 | dt 0.050 type train | step 1700 | loss 0.0738 0.0503 0.0639 0.0605 0.0757 | lr 7.7e-04 | norm 0.0225 | dt 0.047 type train | step 1710 | loss 0.0729 0.0498 0.0633 0.0602 0.0752 | lr 7.6e-04 | norm 0.0246 | dt 0.047 type train | step 1720 | loss 0.0731 0.0498 0.0633 0.0602 0.0751 | lr 7.6e-04 | norm 0.0220 | dt 0.047 type train | step 1730 | loss 0.0736 0.0502 0.0636 0.0602 0.0755 | lr 7.6e-04 | norm 0.0227 | dt 0.049 type train | step 1740 | loss 0.0735 0.0500 0.0636 0.0604 0.0755 | lr 7.6e-04 | norm 0.0237 | dt 0.049 type train | step 1750 | loss 0.0735 0.0501 0.0635 0.0605 0.0757 | lr 7.5e-04 | norm 0.0202 | dt 0.047 type train | step 1760 | loss 0.0732 0.0500 0.0635 0.0603 0.0754 | lr 7.5e-04 | norm 0.0214 | dt 0.049 type train | step 1770 | loss 0.0742 0.0503 0.0638 0.0607 0.0757 | lr 7.5e-04 | norm 0.0215 | dt 0.050 type train | step 1780 | loss 0.0744 0.0505 0.0637 0.0605 0.0759 | lr 7.5e-04 | norm 0.0238 | dt 0.047 type train | step 1790 | loss 0.0739 0.0501 0.0635 0.0604 0.0754 | lr 7.4e-04 | norm 0.0225 | dt 0.048 type train | step 1800 | loss 0.0728 0.0496 0.0631 0.0597 0.0747 | lr 7.4e-04 | norm 0.0221 | dt 0.047 type train | step 1810 | loss 0.0734 0.0499 0.0634 0.0602 0.0754 | lr 7.4e-04 | norm 0.0245 | dt 0.048 type train | step 1820 | loss 0.0733 0.0499 0.0632 0.0599 0.0751 | lr 7.4e-04 | norm 0.0338 | dt 0.047 type train | step 1830 | loss 0.0731 0.0498 0.0630 0.0604 0.0753 | lr 7.3e-04 | norm 0.0252 | dt 0.089 type train | step 1840 | loss 0.0739 0.0502 0.0638 0.0606 0.0763 | lr 7.3e-04 | norm 0.0270 | dt 0.047 type train | step 1850 | loss 0.0732 0.0500 0.0635 0.0604 0.0759 | lr 7.3e-04 | norm 0.0230 | dt 0.048 type train | step 1860 | loss 0.0738 0.0499 0.0635 0.0603 0.0754 | lr 7.3e-04 | norm 0.0196 | dt 0.047 type train | step 1870 | loss 0.0729 0.0497 0.0630 0.0600 0.0750 | lr 7.2e-04 | norm 0.0199 | dt 0.051 type train | step 1880 | loss 0.0735 0.0499 0.0635 0.0602 0.0754 | lr 7.2e-04 | norm 0.0197 | dt 0.048 type train | step 1890 | loss 0.0729 0.0495 0.0631 0.0598 0.0751 | lr 7.2e-04 | norm 0.0214 | dt 0.047 type train | step 1900 | loss 0.0734 0.0498 0.0634 0.0605 0.0757 | lr 7.2e-04 | norm 0.0218 | dt 0.048 type train | step 1910 | loss 0.0736 0.0498 0.0632 0.0601 0.0756 | lr 7.1e-04 | norm 0.0202 | dt 0.048 type train | step 1920 | loss 0.0731 0.0497 0.0632 0.0600 0.0752 | lr 7.1e-04 | norm 0.0277 | dt 0.051 type train | step 1930 | loss 0.0732 0.0498 0.0633 0.0601 0.0752 | lr 7.1e-04 | norm 0.0266 | dt 0.049 type train | step 1940 | loss 0.0735 0.0499 0.0637 0.0605 0.0759 | lr 7.1e-04 | norm 0.0221 | dt 0.048 type train | step 1950 | loss 0.0734 0.0498 0.0636 0.0605 0.0760 | lr 7.0e-04 | norm 0.0260 | dt 0.047 type train | step 1960 | loss 0.0736 0.0500 0.0635 0.0604 0.0756 | lr 7.0e-04 | norm 0.0218 | dt 0.049 type train | step 1970 | loss 0.0733 0.0498 0.0634 0.0602 0.0754 | lr 7.0e-04 | norm 0.0243 | dt 0.048 type train | step 1980 | loss 0.0724 0.0493 0.0628 0.0598 0.0751 | lr 6.9e-04 | norm 0.0201 | dt 0.048 type train | step 1990 | loss 0.0731 0.0496 0.0632 0.0601 0.0752 | lr 6.9e-04 | norm 0.0215 | dt 0.048 type train | step 2000 | loss 0.0723 0.0493 0.0628 0.0597 0.0746 | lr 6.9e-04 | norm 0.0252 | dt 0.048 type train | step 2010 | loss 0.0725 0.0493 0.0628 0.0596 0.0746 | lr 6.9e-04 | norm 0.0213 | dt 0.050 type train | step 2020 | loss 0.0726 0.0495 0.0631 0.0601 0.0754 | lr 6.8e-04 | norm 0.0220 | dt 0.050 type train | step 2030 | loss 0.0730 0.0497 0.0633 0.0601 0.0755 | lr 6.8e-04 | norm 0.0181 | dt 0.047 type train | step 2040 | loss 0.0729 0.0496 0.0632 0.0600 0.0751 | lr 6.8e-04 | norm 0.0171 | dt 0.048 type train | step 2050 | loss 0.0725 0.0494 0.0631 0.0599 0.0752 | lr 6.8e-04 | norm 0.0264 | dt 0.048 type train | step 2060 | loss 0.0728 0.0494 0.0630 0.0598 0.0748 | lr 6.7e-04 | norm 0.0205 | dt 0.050 type train | step 2070 | loss 0.0729 0.0494 0.0630 0.0597 0.0751 | lr 6.7e-04 | norm 0.0194 | dt 0.049 type train | step 2080 | loss 0.0728 0.0495 0.0631 0.0600 0.0754 | lr 6.7e-04 | norm 0.0232 | dt 0.050 type train | step 2090 | loss 0.0744 0.0502 0.0638 0.0607 0.0759 | lr 6.6e-04 | norm 0.0275 | dt 0.050 type train | step 2100 | loss 0.0720 0.0491 0.0627 0.0597 0.0751 | lr 6.6e-04 | norm 0.0236 | dt 0.047 type train | step 2110 | loss 0.0727 0.0494 0.0632 0.0601 0.0754 | lr 6.6e-04 | norm 0.0220 | dt 0.049 type train | step 2120 | loss 0.0734 0.0498 0.0636 0.0605 0.0757 | lr 6.6e-04 | norm 0.0296 | dt 0.048 type train | step 2130 | loss 0.0729 0.0495 0.0631 0.0599 0.0752 | lr 6.5e-04 | norm 0.0267 | dt 0.049 type train | step 2140 | loss 0.0727 0.0495 0.0631 0.0600 0.0750 | lr 6.5e-04 | norm 0.0251 | dt 0.047 type train | step 2150 | loss 0.0730 0.0495 0.0631 0.0600 0.0751 | lr 6.5e-04 | norm 0.0325 | dt 0.047 type train | step 2160 | loss 0.0725 0.0494 0.0629 0.0599 0.0750 | lr 6.5e-04 | norm 0.0209 | dt 0.050 type train | step 2170 | loss 0.0731 0.0496 0.0633 0.0601 0.0754 | lr 6.4e-04 | norm 0.0196 | dt 0.049 type train | step 2180 | loss 0.0731 0.0496 0.0632 0.0603 0.0756 | lr 6.4e-04 | norm 0.0258 | dt 0.051 type train | step 2190 | loss 0.0723 0.0492 0.0627 0.0597 0.0746 | lr 6.4e-04 | norm 0.0188 | dt 0.050 type train | step 2200 | loss 0.0728 0.0494 0.0630 0.0598 0.0749 | lr 6.3e-04 | norm 0.0200 | dt 0.047 type train | step 2210 | loss 0.0721 0.0489 0.0626 0.0597 0.0745 | lr 6.3e-04 | norm 0.0195 | dt 0.048 type train | step 2220 | loss 0.0727 0.0494 0.0631 0.0601 0.0755 | lr 6.3e-04 | norm 0.0235 | dt 0.048 type train | step 2230 | loss 0.0723 0.0492 0.0629 0.0600 0.0748 | lr 6.3e-04 | norm 0.0265 | dt 0.050 type train | step 2240 | loss 0.0729 0.0495 0.0632 0.0601 0.0755 | lr 6.2e-04 | norm 0.0236 | dt 0.047 type train | step 2250 | loss 0.0725 0.0492 0.0629 0.0599 0.0749 | lr 6.2e-04 | norm 0.0185 | dt 0.047 type train | step 2260 | loss 0.0724 0.0491 0.0628 0.0598 0.0751 | lr 6.2e-04 | norm 0.0248 | dt 0.047 type train | step 2270 | loss 0.0727 0.0494 0.0633 0.0602 0.0755 | lr 6.1e-04 | norm 0.0177 | dt 0.047 type train | step 2280 | loss 0.0712 0.0488 0.0625 0.0595 0.0744 | lr 6.1e-04 | norm 0.0211 | dt 0.047 type train | step 2290 | loss 0.0718 0.0490 0.0626 0.0597 0.0750 | lr 6.1e-04 | norm 0.0239 | dt 0.051 type train | step 2300 | loss 0.0732 0.0498 0.0634 0.0604 0.0757 | lr 6.1e-04 | norm 0.0275 | dt 0.048 type train | step 2310 | loss 0.0726 0.0494 0.0633 0.0600 0.0753 | lr 6.0e-04 | norm 0.0227 | dt 0.048 type train | step 2320 | loss 0.0718 0.0490 0.0627 0.0598 0.0747 | lr 6.0e-04 | norm 0.0225 | dt 0.047 type train | step 2330 | loss 0.0720 0.0490 0.0628 0.0597 0.0747 | lr 6.0e-04 | norm 0.0201 | dt 0.049 type train | step 2340 | loss 0.0725 0.0494 0.0630 0.0598 0.0750 | lr 6.0e-04 | norm 0.0178 | dt 0.049 type train | step 2350 | loss 0.0725 0.0492 0.0631 0.0599 0.0751 | lr 5.9e-04 | norm 0.0262 | dt 0.050 type train | step 2360 | loss 0.0724 0.0493 0.0630 0.0601 0.0752 | lr 5.9e-04 | norm 0.0200 | dt 0.047 type train | step 2370 | loss 0.0721 0.0491 0.0630 0.0599 0.0751 | lr 5.9e-04 | norm 0.0177 | dt 0.048 type train | step 2380 | loss 0.0732 0.0495 0.0633 0.0603 0.0753 | lr 5.8e-04 | norm 0.0188 | dt 0.047 type train | step 2390 | loss 0.0732 0.0497 0.0632 0.0601 0.0755 | lr 5.8e-04 | norm 0.0228 | dt 0.047 type train | step 2400 | loss 0.0729 0.0493 0.0630 0.0600 0.0750 | lr 5.8e-04 | norm 0.0239 | dt 0.048 type train | step 2410 | loss 0.0718 0.0489 0.0626 0.0593 0.0743 | lr 5.8e-04 | norm 0.0200 | dt 0.050 type train | step 2420 | loss 0.0723 0.0491 0.0628 0.0598 0.0750 | lr 5.7e-04 | norm 0.0230 | dt 0.051 type train | step 2430 | loss 0.0723 0.0492 0.0627 0.0595 0.0748 | lr 5.7e-04 | norm 0.0342 | dt 0.050 type train | step 2440 | loss 0.0721 0.0490 0.0625 0.0600 0.0749 | lr 5.7e-04 | norm 0.0248 | dt 0.089 type train | step 2450 | loss 0.0729 0.0494 0.0633 0.0602 0.0760 | lr 5.6e-04 | norm 0.0251 | dt 0.050 type train | step 2460 | loss 0.0722 0.0493 0.0630 0.0601 0.0755 | lr 5.6e-04 | norm 0.0281 | dt 0.048 type train | step 2470 | loss 0.0728 0.0492 0.0630 0.0599 0.0750 | lr 5.6e-04 | norm 0.0182 | dt 0.048 type train | step 2480 | loss 0.0719 0.0490 0.0625 0.0596 0.0746 | lr 5.6e-04 | norm 0.0184 | dt 0.048 type train | step 2490 | loss 0.0726 0.0493 0.0630 0.0598 0.0750 | lr 5.5e-04 | norm 0.0189 | dt 0.048 type train | step 2500 | loss 0.0720 0.0488 0.0626 0.0595 0.0747 | lr 5.5e-04 | norm 0.0228 | dt 0.052 type train | step 2510 | loss 0.0724 0.0492 0.0629 0.0602 0.0753 | lr 5.5e-04 | norm 0.0232 | dt 0.050 type train | step 2520 | loss 0.0726 0.0492 0.0627 0.0597 0.0752 | lr 5.4e-04 | norm 0.0190 | dt 0.048 type train | step 2530 | loss 0.0721 0.0491 0.0627 0.0597 0.0749 | lr 5.4e-04 | norm 0.0240 | dt 0.047 type train | step 2540 | loss 0.0723 0.0491 0.0628 0.0598 0.0749 | lr 5.4e-04 | norm 0.0233 | dt 0.048 type train | step 2550 | loss 0.0727 0.0493 0.0632 0.0602 0.0755 | lr 5.4e-04 | norm 0.0216 | dt 0.047 type train | step 2560 | loss 0.0725 0.0492 0.0631 0.0601 0.0756 | lr 5.3e-04 | norm 0.0287 | dt 0.048 type train | step 2570 | loss 0.0728 0.0493 0.0630 0.0600 0.0753 | lr 5.3e-04 | norm 0.0223 | dt 0.049 type train | step 2580 | loss 0.0724 0.0492 0.0629 0.0599 0.0751 | lr 5.3e-04 | norm 0.0209 | dt 0.050 type train | step 2590 | loss 0.0715 0.0487 0.0624 0.0595 0.0748 | lr 5.2e-04 | norm 0.0195 | dt 0.051 type train | step 2600 | loss 0.0722 0.0490 0.0627 0.0598 0.0749 | lr 5.2e-04 | norm 0.0208 | dt 0.051 type train | step 2610 | loss 0.0715 0.0487 0.0624 0.0593 0.0743 | lr 5.2e-04 | norm 0.0228 | dt 0.048 type train | step 2620 | loss 0.0717 0.0488 0.0624 0.0593 0.0743 | lr 5.2e-04 | norm 0.0204 | dt 0.047 type train | step 2630 | loss 0.0718 0.0489 0.0627 0.0598 0.0751 | lr 5.1e-04 | norm 0.0194 | dt 0.048 type train | step 2640 | loss 0.0722 0.0491 0.0628 0.0598 0.0752 | lr 5.1e-04 | norm 0.0177 | dt 0.048 type train | step 2650 | loss 0.0721 0.0490 0.0628 0.0597 0.0748 | lr 5.1e-04 | norm 0.0190 | dt 0.052 type train | step 2660 | loss 0.0717 0.0489 0.0627 0.0596 0.0749 | lr 5.0e-04 | norm 0.0264 | dt 0.050 type train | step 2670 | loss 0.0719 0.0489 0.0626 0.0596 0.0745 | lr 5.0e-04 | norm 0.0183 | dt 0.048 type train | step 2680 | loss 0.0720 0.0489 0.0626 0.0594 0.0748 | lr 5.0e-04 | norm 0.0176 | dt 0.047 type train | step 2690 | loss 0.0720 0.0489 0.0627 0.0598 0.0751 | lr 5.0e-04 | norm 0.0259 | dt 0.047 type train | step 2700 | loss 0.0736 0.0496 0.0634 0.0605 0.0756 | lr 4.9e-04 | norm 0.0257 | dt 0.048 type train | step 2710 | loss 0.0713 0.0486 0.0623 0.0595 0.0749 | lr 4.9e-04 | norm 0.0253 | dt 0.047 type train | step 2720 | loss 0.0720 0.0489 0.0628 0.0598 0.0751 | lr 4.9e-04 | norm 0.0189 | dt 0.048 type train | step 2730 | loss 0.0727 0.0493 0.0633 0.0602 0.0755 | lr 4.9e-04 | norm 0.0259 | dt 0.048 type train | step 2740 | loss 0.0722 0.0490 0.0627 0.0597 0.0750 | lr 4.8e-04 | norm 0.0261 | dt 0.048 type train | step 2750 | loss 0.0719 0.0490 0.0627 0.0597 0.0747 | lr 4.8e-04 | norm 0.0247 | dt 0.048 type train | step 2760 | loss 0.0723 0.0490 0.0627 0.0597 0.0748 | lr 4.8e-04 | norm 0.0278 | dt 0.050 type train | step 2770 | loss 0.0718 0.0489 0.0626 0.0596 0.0747 | lr 4.7e-04 | norm 0.0209 | dt 0.050 type train | step 2780 | loss 0.0724 0.0491 0.0630 0.0598 0.0752 | lr 4.7e-04 | norm 0.0201 | dt 0.048 type train | step 2790 | loss 0.0724 0.0491 0.0629 0.0600 0.0753 | lr 4.7e-04 | norm 0.0272 | dt 0.047 type train | step 2800 | loss 0.0716 0.0487 0.0623 0.0595 0.0743 | lr 4.7e-04 | norm 0.0201 | dt 0.048 type train | step 2810 | loss 0.0721 0.0490 0.0626 0.0595 0.0747 | lr 4.6e-04 | norm 0.0198 | dt 0.048 type train | step 2820 | loss 0.0715 0.0485 0.0622 0.0594 0.0742 | lr 4.6e-04 | norm 0.0164 | dt 0.049 type train | step 2830 | loss 0.0721 0.0490 0.0628 0.0599 0.0752 | lr 4.6e-04 | norm 0.0231 | dt 0.049 type train | step 2840 | loss 0.0717 0.0487 0.0626 0.0597 0.0745 | lr 4.5e-04 | norm 0.0215 | dt 0.050 type train | step 2850 | loss 0.0722 0.0490 0.0629 0.0599 0.0753 | lr 4.5e-04 | norm 0.0199 | dt 0.047 type train | step 2860 | loss 0.0718 0.0488 0.0626 0.0597 0.0746 | lr 4.5e-04 | norm 0.0166 | dt 0.047 type train | step 2870 | loss 0.0718 0.0487 0.0624 0.0595 0.0749 | lr 4.5e-04 | norm 0.0261 | dt 0.047 type train | step 2880 | loss 0.0721 0.0489 0.0629 0.0600 0.0753 | lr 4.4e-04 | norm 0.0163 | dt 0.048 type train | step 2890 | loss 0.0706 0.0484 0.0622 0.0593 0.0742 | lr 4.4e-04 | norm 0.0192 | dt 0.048 type train | step 2900 | loss 0.0712 0.0486 0.0623 0.0595 0.0748 | lr 4.4e-04 | norm 0.0238 | dt 0.050 type train | step 2910 | loss 0.0725 0.0494 0.0631 0.0602 0.0755 | lr 4.4e-04 | norm 0.0238 | dt 0.050 type train | step 2920 | loss 0.0720 0.0490 0.0630 0.0598 0.0750 | lr 4.3e-04 | norm 0.0208 | dt 0.050 type train | step 2930 | loss 0.0712 0.0485 0.0624 0.0595 0.0744 | lr 4.3e-04 | norm 0.0209 | dt 0.048 type train | step 2940 | loss 0.0714 0.0486 0.0624 0.0595 0.0744 | lr 4.3e-04 | norm 0.0199 | dt 0.048 type train | step 2950 | loss 0.0720 0.0490 0.0627 0.0596 0.0748 | lr 4.2e-04 | norm 0.0177 | dt 0.047 type train | step 2960 | loss 0.0719 0.0488 0.0627 0.0597 0.0749 | lr 4.2e-04 | norm 0.0212 | dt 0.047 type train | step 2970 | loss 0.0718 0.0489 0.0626 0.0599 0.0750 | lr 4.2e-04 | norm 0.0212 | dt 0.048 type train | step 2980 | loss 0.0715 0.0487 0.0627 0.0597 0.0748 | lr 4.2e-04 | norm 0.0188 | dt 0.048 type train | step 2990 | loss 0.0726 0.0491 0.0630 0.0601 0.0751 | lr 4.1e-04 | norm 0.0162 | dt 0.052 type train | step 3000 | loss 0.0727 0.0493 0.0629 0.0599 0.0753 | lr 4.1e-04 | norm 0.0210 | dt 0.050 type train | step 3010 | loss 0.0724 0.0490 0.0627 0.0598 0.0748 | lr 4.1e-04 | norm 0.0172 | dt 0.047 type train | step 3020 | loss 0.0713 0.0485 0.0623 0.0591 0.0741 | lr 4.1e-04 | norm 0.0200 | dt 0.047 type train | step 3030 | loss 0.0718 0.0488 0.0625 0.0596 0.0748 | lr 4.0e-04 | norm 0.0201 | dt 0.048 type train | step 3040 | loss 0.0718 0.0488 0.0624 0.0594 0.0746 | lr 4.0e-04 | norm 0.0308 | dt 0.048 type train | step 3050 | loss 0.0716 0.0486 0.0623 0.0598 0.0747 | lr 4.0e-04 | norm 0.0230 | dt 0.089 type train | step 3060 | loss 0.0724 0.0491 0.0630 0.0600 0.0758 | lr 3.9e-04 | norm 0.0230 | dt 0.050 type train | step 3070 | loss 0.0718 0.0489 0.0627 0.0598 0.0753 | lr 3.9e-04 | norm 0.0242 | dt 0.050 type train | step 3080 | loss 0.0723 0.0489 0.0628 0.0597 0.0749 | lr 3.9e-04 | norm 0.0163 | dt 0.048 type train | step 3090 | loss 0.0715 0.0486 0.0623 0.0594 0.0744 | lr 3.9e-04 | norm 0.0212 | dt 0.047 type train | step 3100 | loss 0.0721 0.0489 0.0627 0.0597 0.0748 | lr 3.8e-04 | norm 0.0195 | dt 0.047 type train | step 3110 | loss 0.0715 0.0485 0.0624 0.0593 0.0745 | lr 3.8e-04 | norm 0.0215 | dt 0.047 type train | step 3120 | loss 0.0719 0.0488 0.0626 0.0600 0.0751 | lr 3.8e-04 | norm 0.0203 | dt 0.050 type train | step 3130 | loss 0.0721 0.0489 0.0625 0.0595 0.0750 | lr 3.8e-04 | norm 0.0191 | dt 0.049 type train | step 3140 | loss 0.0716 0.0488 0.0624 0.0595 0.0747 | lr 3.7e-04 | norm 0.0246 | dt 0.047 type train | step 3150 | loss 0.0718 0.0488 0.0625 0.0597 0.0747 | lr 3.7e-04 | norm 0.0212 | dt 0.047 type train | step 3160 | loss 0.0722 0.0490 0.0629 0.0600 0.0754 | lr 3.7e-04 | norm 0.0203 | dt 0.048 type train | step 3170 | loss 0.0721 0.0489 0.0629 0.0600 0.0754 | lr 3.7e-04 | norm 0.0254 | dt 0.049 type train | step 3180 | loss 0.0723 0.0490 0.0628 0.0599 0.0751 | lr 3.6e-04 | norm 0.0181 | dt 0.051 type train | step 3190 | loss 0.0720 0.0489 0.0627 0.0597 0.0749 | lr 3.6e-04 | norm 0.0180 | dt 0.047 type train | step 3200 | loss 0.0711 0.0484 0.0621 0.0593 0.0746 | lr 3.6e-04 | norm 0.0178 | dt 0.047 type train | step 3210 | loss 0.0718 0.0487 0.0625 0.0596 0.0747 | lr 3.6e-04 | norm 0.0194 | dt 0.047 type train | step 3220 | loss 0.0711 0.0484 0.0621 0.0592 0.0741 | lr 3.5e-04 | norm 0.0210 | dt 0.048 type train | step 3230 | loss 0.0712 0.0485 0.0621 0.0592 0.0742 | lr 3.5e-04 | norm 0.0188 | dt 0.051 type train | step 3240 | loss 0.0713 0.0487 0.0625 0.0597 0.0750 | lr 3.5e-04 | norm 0.0181 | dt 0.047 type train | step 3250 | loss 0.0718 0.0489 0.0626 0.0596 0.0751 | lr 3.5e-04 | norm 0.0170 | dt 0.047 type train | step 3260 | loss 0.0717 0.0488 0.0625 0.0596 0.0746 | lr 3.4e-04 | norm 0.0218 | dt 0.050 type train | step 3270 | loss 0.0713 0.0486 0.0625 0.0595 0.0747 | lr 3.4e-04 | norm 0.0209 | dt 0.050 type train | step 3280 | loss 0.0715 0.0486 0.0623 0.0594 0.0743 | lr 3.4e-04 | norm 0.0197 | dt 0.049 type train | step 3290 | loss 0.0717 0.0486 0.0624 0.0593 0.0746 | lr 3.4e-04 | norm 0.0193 | dt 0.050 type train | step 3300 | loss 0.0716 0.0486 0.0625 0.0596 0.0749 | lr 3.3e-04 | norm 0.0218 | dt 0.050 type train | step 3310 | loss 0.0732 0.0493 0.0632 0.0603 0.0755 | lr 3.3e-04 | norm 0.0239 | dt 0.047 type train | step 3320 | loss 0.0709 0.0483 0.0621 0.0593 0.0747 | lr 3.3e-04 | norm 0.0245 | dt 0.048 type train | step 3330 | loss 0.0716 0.0486 0.0626 0.0597 0.0750 | lr 3.3e-04 | norm 0.0169 | dt 0.048 type train | step 3340 | loss 0.0724 0.0491 0.0630 0.0601 0.0753 | lr 3.2e-04 | norm 0.0263 | dt 0.050 type train | step 3350 | loss 0.0718 0.0488 0.0625 0.0595 0.0748 | lr 3.2e-04 | norm 0.0241 | dt 0.049 type train | step 3360 | loss 0.0716 0.0487 0.0625 0.0596 0.0745 | lr 3.2e-04 | norm 0.0213 | dt 0.047 type train | step 3370 | loss 0.0719 0.0488 0.0625 0.0595 0.0747 | lr 3.2e-04 | norm 0.0261 | dt 0.049 type train | step 3380 | loss 0.0715 0.0487 0.0623 0.0595 0.0746 | lr 3.1e-04 | norm 0.0204 | dt 0.048 type train | step 3390 | loss 0.0720 0.0489 0.0628 0.0597 0.0750 | lr 3.1e-04 | norm 0.0169 | dt 0.048 type train | step 3400 | loss 0.0721 0.0489 0.0627 0.0599 0.0752 | lr 3.1e-04 | norm 0.0245 | dt 0.048 type train | step 3410 | loss 0.0713 0.0484 0.0621 0.0594 0.0742 | lr 3.1e-04 | norm 0.0204 | dt 0.047 type train | step 3420 | loss 0.0718 0.0487 0.0624 0.0594 0.0746 | lr 3.0e-04 | norm 0.0189 | dt 0.048 type train | step 3430 | loss 0.0711 0.0483 0.0620 0.0593 0.0741 | lr 3.0e-04 | norm 0.0147 | dt 0.048 type train | step 3440 | loss 0.0717 0.0487 0.0626 0.0597 0.0751 | lr 3.0e-04 | norm 0.0176 | dt 0.047 type train | step 3450 | loss 0.0713 0.0485 0.0624 0.0596 0.0744 | lr 3.0e-04 | norm 0.0192 | dt 0.047 type train | step 3460 | loss 0.0719 0.0488 0.0627 0.0598 0.0752 | lr 2.9e-04 | norm 0.0181 | dt 0.047 type train | step 3470 | loss 0.0715 0.0486 0.0624 0.0596 0.0745 | lr 2.9e-04 | norm 0.0159 | dt 0.047 type train | step 3480 | loss 0.0714 0.0484 0.0622 0.0594 0.0748 | lr 2.9e-04 | norm 0.0216 | dt 0.051 type train | step 3490 | loss 0.0718 0.0487 0.0627 0.0598 0.0751 | lr 2.9e-04 | norm 0.0163 | dt 0.047 type train | step 3500 | loss 0.0703 0.0482 0.0620 0.0592 0.0741 | lr 2.9e-04 | norm 0.0193 | dt 0.047 type train | step 3510 | loss 0.0709 0.0483 0.0621 0.0594 0.0747 | lr 2.8e-04 | norm 0.0230 | dt 0.050 type train | step 3520 | loss 0.0722 0.0491 0.0629 0.0600 0.0753 | lr 2.8e-04 | norm 0.0179 | dt 0.050 type train | step 3530 | loss 0.0717 0.0487 0.0628 0.0597 0.0749 | lr 2.8e-04 | norm 0.0179 | dt 0.050 type train | step 3540 | loss 0.0709 0.0483 0.0623 0.0594 0.0743 | lr 2.8e-04 | norm 0.0203 | dt 0.049 type train | step 3550 | loss 0.0711 0.0484 0.0623 0.0594 0.0743 | lr 2.7e-04 | norm 0.0199 | dt 0.049 type train | step 3560 | loss 0.0716 0.0488 0.0625 0.0595 0.0747 | lr 2.7e-04 | norm 0.0160 | dt 0.050 type train | step 3570 | loss 0.0716 0.0486 0.0625 0.0596 0.0748 | lr 2.7e-04 | norm 0.0198 | dt 0.049 type train | step 3580 | loss 0.0715 0.0487 0.0625 0.0598 0.0749 | lr 2.7e-04 | norm 0.0179 | dt 0.048 type train | step 3590 | loss 0.0712 0.0485 0.0625 0.0596 0.0747 | lr 2.7e-04 | norm 0.0173 | dt 0.047 type train | step 3600 | loss 0.0723 0.0489 0.0628 0.0600 0.0749 | lr 2.6e-04 | norm 0.0164 | dt 0.047 type train | step 3610 | loss 0.0723 0.0491 0.0627 0.0598 0.0752 | lr 2.6e-04 | norm 0.0203 | dt 0.051 type train | step 3620 | loss 0.0721 0.0488 0.0626 0.0597 0.0747 | lr 2.6e-04 | norm 0.0190 | dt 0.049 type train | step 3630 | loss 0.0710 0.0484 0.0621 0.0590 0.0740 | lr 2.6e-04 | norm 0.0177 | dt 0.047 type train | step 3640 | loss 0.0715 0.0486 0.0624 0.0595 0.0747 | lr 2.5e-04 | norm 0.0215 | dt 0.047 type train | step 3650 | loss 0.0715 0.0486 0.0623 0.0592 0.0744 | lr 2.5e-04 | norm 0.0286 | dt 0.047 type train | step 3660 | loss 0.0713 0.0484 0.0621 0.0597 0.0746 | lr 2.5e-04 | norm 0.0237 | dt 0.090 type train | step 3670 | loss 0.0721 0.0489 0.0628 0.0599 0.0757 | lr 2.5e-04 | norm 0.0240 | dt 0.050 type train | step 3680 | loss 0.0715 0.0488 0.0625 0.0597 0.0752 | lr 2.5e-04 | norm 0.0177 | dt 0.050 type train | step 3690 | loss 0.0720 0.0487 0.0626 0.0596 0.0748 | lr 2.4e-04 | norm 0.0182 | dt 0.050 type train | step 3700 | loss 0.0712 0.0485 0.0621 0.0593 0.0743 | lr 2.4e-04 | norm 0.0160 | dt 0.050 type train | step 3710 | loss 0.0719 0.0487 0.0626 0.0596 0.0747 | lr 2.4e-04 | norm 0.0179 | dt 0.047 type train | step 3720 | loss 0.0712 0.0483 0.0622 0.0592 0.0744 | lr 2.4e-04 | norm 0.0190 | dt 0.048 type train | step 3730 | loss 0.0717 0.0487 0.0625 0.0599 0.0750 | lr 2.4e-04 | norm 0.0223 | dt 0.047 type train | step 3740 | loss 0.0719 0.0487 0.0623 0.0594 0.0749 | lr 2.3e-04 | norm 0.0182 | dt 0.048 type train | step 3750 | loss 0.0714 0.0486 0.0623 0.0594 0.0746 | lr 2.3e-04 | norm 0.0213 | dt 0.049 type train | step 3760 | loss 0.0716 0.0486 0.0624 0.0596 0.0746 | lr 2.3e-04 | norm 0.0223 | dt 0.050 type train | step 3770 | loss 0.0720 0.0488 0.0628 0.0599 0.0753 | lr 2.3e-04 | norm 0.0198 | dt 0.050 type train | step 3780 | loss 0.0718 0.0487 0.0627 0.0598 0.0753 | lr 2.3e-04 | norm 0.0252 | dt 0.049 type train | step 3790 | loss 0.0721 0.0489 0.0627 0.0598 0.0750 | lr 2.2e-04 | norm 0.0170 | dt 0.048 type train | step 3800 | loss 0.0717 0.0488 0.0626 0.0596 0.0748 | lr 2.2e-04 | norm 0.0162 | dt 0.047 type train | step 3810 | loss 0.0709 0.0482 0.0620 0.0592 0.0745 | lr 2.2e-04 | norm 0.0177 | dt 0.049 type train | step 3820 | loss 0.0715 0.0486 0.0624 0.0595 0.0746 | lr 2.2e-04 | norm 0.0191 | dt 0.047 type train | step 3830 | loss 0.0709 0.0482 0.0620 0.0591 0.0740 | lr 2.2e-04 | norm 0.0197 | dt 0.050 type train | step 3840 | loss 0.0710 0.0483 0.0620 0.0591 0.0741 | lr 2.1e-04 | norm 0.0171 | dt 0.047 type train | step 3850 | loss 0.0711 0.0485 0.0624 0.0596 0.0749 | lr 2.1e-04 | norm 0.0173 | dt 0.047 type train | step 3860 | loss 0.0716 0.0487 0.0625 0.0595 0.0750 | lr 2.1e-04 | norm 0.0170 | dt 0.051 type train | step 3870 | loss 0.0715 0.0486 0.0624 0.0595 0.0745 | lr 2.1e-04 | norm 0.0169 | dt 0.047 type train | step 3880 | loss 0.0711 0.0484 0.0623 0.0594 0.0746 | lr 2.1e-04 | norm 0.0189 | dt 0.048 type train | step 3890 | loss 0.0713 0.0485 0.0622 0.0593 0.0742 | lr 2.1e-04 | norm 0.0165 | dt 0.048 type train | step 3900 | loss 0.0714 0.0485 0.0622 0.0592 0.0746 | lr 2.0e-04 | norm 0.0157 | dt 0.049 type train | step 3910 | loss 0.0714 0.0485 0.0623 0.0595 0.0748 | lr 2.0e-04 | norm 0.0220 | dt 0.050 type train | step 3920 | loss 0.0729 0.0492 0.0630 0.0602 0.0754 | lr 2.0e-04 | norm 0.0264 | dt 0.050 type train | step 3930 | loss 0.0707 0.0482 0.0619 0.0593 0.0746 | lr 2.0e-04 | norm 0.0232 | dt 0.050 type train | step 3940 | loss 0.0714 0.0485 0.0625 0.0596 0.0749 | lr 2.0e-04 | norm 0.0148 | dt 0.048 type train | step 3950 | loss 0.0722 0.0489 0.0629 0.0600 0.0752 | lr 1.9e-04 | norm 0.0233 | dt 0.048 type train | step 3960 | loss 0.0716 0.0487 0.0624 0.0595 0.0747 | lr 1.9e-04 | norm 0.0196 | dt 0.048 type train | step 3970 | loss 0.0713 0.0486 0.0623 0.0595 0.0744 | lr 1.9e-04 | norm 0.0195 | dt 0.050 type train | step 3980 | loss 0.0717 0.0486 0.0624 0.0595 0.0746 | lr 1.9e-04 | norm 0.0226 | dt 0.047 type train | step 3990 | loss 0.0713 0.0485 0.0622 0.0594 0.0745 | lr 1.9e-04 | norm 0.0187 | dt 0.047 type train | step 4000 | loss 0.0719 0.0487 0.0626 0.0596 0.0750 | lr 1.9e-04 | norm 0.0166 | dt 0.048 type train | step 4010 | loss 0.0719 0.0487 0.0625 0.0598 0.0751 | lr 1.8e-04 | norm 0.0245 | dt 0.049 type train | step 4020 | loss 0.0710 0.0483 0.0620 0.0593 0.0741 | lr 1.8e-04 | norm 0.0191 | dt 0.049 type train | step 4030 | loss 0.0716 0.0486 0.0623 0.0593 0.0745 | lr 1.8e-04 | norm 0.0184 | dt 0.047 type train | step 4040 | loss 0.0709 0.0481 0.0619 0.0592 0.0740 | lr 1.8e-04 | norm 0.0165 | dt 0.047 type train | step 4050 | loss 0.0715 0.0486 0.0625 0.0597 0.0750 | lr 1.8e-04 | norm 0.0172 | dt 0.047 type train | step 4060 | loss 0.0711 0.0483 0.0623 0.0595 0.0743 | lr 1.8e-04 | norm 0.0175 | dt 0.048 type train | step 4070 | loss 0.0717 0.0487 0.0626 0.0597 0.0751 | lr 1.7e-04 | norm 0.0166 | dt 0.050 type train | step 4080 | loss 0.0713 0.0484 0.0623 0.0595 0.0744 | lr 1.7e-04 | norm 0.0158 | dt 0.050 type train | step 4090 | loss 0.0713 0.0483 0.0621 0.0593 0.0747 | lr 1.7e-04 | norm 0.0204 | dt 0.050 type train | step 4100 | loss 0.0716 0.0485 0.0626 0.0598 0.0751 | lr 1.7e-04 | norm 0.0145 | dt 0.050 type train | step 4110 | loss 0.0701 0.0481 0.0619 0.0591 0.0740 | lr 1.7e-04 | norm 0.0192 | dt 0.047 type train | step 4120 | loss 0.0707 0.0482 0.0620 0.0593 0.0746 | lr 1.7e-04 | norm 0.0178 | dt 0.048 type train | step 4130 | loss 0.0720 0.0490 0.0628 0.0600 0.0753 | lr 1.7e-04 | norm 0.0181 | dt 0.048 type train | step 4140 | loss 0.0715 0.0486 0.0627 0.0596 0.0749 | lr 1.6e-04 | norm 0.0167 | dt 0.049 type train | step 4150 | loss 0.0707 0.0482 0.0622 0.0594 0.0742 | lr 1.6e-04 | norm 0.0181 | dt 0.048 type train | step 4160 | loss 0.0709 0.0482 0.0622 0.0593 0.0742 | lr 1.6e-04 | norm 0.0179 | dt 0.047 type train | step 4170 | loss 0.0715 0.0487 0.0624 0.0594 0.0746 | lr 1.6e-04 | norm 0.0151 | dt 0.047 type train | step 4180 | loss 0.0714 0.0485 0.0624 0.0596 0.0747 | lr 1.6e-04 | norm 0.0170 | dt 0.049 type train | step 4190 | loss 0.0714 0.0486 0.0624 0.0598 0.0748 | lr 1.6e-04 | norm 0.0164 | dt 0.050 type train | step 4200 | loss 0.0710 0.0484 0.0624 0.0595 0.0747 | lr 1.6e-04 | norm 0.0175 | dt 0.047 type train | step 4210 | loss 0.0721 0.0488 0.0627 0.0599 0.0749 | lr 1.5e-04 | norm 0.0169 | dt 0.047 type train | step 4220 | loss 0.0722 0.0490 0.0626 0.0597 0.0751 | lr 1.5e-04 | norm 0.0183 | dt 0.047 type train | step 4230 | loss 0.0719 0.0487 0.0625 0.0596 0.0746 | lr 1.5e-04 | norm 0.0193 | dt 0.051 type train | step 4240 | loss 0.0709 0.0482 0.0620 0.0590 0.0740 | lr 1.5e-04 | norm 0.0182 | dt 0.051 type train | step 4250 | loss 0.0713 0.0485 0.0623 0.0594 0.0746 | lr 1.5e-04 | norm 0.0172 | dt 0.050 type train | step 4260 | loss 0.0713 0.0485 0.0622 0.0592 0.0744 | lr 1.5e-04 | norm 0.0275 | dt 0.048 type train | step 4270 | loss 0.0711 0.0483 0.0620 0.0596 0.0746 | lr 1.5e-04 | norm 0.0218 | dt 0.089 type train | step 4280 | loss 0.0720 0.0488 0.0627 0.0599 0.0756 | lr 1.5e-04 | norm 0.0219 | dt 0.048 type train | step 4290 | loss 0.0713 0.0487 0.0624 0.0597 0.0751 | lr 1.4e-04 | norm 0.0156 | dt 0.048 type train | step 4300 | loss 0.0719 0.0486 0.0625 0.0596 0.0747 | lr 1.4e-04 | norm 0.0156 | dt 0.051 type train | step 4310 | loss 0.0711 0.0484 0.0620 0.0592 0.0743 | lr 1.4e-04 | norm 0.0179 | dt 0.047 type train | step 4320 | loss 0.0717 0.0486 0.0625 0.0595 0.0746 | lr 1.4e-04 | norm 0.0165 | dt 0.048 type train | step 4330 | loss 0.0711 0.0482 0.0621 0.0591 0.0744 | lr 1.4e-04 | norm 0.0180 | dt 0.048 type train | step 4340 | loss 0.0715 0.0486 0.0624 0.0598 0.0749 | lr 1.4e-04 | norm 0.0194 | dt 0.051 type train | step 4350 | loss 0.0717 0.0486 0.0623 0.0594 0.0748 | lr 1.4e-04 | norm 0.0147 | dt 0.050 type train | step 4360 | loss 0.0712 0.0485 0.0622 0.0593 0.0746 | lr 1.4e-04 | norm 0.0181 | dt 0.051 type train | step 4370 | loss 0.0714 0.0485 0.0623 0.0595 0.0745 | lr 1.3e-04 | norm 0.0203 | dt 0.050 type train | step 4380 | loss 0.0718 0.0487 0.0627 0.0599 0.0752 | lr 1.3e-04 | norm 0.0159 | dt 0.048 type train | step 4390 | loss 0.0717 0.0486 0.0627 0.0598 0.0753 | lr 1.3e-04 | norm 0.0235 | dt 0.047 type train | step 4400 | loss 0.0719 0.0488 0.0626 0.0597 0.0749 | lr 1.3e-04 | norm 0.0150 | dt 0.047 type train | step 4410 | loss 0.0716 0.0487 0.0625 0.0595 0.0748 | lr 1.3e-04 | norm 0.0165 | dt 0.051 type train | step 4420 | loss 0.0707 0.0481 0.0619 0.0592 0.0745 | lr 1.3e-04 | norm 0.0185 | dt 0.048 type train | step 4430 | loss 0.0714 0.0485 0.0623 0.0595 0.0746 | lr 1.3e-04 | norm 0.0182 | dt 0.047 type train | step 4440 | loss 0.0708 0.0481 0.0619 0.0590 0.0740 | lr 1.3e-04 | norm 0.0186 | dt 0.047 type train | step 4450 | loss 0.0709 0.0482 0.0619 0.0590 0.0740 | lr 1.3e-04 | norm 0.0175 | dt 0.047 type train | step 4460 | loss 0.0710 0.0484 0.0623 0.0595 0.0748 | lr 1.3e-04 | norm 0.0157 | dt 0.050 type train | step 4470 | loss 0.0715 0.0486 0.0624 0.0595 0.0749 | lr 1.2e-04 | norm 0.0168 | dt 0.049 type train | step 4480 | loss 0.0713 0.0485 0.0623 0.0594 0.0745 | lr 1.2e-04 | norm 0.0142 | dt 0.047 type train | step 4490 | loss 0.0710 0.0483 0.0623 0.0593 0.0746 | lr 1.2e-04 | norm 0.0173 | dt 0.047 type train | step 4500 | loss 0.0711 0.0484 0.0621 0.0593 0.0742 | lr 1.2e-04 | norm 0.0163 | dt 0.047 type train | step 4510 | loss 0.0713 0.0484 0.0622 0.0592 0.0745 | lr 1.2e-04 | norm 0.0167 | dt 0.048 type train | step 4520 | loss 0.0713 0.0484 0.0623 0.0595 0.0748 | lr 1.2e-04 | norm 0.0193 | dt 0.047 type train | step 4530 | loss 0.0728 0.0491 0.0630 0.0602 0.0753 | lr 1.2e-04 | norm 0.0247 | dt 0.047 type train | step 4540 | loss 0.0706 0.0481 0.0619 0.0592 0.0746 | lr 1.2e-04 | norm 0.0225 | dt 0.049 type train | step 4550 | loss 0.0713 0.0484 0.0624 0.0596 0.0748 | lr 1.2e-04 | norm 0.0140 | dt 0.049 type train | step 4560 | loss 0.0721 0.0489 0.0628 0.0600 0.0752 | lr 1.2e-04 | norm 0.0189 | dt 0.050 type train | step 4570 | loss 0.0714 0.0486 0.0623 0.0594 0.0747 | lr 1.2e-04 | norm 0.0190 | dt 0.047 type train | step 4580 | loss 0.0712 0.0485 0.0623 0.0595 0.0744 | lr 1.2e-04 | norm 0.0169 | dt 0.047 type train | step 4590 | loss 0.0716 0.0486 0.0623 0.0594 0.0745 | lr 1.1e-04 | norm 0.0205 | dt 0.048 type train | step 4600 | loss 0.0712 0.0484 0.0622 0.0593 0.0745 | lr 1.1e-04 | norm 0.0176 | dt 0.049 type train | step 4610 | loss 0.0717 0.0487 0.0626 0.0596 0.0749 | lr 1.1e-04 | norm 0.0171 | dt 0.050 type train | step 4620 | loss 0.0718 0.0487 0.0625 0.0597 0.0750 | lr 1.1e-04 | norm 0.0241 | dt 0.047 type train | step 4630 | loss 0.0709 0.0482 0.0620 0.0593 0.0741 | lr 1.1e-04 | norm 0.0174 | dt 0.048 type train | step 4640 | loss 0.0715 0.0485 0.0622 0.0593 0.0744 | lr 1.1e-04 | norm 0.0197 | dt 0.048 type train | step 4650 | loss 0.0708 0.0481 0.0619 0.0592 0.0740 | lr 1.1e-04 | norm 0.0143 | dt 0.049 type train | step 4660 | loss 0.0714 0.0485 0.0624 0.0596 0.0750 | lr 1.1e-04 | norm 0.0160 | dt 0.049 type train | step 4670 | loss 0.0710 0.0483 0.0622 0.0595 0.0743 | lr 1.1e-04 | norm 0.0151 | dt 0.047 type train | step 4680 | loss 0.0716 0.0486 0.0625 0.0597 0.0751 | lr 1.1e-04 | norm 0.0160 | dt 0.049 type train | step 4690 | loss 0.0712 0.0484 0.0622 0.0594 0.0744 | lr 1.1e-04 | norm 0.0159 | dt 0.048 type train | step 4700 | loss 0.0711 0.0482 0.0621 0.0593 0.0746 | lr 1.1e-04 | norm 0.0190 | dt 0.049 type train | step 4710 | loss 0.0715 0.0485 0.0626 0.0597 0.0750 | lr 1.1e-04 | norm 0.0130 | dt 0.048 type train | step 4720 | loss 0.0700 0.0480 0.0618 0.0591 0.0740 | lr 1.1e-04 | norm 0.0181 | dt 0.047 type train | step 4730 | loss 0.0706 0.0482 0.0619 0.0593 0.0746 | lr 1.1e-04 | norm 0.0160 | dt 0.048 type train | step 4740 | loss 0.0719 0.0490 0.0627 0.0599 0.0752 | lr 1.1e-04 | norm 0.0186 | dt 0.048 type train | step 4750 | loss 0.0714 0.0486 0.0626 0.0596 0.0748 | lr 1.1e-04 | norm 0.0169 | dt 0.047 type train | step 4760 | loss 0.0706 0.0481 0.0621 0.0593 0.0742 | lr 1.1e-04 | norm 0.0165 | dt 0.050 type train | step 4770 | loss 0.0708 0.0482 0.0621 0.0593 0.0742 | lr 1.0e-04 | norm 0.0173 | dt 0.050 type train | step 4780 | loss 0.0714 0.0486 0.0624 0.0594 0.0746 | lr 1.0e-04 | norm 0.0145 | dt 0.050 type train | step 4790 | loss 0.0713 0.0484 0.0624 0.0596 0.0746 | lr 1.0e-04 | norm 0.0166 | dt 0.050 type train | step 4800 | loss 0.0713 0.0485 0.0623 0.0597 0.0748 | lr 1.0e-04 | norm 0.0152 | dt 0.050 type train | step 4810 | loss 0.0709 0.0483 0.0623 0.0595 0.0746 | lr 1.0e-04 | norm 0.0157 | dt 0.050 type train | step 4820 | loss 0.0720 0.0488 0.0627 0.0599 0.0748 | lr 1.0e-04 | norm 0.0161 | dt 0.050 type train | step 4830 | loss 0.0721 0.0489 0.0626 0.0597 0.0751 | lr 1.0e-04 | norm 0.0190 | dt 0.050 type train | step 4840 | loss 0.0718 0.0486 0.0624 0.0596 0.0746 | lr 1.0e-04 | norm 0.0177 | dt 0.050 type train | step 4850 | loss 0.0708 0.0482 0.0620 0.0589 0.0739 | lr 1.0e-04 | norm 0.0174 | dt 0.048 type train | step 4860 | loss 0.0712 0.0484 0.0622 0.0593 0.0746 | lr 1.0e-04 | norm 0.0167 | dt 0.050 type train | step 4870 | loss 0.0713 0.0484 0.0621 0.0591 0.0743 | lr 1.0e-04 | norm 0.0272 | dt 0.047 type train | step 4880 | loss 0.0710 0.0483 0.0620 0.0596 0.0746 | lr 1.0e-04 | norm 0.0223 | dt 0.089 type train | step 4890 | loss 0.0719 0.0487 0.0627 0.0598 0.0756 | lr 1.0e-04 | norm 0.0210 | dt 0.048 type train | step 4900 | loss 0.0712 0.0486 0.0624 0.0597 0.0751 | lr 1.0e-04 | norm 0.0143 | dt 0.047 type train | step 4910 | loss 0.0718 0.0485 0.0625 0.0595 0.0747 | lr 1.0e-04 | norm 0.0159 | dt 0.047 type train | step 4920 | loss 0.0710 0.0483 0.0620 0.0592 0.0743 | lr 1.0e-04 | norm 0.0177 | dt 0.047 type train | step 4930 | loss 0.0716 0.0486 0.0625 0.0595 0.0746 | lr 1.0e-04 | norm 0.0155 | dt 0.047 type train | step 4940 | loss 0.0710 0.0482 0.0621 0.0591 0.0743 | lr 1.0e-04 | norm 0.0168 | dt 0.048 type train | step 4950 | loss 0.0714 0.0485 0.0623 0.0598 0.0749 | lr 1.0e-04 | norm 0.0193 | dt 0.051 type train | step 4960 | loss 0.0717 0.0485 0.0622 0.0593 0.0748 | lr 1.0e-04 | norm 0.0145 | dt 0.047 type train | step 4970 | loss 0.0712 0.0485 0.0622 0.0593 0.0745 | lr 1.0e-04 | norm 0.0172 | dt 0.047 type train | step 4980 | loss 0.0714 0.0485 0.0623 0.0595 0.0745 | lr 1.0e-04 | norm 0.0198 | dt 0.048 type train | step 4990 | loss 0.0717 0.0486 0.0627 0.0599 0.0752 | lr 1.0e-04 | norm 0.0152 | dt 0.050 type train | step 5000 | loss 0.0716 0.0486 0.0626 0.0598 0.0752 | lr 1.0e-04 | norm 0.0230 | dt 0.051 type train | step 10 | loss 161.5197 80.8724 50.1107 37.9919 44.1381 | lr 1.0e-03 | norm 246.5257 | dt 0.042 type train | step 20 | loss 112.8173 50.3334 27.9890 21.4296 28.1250 | lr 1.0e-03 | norm 128.6609 | dt 0.043 type train | step 30 | loss 78.5005 30.0183 15.0674 11.5903 17.1703 | lr 1.0e-03 | norm 88.8886 | dt 0.042 type train | step 40 | loss 51.9704 16.6622 7.6549 5.8237 9.7170 | lr 1.0e-03 | norm 69.3271 | dt 0.043 type train | step 50 | loss 33.4565 8.6641 3.6691 2.6866 5.0466 | lr 1.0e-03 | norm 55.0216 | dt 0.042 type train | step 60 | loss 19.6559 4.0847 1.6661 1.1898 2.2970 | lr 1.0e-03 | norm 40.0835 | dt 0.042 type train | step 70 | loss 11.6228 1.8318 0.7879 0.5584 1.0414 | lr 1.0e-03 | norm 28.7385 | dt 0.042 type train | step 80 | loss 6.3644 0.8475 0.4551 0.3222 0.4834 | lr 1.0e-03 | norm 18.4235 | dt 0.043 type train | step 90 | loss 3.2636 0.5016 0.3503 0.2544 0.3126 | lr 1.0e-03 | norm 10.1413 | dt 0.043 type train | step 100 | loss 1.7641 0.3951 0.3040 0.2236 0.2693 | lr 1.0e-03 | norm 4.8714 | dt 0.043 type train | step 110 | loss 1.0715 0.3222 0.2634 0.1968 0.2340 | lr 1.0e-03 | norm 2.0378 | dt 0.043 type train | step 120 | loss 0.6599 0.2676 0.2261 0.1720 0.2048 | lr 1.0e-03 | norm 0.7488 | dt 0.042 type train | step 130 | loss 0.5042 0.2361 0.2011 0.1542 0.1822 | lr 1.0e-03 | norm 0.4112 | dt 0.042 type train | step 140 | loss 0.4250 0.2085 0.1807 0.1401 0.1651 | lr 1.0e-03 | norm 0.2403 | dt 0.042 type train | step 150 | loss 0.3733 0.1899 0.1660 0.1296 0.1553 | lr 1.0e-03 | norm 0.1812 | dt 0.042 type train | step 160 | loss 0.3368 0.1768 0.1556 0.1226 0.1449 | lr 1.0e-03 | norm 0.1327 | dt 0.042 type train | step 170 | loss 0.3086 0.1640 0.1456 0.1156 0.1360 | lr 1.0e-03 | norm 0.1186 | dt 0.043 type train | step 180 | loss 0.2884 0.1535 0.1378 0.1104 0.1305 | lr 1.0e-03 | norm 0.0982 | dt 0.043 type train | step 190 | loss 0.2681 0.1450 0.1309 0.1064 0.1249 | lr 1.0e-03 | norm 0.0832 | dt 0.043 type train | step 200 | loss 0.2536 0.1384 0.1252 0.1020 0.1207 | lr 1.0e-03 | norm 0.0677 | dt 0.042 type train | step 210 | loss 0.2383 0.1302 0.1193 0.0982 0.1158 | lr 1.0e-03 | norm 0.0694 | dt 0.042 type train | step 220 | loss 0.2261 0.1245 0.1148 0.0953 0.1125 | lr 1.0e-03 | norm 0.0576 | dt 0.043 type train | step 230 | loss 0.2139 0.1185 0.1104 0.0922 0.1088 | lr 1.0e-03 | norm 0.0551 | dt 0.042 type train | step 240 | loss 0.2037 0.1131 0.1068 0.0897 0.1064 | lr 9.9e-04 | norm 0.0526 | dt 0.043 type train | step 250 | loss 0.1941 0.1090 0.1034 0.0878 0.1043 | lr 9.9e-04 | norm 0.0495 | dt 0.043 type train | step 260 | loss 0.1876 0.1060 0.1017 0.0870 0.1031 | lr 9.9e-04 | norm 0.0473 | dt 0.043 type train | step 270 | loss 0.1759 0.1000 0.0974 0.0840 0.1007 | lr 9.9e-04 | norm 0.0428 | dt 0.043 type train | step 280 | loss 0.1696 0.0973 0.0957 0.0829 0.0991 | lr 9.9e-04 | norm 0.0382 | dt 0.043 type train | step 290 | loss 0.1631 0.0945 0.0940 0.0819 0.0977 | lr 9.9e-04 | norm 0.0338 | dt 0.043 type train | step 300 | loss 0.1570 0.0919 0.0917 0.0799 0.0958 | lr 9.9e-04 | norm 0.0331 | dt 0.043 type train | step 310 | loss 0.1506 0.0887 0.0895 0.0786 0.0941 | lr 9.9e-04 | norm 0.0322 | dt 0.043 type train | step 320 | loss 0.1458 0.0864 0.0881 0.0776 0.0935 | lr 9.9e-04 | norm 0.0368 | dt 0.043 type train | step 330 | loss 0.1403 0.0841 0.0865 0.0765 0.0922 | lr 9.9e-04 | norm 0.0304 | dt 0.043 type train | step 340 | loss 0.1369 0.0828 0.0856 0.0758 0.0915 | lr 9.9e-04 | norm 0.0256 | dt 0.043 type train | step 350 | loss 0.1332 0.0809 0.0844 0.0752 0.0909 | lr 9.9e-04 | norm 0.0278 | dt 0.043 type train | step 360 | loss 0.1279 0.0785 0.0826 0.0736 0.0890 | lr 9.9e-04 | norm 0.0216 | dt 0.043 type train | step 370 | loss 0.1261 0.0778 0.0820 0.0732 0.0887 | lr 9.9e-04 | norm 0.0197 | dt 0.043 type train | step 380 | loss 0.1221 0.0757 0.0805 0.0724 0.0875 | lr 9.9e-04 | norm 0.0190 | dt 0.043 type train | step 390 | loss 0.1206 0.0751 0.0803 0.0722 0.0880 | lr 9.9e-04 | norm 0.0212 | dt 0.043 type train | step 400 | loss 0.1178 0.0737 0.0793 0.0716 0.0868 | lr 9.9e-04 | norm 0.0200 | dt 0.043 type train | step 410 | loss 0.1161 0.0730 0.0789 0.0712 0.0870 | lr 9.9e-04 | norm 0.0191 | dt 0.043 type train | step 420 | loss 0.1134 0.0720 0.0779 0.0705 0.0858 | lr 9.8e-04 | norm 0.0178 | dt 0.043 type train | step 430 | loss 0.1116 0.0707 0.0772 0.0699 0.0857 | lr 9.8e-04 | norm 0.0217 | dt 0.043 type train | step 440 | loss 0.1105 0.0705 0.0772 0.0699 0.0855 | lr 9.8e-04 | norm 0.0168 | dt 0.043 type train | step 450 | loss 0.1072 0.0688 0.0757 0.0687 0.0842 | lr 9.8e-04 | norm 0.0202 | dt 0.044 type train | step 460 | loss 0.1062 0.0683 0.0754 0.0686 0.0843 | lr 9.8e-04 | norm 0.0228 | dt 0.043 type train | step 470 | loss 0.1066 0.0686 0.0757 0.0690 0.0845 | lr 9.8e-04 | norm 0.0187 | dt 0.043 type train | step 480 | loss 0.1047 0.0674 0.0751 0.0683 0.0839 | lr 9.8e-04 | norm 0.0206 | dt 0.043 type train | step 490 | loss 0.1029 0.0664 0.0742 0.0679 0.0833 | lr 9.8e-04 | norm 0.0203 | dt 0.043 type train | step 500 | loss 0.1015 0.0659 0.0739 0.0675 0.0828 | lr 9.8e-04 | norm 0.0199 | dt 0.043 type train | step 510 | loss 0.1015 0.0657 0.0738 0.0673 0.0829 | lr 9.8e-04 | norm 0.0168 | dt 0.045 type train | step 520 | loss 0.1005 0.0651 0.0734 0.0672 0.0827 | lr 9.8e-04 | norm 0.0201 | dt 0.044 type train | step 530 | loss 0.0993 0.0646 0.0730 0.0671 0.0827 | lr 9.8e-04 | norm 0.0164 | dt 0.044 type train | step 540 | loss 0.0990 0.0643 0.0729 0.0669 0.0824 | lr 9.7e-04 | norm 0.0184 | dt 0.044 type train | step 550 | loss 0.0989 0.0640 0.0729 0.0671 0.0824 | lr 9.7e-04 | norm 0.0167 | dt 0.044 type train | step 560 | loss 0.0988 0.0639 0.0726 0.0667 0.0824 | lr 9.7e-04 | norm 0.0188 | dt 0.044 type train | step 570 | loss 0.0971 0.0630 0.0720 0.0663 0.0816 | lr 9.7e-04 | norm 0.0205 | dt 0.044 type train | step 580 | loss 0.0954 0.0621 0.0715 0.0657 0.0810 | lr 9.7e-04 | norm 0.0177 | dt 0.044 type train | step 590 | loss 0.0959 0.0624 0.0715 0.0659 0.0815 | lr 9.7e-04 | norm 0.0185 | dt 0.045 type train | step 600 | loss 0.0951 0.0618 0.0711 0.0655 0.0810 | lr 9.7e-04 | norm 0.0317 | dt 0.044 type train | step 610 | loss 0.0943 0.0614 0.0707 0.0656 0.0810 | lr 9.7e-04 | norm 0.0180 | dt 0.085 type train | step 620 | loss 0.0951 0.0618 0.0715 0.0660 0.0821 | lr 9.7e-04 | norm 0.0268 | dt 0.044 type train | step 630 | loss 0.0938 0.0612 0.0709 0.0657 0.0815 | lr 9.7e-04 | norm 0.0184 | dt 0.044 type train | step 640 | loss 0.0940 0.0609 0.0707 0.0653 0.0809 | lr 9.6e-04 | norm 0.0172 | dt 0.044 type train | step 650 | loss 0.0926 0.0604 0.0702 0.0650 0.0805 | lr 9.6e-04 | norm 0.0195 | dt 0.045 type train | step 660 | loss 0.0929 0.0606 0.0704 0.0651 0.0806 | lr 9.6e-04 | norm 0.0177 | dt 0.044 type train | step 670 | loss 0.0918 0.0598 0.0699 0.0647 0.0803 | lr 9.6e-04 | norm 0.0171 | dt 0.044 type train | step 680 | loss 0.0925 0.0601 0.0702 0.0653 0.0809 | lr 9.6e-04 | norm 0.0172 | dt 0.044 type train | step 690 | loss 0.0921 0.0599 0.0699 0.0648 0.0806 | lr 9.6e-04 | norm 0.0162 | dt 0.044 type train | step 700 | loss 0.0915 0.0595 0.0697 0.0646 0.0802 | lr 9.6e-04 | norm 0.0228 | dt 0.044 type train | step 710 | loss 0.0912 0.0594 0.0697 0.0646 0.0801 | lr 9.6e-04 | norm 0.0224 | dt 0.044 type train | step 720 | loss 0.0914 0.0594 0.0698 0.0650 0.0806 | lr 9.5e-04 | norm 0.0203 | dt 0.045 type train | step 730 | loss 0.0911 0.0593 0.0698 0.0649 0.0807 | lr 9.5e-04 | norm 0.0246 | dt 0.045 type train | step 740 | loss 0.0909 0.0592 0.0696 0.0648 0.0804 | lr 9.5e-04 | norm 0.0205 | dt 0.044 type train | step 750 | loss 0.0903 0.0588 0.0693 0.0645 0.0799 | lr 9.5e-04 | norm 0.0175 | dt 0.044 type train | step 760 | loss 0.0890 0.0583 0.0687 0.0641 0.0797 | lr 9.5e-04 | norm 0.0193 | dt 0.044 type train | step 770 | loss 0.0897 0.0584 0.0690 0.0641 0.0796 | lr 9.5e-04 | norm 0.0223 | dt 0.044 type train | step 780 | loss 0.0886 0.0579 0.0685 0.0637 0.0790 | lr 9.5e-04 | norm 0.0231 | dt 0.045 type train | step 790 | loss 0.0884 0.0579 0.0684 0.0636 0.0790 | lr 9.5e-04 | norm 0.0199 | dt 0.044 type train | step 800 | loss 0.0885 0.0578 0.0686 0.0641 0.0796 | lr 9.4e-04 | norm 0.0184 | dt 0.044 type train | step 810 | loss 0.0891 0.0582 0.0689 0.0641 0.0798 | lr 9.4e-04 | norm 0.0164 | dt 0.044 type train | step 820 | loss 0.0887 0.0579 0.0686 0.0638 0.0793 | lr 9.4e-04 | norm 0.0165 | dt 0.045 type train | step 830 | loss 0.0882 0.0576 0.0685 0.0638 0.0794 | lr 9.4e-04 | norm 0.0212 | dt 0.045 type train | step 840 | loss 0.0880 0.0574 0.0683 0.0637 0.0789 | lr 9.4e-04 | norm 0.0166 | dt 0.044 type train | step 850 | loss 0.0880 0.0574 0.0684 0.0635 0.0791 | lr 9.4e-04 | norm 0.0196 | dt 0.044 type train | step 860 | loss 0.0881 0.0574 0.0684 0.0638 0.0794 | lr 9.4e-04 | norm 0.0180 | dt 0.045 type train | step 870 | loss 0.0898 0.0582 0.0691 0.0645 0.0799 | lr 9.3e-04 | norm 0.0274 | dt 0.044 type train | step 880 | loss 0.0866 0.0567 0.0677 0.0634 0.0791 | lr 9.3e-04 | norm 0.0247 | dt 0.044 type train | step 890 | loss 0.0875 0.0570 0.0682 0.0637 0.0795 | lr 9.3e-04 | norm 0.0181 | dt 0.044 type train | step 900 | loss 0.0882 0.0574 0.0686 0.0641 0.0796 | lr 9.3e-04 | norm 0.0218 | dt 0.045 type train | step 910 | loss 0.0873 0.0571 0.0681 0.0635 0.0790 | lr 9.3e-04 | norm 0.0203 | dt 0.044 type train | step 920 | loss 0.0871 0.0569 0.0679 0.0635 0.0788 | lr 9.3e-04 | norm 0.0215 | dt 0.045 type train | step 930 | loss 0.0871 0.0569 0.0679 0.0635 0.0789 | lr 9.3e-04 | norm 0.0290 | dt 0.045 type train | step 940 | loss 0.0865 0.0566 0.0677 0.0633 0.0788 | lr 9.2e-04 | norm 0.0214 | dt 0.044 type train | step 950 | loss 0.0871 0.0570 0.0680 0.0635 0.0791 | lr 9.2e-04 | norm 0.0194 | dt 0.044 type train | step 960 | loss 0.0871 0.0568 0.0680 0.0637 0.0793 | lr 9.2e-04 | norm 0.0239 | dt 0.044 type train | step 970 | loss 0.0856 0.0561 0.0674 0.0631 0.0782 | lr 9.2e-04 | norm 0.0170 | dt 0.044 type train | step 980 | loss 0.0866 0.0564 0.0676 0.0632 0.0786 | lr 9.2e-04 | norm 0.0167 | dt 0.044 type train | step 990 | loss 0.0853 0.0558 0.0672 0.0630 0.0781 | lr 9.2e-04 | norm 0.0176 | dt 0.044 type train | step 1000 | loss 0.0862 0.0563 0.0677 0.0634 0.0791 | lr 9.1e-04 | norm 0.0219 | dt 0.044 type train | step 1010 | loss 0.0858 0.0560 0.0675 0.0633 0.0784 | lr 9.1e-04 | norm 0.0256 | dt 0.045 type train | step 1020 | loss 0.0862 0.0563 0.0677 0.0634 0.0792 | lr 9.1e-04 | norm 0.0210 | dt 0.045 type train | step 1030 | loss 0.0857 0.0560 0.0674 0.0632 0.0784 | lr 9.1e-04 | norm 0.0188 | dt 0.045 type train | step 1040 | loss 0.0855 0.0558 0.0672 0.0630 0.0787 | lr 9.1e-04 | norm 0.0228 | dt 0.044 type train | step 1050 | loss 0.0859 0.0562 0.0677 0.0634 0.0790 | lr 9.1e-04 | norm 0.0161 | dt 0.044 type train | step 1060 | loss 0.0841 0.0553 0.0669 0.0626 0.0779 | lr 9.0e-04 | norm 0.0200 | dt 0.044 type train | step 1070 | loss 0.0845 0.0556 0.0670 0.0629 0.0784 | lr 9.0e-04 | norm 0.0224 | dt 0.044 type train | step 1080 | loss 0.0861 0.0564 0.0678 0.0635 0.0791 | lr 9.0e-04 | norm 0.0201 | dt 0.045 type train | step 1090 | loss 0.0854 0.0559 0.0676 0.0631 0.0786 | lr 9.0e-04 | norm 0.0203 | dt 0.044 type train | step 1100 | loss 0.0844 0.0554 0.0670 0.0630 0.0782 | lr 9.0e-04 | norm 0.0229 | dt 0.044 type train | step 1110 | loss 0.0844 0.0554 0.0671 0.0628 0.0781 | lr 8.9e-04 | norm 0.0211 | dt 0.044 type train | step 1120 | loss 0.0850 0.0557 0.0673 0.0629 0.0784 | lr 8.9e-04 | norm 0.0181 | dt 0.044 type train | step 1130 | loss 0.0849 0.0556 0.0673 0.0630 0.0784 | lr 8.9e-04 | norm 0.0227 | dt 0.044 type train | step 1140 | loss 0.0846 0.0556 0.0671 0.0630 0.0786 | lr 8.9e-04 | norm 0.0170 | dt 0.045 type train | step 1150 | loss 0.0846 0.0555 0.0672 0.0630 0.0785 | lr 8.9e-04 | norm 0.0185 | dt 0.045 type train | step 1160 | loss 0.0854 0.0558 0.0674 0.0633 0.0786 | lr 8.9e-04 | norm 0.0184 | dt 0.044 type train | step 1170 | loss 0.0857 0.0560 0.0673 0.0630 0.0788 | lr 8.8e-04 | norm 0.0202 | dt 0.044 type train | step 1180 | loss 0.0847 0.0554 0.0671 0.0629 0.0783 | lr 8.8e-04 | norm 0.0229 | dt 0.045 type train | step 1190 | loss 0.0836 0.0549 0.0666 0.0624 0.0777 | lr 8.8e-04 | norm 0.0192 | dt 0.044 type train | step 1200 | loss 0.0844 0.0553 0.0670 0.0627 0.0783 | lr 8.8e-04 | norm 0.0218 | dt 0.044 type train | step 1210 | loss 0.0843 0.0552 0.0667 0.0624 0.0779 | lr 8.8e-04 | norm 0.0332 | dt 0.045 type train | step 1220 | loss 0.0839 0.0549 0.0665 0.0627 0.0781 | lr 8.7e-04 | norm 0.0182 | dt 0.087 type train | step 1230 | loss 0.0848 0.0555 0.0673 0.0632 0.0792 | lr 8.7e-04 | norm 0.0287 | dt 0.044 type train | step 1240 | loss 0.0841 0.0552 0.0670 0.0630 0.0787 | lr 8.7e-04 | norm 0.0178 | dt 0.044 type train | step 1250 | loss 0.0845 0.0551 0.0669 0.0627 0.0782 | lr 8.7e-04 | norm 0.0173 | dt 0.044 type train | step 1260 | loss 0.0834 0.0548 0.0665 0.0625 0.0779 | lr 8.7e-04 | norm 0.0198 | dt 0.045 type train | step 1270 | loss 0.0841 0.0552 0.0669 0.0627 0.0782 | lr 8.6e-04 | norm 0.0199 | dt 0.045 type train | step 1280 | loss 0.0834 0.0546 0.0665 0.0623 0.0779 | lr 8.6e-04 | norm 0.0199 | dt 0.044 type train | step 1290 | loss 0.0842 0.0550 0.0668 0.0630 0.0785 | lr 8.6e-04 | norm 0.0211 | dt 0.044 type train | step 1300 | loss 0.0842 0.0550 0.0667 0.0626 0.0784 | lr 8.6e-04 | norm 0.0184 | dt 0.044 type train | step 1310 | loss 0.0837 0.0548 0.0667 0.0625 0.0780 | lr 8.6e-04 | norm 0.0252 | dt 0.044 type train | step 1320 | loss 0.0837 0.0548 0.0667 0.0626 0.0780 | lr 8.5e-04 | norm 0.0252 | dt 0.044 type train | step 1330 | loss 0.0841 0.0550 0.0669 0.0631 0.0787 | lr 8.5e-04 | norm 0.0203 | dt 0.044 type train | step 1340 | loss 0.0840 0.0550 0.0670 0.0629 0.0787 | lr 8.5e-04 | norm 0.0265 | dt 0.044 type train | step 1350 | loss 0.0842 0.0550 0.0669 0.0629 0.0785 | lr 8.5e-04 | norm 0.0204 | dt 0.045 type train | step 1360 | loss 0.0838 0.0548 0.0667 0.0626 0.0781 | lr 8.5e-04 | norm 0.0184 | dt 0.045 type train | step 1370 | loss 0.0827 0.0543 0.0662 0.0623 0.0780 | lr 8.4e-04 | norm 0.0192 | dt 0.045 type train | step 1380 | loss 0.0834 0.0546 0.0665 0.0624 0.0779 | lr 8.4e-04 | norm 0.0229 | dt 0.044 type train | step 1390 | loss 0.0826 0.0542 0.0661 0.0621 0.0773 | lr 8.4e-04 | norm 0.0227 | dt 0.044 type train | step 1400 | loss 0.0826 0.0543 0.0660 0.0620 0.0774 | lr 8.4e-04 | norm 0.0221 | dt 0.044 type train | step 1410 | loss 0.0828 0.0543 0.0663 0.0626 0.0781 | lr 8.3e-04 | norm 0.0178 | dt 0.044 type train | step 1420 | loss 0.0834 0.0547 0.0666 0.0625 0.0783 | lr 8.3e-04 | norm 0.0166 | dt 0.044 type train | step 1430 | loss 0.0832 0.0545 0.0665 0.0623 0.0778 | lr 8.3e-04 | norm 0.0169 | dt 0.044 type train | step 1440 | loss 0.0828 0.0544 0.0665 0.0623 0.0779 | lr 8.3e-04 | norm 0.0236 | dt 0.046 type train | step 1450 | loss 0.0828 0.0543 0.0662 0.0623 0.0775 | lr 8.3e-04 | norm 0.0190 | dt 0.045 type train | step 1460 | loss 0.0829 0.0544 0.0663 0.0622 0.0778 | lr 8.2e-04 | norm 0.0201 | dt 0.044 type train | step 1470 | loss 0.0831 0.0544 0.0665 0.0624 0.0781 | lr 8.2e-04 | norm 0.0193 | dt 0.044 type train | step 1480 | loss 0.0850 0.0553 0.0672 0.0631 0.0787 | lr 8.2e-04 | norm 0.0274 | dt 0.044 type train | step 1490 | loss 0.0819 0.0538 0.0659 0.0621 0.0778 | lr 8.2e-04 | norm 0.0284 | dt 0.044 type train | step 1500 | loss 0.0829 0.0542 0.0664 0.0625 0.0782 | lr 8.1e-04 | norm 0.0175 | dt 0.044 type train | step 1510 | loss 0.0836 0.0547 0.0668 0.0629 0.0784 | lr 8.1e-04 | norm 0.0236 | dt 0.044 type train | step 1520 | loss 0.0829 0.0545 0.0664 0.0623 0.0779 | lr 8.1e-04 | norm 0.0222 | dt 0.044 type train | step 1530 | loss 0.0828 0.0544 0.0662 0.0623 0.0777 | lr 8.1e-04 | norm 0.0233 | dt 0.047 type train | step 1540 | loss 0.0829 0.0544 0.0663 0.0623 0.0778 | lr 8.1e-04 | norm 0.0307 | dt 0.047 type train | step 1550 | loss 0.0823 0.0541 0.0661 0.0622 0.0777 | lr 8.0e-04 | norm 0.0214 | dt 0.047 type train | step 1560 | loss 0.0831 0.0545 0.0665 0.0624 0.0780 | lr 8.0e-04 | norm 0.0203 | dt 0.045 type train | step 1570 | loss 0.0831 0.0545 0.0665 0.0627 0.0783 | lr 8.0e-04 | norm 0.0262 | dt 0.044 type train | step 1580 | loss 0.0819 0.0539 0.0658 0.0620 0.0772 | lr 8.0e-04 | norm 0.0196 | dt 0.045 type train | step 1590 | loss 0.0828 0.0541 0.0661 0.0622 0.0776 | lr 7.9e-04 | norm 0.0170 | dt 0.045 type train | step 1600 | loss 0.0817 0.0536 0.0657 0.0620 0.0771 | lr 7.9e-04 | norm 0.0200 | dt 0.044 type train | step 1610 | loss 0.0826 0.0542 0.0663 0.0625 0.0782 | lr 7.9e-04 | norm 0.0227 | dt 0.044 type train | step 1620 | loss 0.0822 0.0540 0.0661 0.0623 0.0775 | lr 7.9e-04 | norm 0.0271 | dt 0.044 type train | step 1630 | loss 0.0826 0.0542 0.0664 0.0624 0.0782 | lr 7.8e-04 | norm 0.0243 | dt 0.045 type train | step 1640 | loss 0.0822 0.0540 0.0661 0.0622 0.0775 | lr 7.8e-04 | norm 0.0202 | dt 0.044 type train | step 1650 | loss 0.0821 0.0538 0.0659 0.0622 0.0778 | lr 7.8e-04 | norm 0.0214 | dt 0.045 type train | step 1660 | loss 0.0825 0.0542 0.0664 0.0626 0.0782 | lr 7.8e-04 | norm 0.0182 | dt 0.046 type train | step 1670 | loss 0.0808 0.0535 0.0656 0.0618 0.0770 | lr 7.7e-04 | norm 0.0186 | dt 0.044 type train | step 1680 | loss 0.0814 0.0537 0.0657 0.0620 0.0776 | lr 7.7e-04 | norm 0.0238 | dt 0.044 type train | step 1690 | loss 0.0830 0.0546 0.0666 0.0627 0.0783 | lr 7.7e-04 | norm 0.0257 | dt 0.045 type train | step 1700 | loss 0.0824 0.0541 0.0664 0.0623 0.0779 | lr 7.7e-04 | norm 0.0220 | dt 0.044 type train | step 1710 | loss 0.0813 0.0536 0.0659 0.0622 0.0774 | lr 7.6e-04 | norm 0.0260 | dt 0.044 type train | step 1720 | loss 0.0815 0.0537 0.0659 0.0620 0.0774 | lr 7.6e-04 | norm 0.0208 | dt 0.044 type train | step 1730 | loss 0.0821 0.0541 0.0662 0.0622 0.0777 | lr 7.6e-04 | norm 0.0199 | dt 0.044 type train | step 1740 | loss 0.0821 0.0539 0.0662 0.0623 0.0777 | lr 7.6e-04 | norm 0.0247 | dt 0.044 type train | step 1750 | loss 0.0818 0.0540 0.0661 0.0623 0.0779 | lr 7.5e-04 | norm 0.0181 | dt 0.045 type train | step 1760 | loss 0.0818 0.0539 0.0661 0.0622 0.0778 | lr 7.5e-04 | norm 0.0189 | dt 0.044 type train | step 1770 | loss 0.0827 0.0542 0.0664 0.0626 0.0780 | lr 7.5e-04 | norm 0.0202 | dt 0.044 type train | step 1780 | loss 0.0830 0.0544 0.0663 0.0624 0.0782 | lr 7.5e-04 | norm 0.0214 | dt 0.044 type train | step 1790 | loss 0.0822 0.0539 0.0661 0.0622 0.0777 | lr 7.4e-04 | norm 0.0238 | dt 0.045 type train | step 1800 | loss 0.0811 0.0535 0.0656 0.0617 0.0770 | lr 7.4e-04 | norm 0.0202 | dt 0.044 type train | step 1810 | loss 0.0820 0.0539 0.0660 0.0621 0.0777 | lr 7.4e-04 | norm 0.0200 | dt 0.045 type train | step 1820 | loss 0.0819 0.0537 0.0658 0.0618 0.0773 | lr 7.4e-04 | norm 0.0333 | dt 0.044 type train | step 1830 | loss 0.0814 0.0536 0.0655 0.0621 0.0775 | lr 7.3e-04 | norm 0.0188 | dt 0.087 type train | step 1840 | loss 0.0824 0.0541 0.0664 0.0625 0.0787 | lr 7.3e-04 | norm 0.0263 | dt 0.044 type train | step 1850 | loss 0.0817 0.0539 0.0661 0.0624 0.0782 | lr 7.3e-04 | norm 0.0196 | dt 0.044 type train | step 1860 | loss 0.0822 0.0538 0.0660 0.0621 0.0776 | lr 7.3e-04 | norm 0.0174 | dt 0.046 type train | step 1870 | loss 0.0810 0.0535 0.0657 0.0619 0.0773 | lr 7.2e-04 | norm 0.0209 | dt 0.045 type train | step 1880 | loss 0.0818 0.0539 0.0661 0.0622 0.0776 | lr 7.2e-04 | norm 0.0183 | dt 0.044 type train | step 1890 | loss 0.0812 0.0534 0.0657 0.0618 0.0774 | lr 7.2e-04 | norm 0.0195 | dt 0.044 type train | step 1900 | loss 0.0820 0.0538 0.0660 0.0624 0.0780 | lr 7.2e-04 | norm 0.0191 | dt 0.045 type train | step 1910 | loss 0.0821 0.0538 0.0659 0.0621 0.0778 | lr 7.1e-04 | norm 0.0181 | dt 0.045 type train | step 1920 | loss 0.0816 0.0537 0.0658 0.0619 0.0776 | lr 7.1e-04 | norm 0.0249 | dt 0.044 type train | step 1930 | loss 0.0816 0.0537 0.0659 0.0621 0.0775 | lr 7.1e-04 | norm 0.0261 | dt 0.045 type train | step 1940 | loss 0.0820 0.0539 0.0662 0.0625 0.0781 | lr 7.1e-04 | norm 0.0213 | dt 0.045 type train | step 1950 | loss 0.0820 0.0539 0.0663 0.0625 0.0782 | lr 7.0e-04 | norm 0.0251 | dt 0.044 type train | step 1960 | loss 0.0822 0.0539 0.0662 0.0624 0.0780 | lr 7.0e-04 | norm 0.0188 | dt 0.044 type train | step 1970 | loss 0.0817 0.0538 0.0660 0.0622 0.0776 | lr 7.0e-04 | norm 0.0206 | dt 0.044 type train | step 1980 | loss 0.0807 0.0532 0.0655 0.0618 0.0775 | lr 6.9e-04 | norm 0.0207 | dt 0.044 type train | step 1990 | loss 0.0814 0.0535 0.0658 0.0620 0.0774 | lr 6.9e-04 | norm 0.0200 | dt 0.044 type train | step 2000 | loss 0.0807 0.0532 0.0654 0.0616 0.0769 | lr 6.9e-04 | norm 0.0229 | dt 0.044 type train | step 2010 | loss 0.0808 0.0533 0.0653 0.0615 0.0769 | lr 6.9e-04 | norm 0.0202 | dt 0.045 type train | step 2020 | loss 0.0809 0.0534 0.0657 0.0621 0.0777 | lr 6.8e-04 | norm 0.0189 | dt 0.044 type train | step 2030 | loss 0.0815 0.0537 0.0659 0.0621 0.0778 | lr 6.8e-04 | norm 0.0166 | dt 0.045 type train | step 2040 | loss 0.0814 0.0536 0.0658 0.0619 0.0774 | lr 6.8e-04 | norm 0.0167 | dt 0.044 type train | step 2050 | loss 0.0810 0.0534 0.0658 0.0619 0.0775 | lr 6.8e-04 | norm 0.0239 | dt 0.044 type train | step 2060 | loss 0.0811 0.0534 0.0656 0.0619 0.0771 | lr 6.7e-04 | norm 0.0192 | dt 0.045 type train | step 2070 | loss 0.0812 0.0534 0.0657 0.0618 0.0774 | lr 6.7e-04 | norm 0.0192 | dt 0.045 type train | step 2080 | loss 0.0814 0.0535 0.0658 0.0620 0.0777 | lr 6.7e-04 | norm 0.0190 | dt 0.044 type train | step 2090 | loss 0.0832 0.0544 0.0666 0.0627 0.0782 | lr 6.6e-04 | norm 0.0288 | dt 0.044 type train | step 2100 | loss 0.0803 0.0530 0.0652 0.0617 0.0774 | lr 6.6e-04 | norm 0.0242 | dt 0.044 type train | step 2110 | loss 0.0813 0.0534 0.0658 0.0621 0.0778 | lr 6.6e-04 | norm 0.0245 | dt 0.044 type train | step 2120 | loss 0.0820 0.0538 0.0663 0.0625 0.0780 | lr 6.6e-04 | norm 0.0310 | dt 0.045 type train | step 2130 | loss 0.0813 0.0536 0.0658 0.0619 0.0775 | lr 6.5e-04 | norm 0.0211 | dt 0.045 type train | step 2140 | loss 0.0812 0.0535 0.0657 0.0620 0.0773 | lr 6.5e-04 | norm 0.0241 | dt 0.049 type train | step 2150 | loss 0.0814 0.0535 0.0657 0.0619 0.0775 | lr 6.5e-04 | norm 0.0290 | dt 0.047 type train | step 2160 | loss 0.0808 0.0533 0.0656 0.0619 0.0773 | lr 6.5e-04 | norm 0.0208 | dt 0.048 type train | step 2170 | loss 0.0816 0.0537 0.0659 0.0620 0.0777 | lr 6.4e-04 | norm 0.0173 | dt 0.044 type train | step 2180 | loss 0.0816 0.0537 0.0659 0.0623 0.0779 | lr 6.4e-04 | norm 0.0262 | dt 0.045 type train | step 2190 | loss 0.0804 0.0531 0.0653 0.0617 0.0768 | lr 6.4e-04 | norm 0.0182 | dt 0.046 type train | step 2200 | loss 0.0814 0.0534 0.0656 0.0618 0.0773 | lr 6.3e-04 | norm 0.0174 | dt 0.045 type train | step 2210 | loss 0.0803 0.0529 0.0652 0.0616 0.0768 | lr 6.3e-04 | norm 0.0186 | dt 0.044 type train | step 2220 | loss 0.0812 0.0534 0.0658 0.0621 0.0778 | lr 6.3e-04 | norm 0.0202 | dt 0.045 type train | step 2230 | loss 0.0808 0.0532 0.0656 0.0620 0.0771 | lr 6.3e-04 | norm 0.0268 | dt 0.044 type train | step 2240 | loss 0.0812 0.0535 0.0659 0.0621 0.0779 | lr 6.2e-04 | norm 0.0228 | dt 0.044 type train | step 2250 | loss 0.0808 0.0533 0.0656 0.0619 0.0772 | lr 6.2e-04 | norm 0.0173 | dt 0.044 type train | step 2260 | loss 0.0808 0.0531 0.0654 0.0618 0.0775 | lr 6.2e-04 | norm 0.0246 | dt 0.045 type train | step 2270 | loss 0.0812 0.0535 0.0659 0.0623 0.0779 | lr 6.1e-04 | norm 0.0161 | dt 0.044 type train | step 2280 | loss 0.0796 0.0528 0.0651 0.0615 0.0767 | lr 6.1e-04 | norm 0.0213 | dt 0.045 type train | step 2290 | loss 0.0802 0.0530 0.0653 0.0617 0.0773 | lr 6.1e-04 | norm 0.0254 | dt 0.045 type train | step 2300 | loss 0.0817 0.0540 0.0661 0.0624 0.0780 | lr 6.1e-04 | norm 0.0231 | dt 0.044 type train | step 2310 | loss 0.0811 0.0534 0.0660 0.0620 0.0776 | lr 6.0e-04 | norm 0.0217 | dt 0.044 type train | step 2320 | loss 0.0801 0.0529 0.0654 0.0618 0.0771 | lr 6.0e-04 | norm 0.0234 | dt 0.044 type train | step 2330 | loss 0.0803 0.0530 0.0655 0.0617 0.0770 | lr 6.0e-04 | norm 0.0188 | dt 0.045 type train | step 2340 | loss 0.0809 0.0534 0.0657 0.0619 0.0774 | lr 6.0e-04 | norm 0.0195 | dt 0.045 type train | step 2350 | loss 0.0808 0.0533 0.0658 0.0621 0.0774 | lr 5.9e-04 | norm 0.0227 | dt 0.044 type train | step 2360 | loss 0.0807 0.0534 0.0656 0.0621 0.0776 | lr 5.9e-04 | norm 0.0215 | dt 0.044 type train | step 2370 | loss 0.0806 0.0533 0.0657 0.0620 0.0775 | lr 5.9e-04 | norm 0.0203 | dt 0.044 type train | step 2380 | loss 0.0815 0.0536 0.0659 0.0623 0.0777 | lr 5.8e-04 | norm 0.0155 | dt 0.044 type train | step 2390 | loss 0.0818 0.0538 0.0659 0.0621 0.0779 | lr 5.8e-04 | norm 0.0220 | dt 0.045 type train | step 2400 | loss 0.0811 0.0534 0.0656 0.0619 0.0774 | lr 5.8e-04 | norm 0.0225 | dt 0.044 type train | step 2410 | loss 0.0800 0.0529 0.0652 0.0614 0.0768 | lr 5.8e-04 | norm 0.0193 | dt 0.044 type train | step 2420 | loss 0.0809 0.0533 0.0656 0.0618 0.0775 | lr 5.7e-04 | norm 0.0200 | dt 0.044 type train | step 2430 | loss 0.0808 0.0532 0.0654 0.0616 0.0771 | lr 5.7e-04 | norm 0.0312 | dt 0.045 type train | step 2440 | loss 0.0802 0.0530 0.0651 0.0618 0.0772 | lr 5.7e-04 | norm 0.0188 | dt 0.087 type train | step 2450 | loss 0.0813 0.0536 0.0660 0.0623 0.0784 | lr 5.6e-04 | norm 0.0270 | dt 0.045 type train | step 2460 | loss 0.0806 0.0534 0.0657 0.0621 0.0779 | lr 5.6e-04 | norm 0.0217 | dt 0.044 type train | step 2470 | loss 0.0811 0.0533 0.0656 0.0619 0.0774 | lr 5.6e-04 | norm 0.0188 | dt 0.044 type train | step 2480 | loss 0.0800 0.0529 0.0653 0.0616 0.0771 | lr 5.6e-04 | norm 0.0179 | dt 0.044 type train | step 2490 | loss 0.0808 0.0533 0.0657 0.0619 0.0774 | lr 5.5e-04 | norm 0.0165 | dt 0.045 type train | step 2500 | loss 0.0801 0.0528 0.0653 0.0616 0.0772 | lr 5.5e-04 | norm 0.0203 | dt 0.045 type train | step 2510 | loss 0.0809 0.0533 0.0656 0.0622 0.0777 | lr 5.5e-04 | norm 0.0218 | dt 0.045 type train | step 2520 | loss 0.0811 0.0533 0.0655 0.0618 0.0776 | lr 5.4e-04 | norm 0.0183 | dt 0.045 type train | step 2530 | loss 0.0806 0.0532 0.0654 0.0617 0.0774 | lr 5.4e-04 | norm 0.0262 | dt 0.045 type train | step 2540 | loss 0.0806 0.0532 0.0655 0.0618 0.0773 | lr 5.4e-04 | norm 0.0246 | dt 0.044 type train | step 2550 | loss 0.0810 0.0534 0.0658 0.0623 0.0779 | lr 5.4e-04 | norm 0.0191 | dt 0.044 type train | step 2560 | loss 0.0810 0.0534 0.0659 0.0622 0.0780 | lr 5.3e-04 | norm 0.0271 | dt 0.045 type train | step 2570 | loss 0.0812 0.0535 0.0658 0.0621 0.0777 | lr 5.3e-04 | norm 0.0198 | dt 0.044 type train | step 2580 | loss 0.0808 0.0533 0.0657 0.0619 0.0774 | lr 5.3e-04 | norm 0.0160 | dt 0.044 type train | step 2590 | loss 0.0798 0.0527 0.0651 0.0616 0.0772 | lr 5.2e-04 | norm 0.0192 | dt 0.046 type train | step 2600 | loss 0.0805 0.0531 0.0655 0.0618 0.0772 | lr 5.2e-04 | norm 0.0188 | dt 0.045 type train | step 2610 | loss 0.0798 0.0527 0.0651 0.0614 0.0767 | lr 5.2e-04 | norm 0.0215 | dt 0.044 type train | step 2620 | loss 0.0799 0.0528 0.0650 0.0613 0.0767 | lr 5.2e-04 | norm 0.0183 | dt 0.045 type train | step 2630 | loss 0.0799 0.0529 0.0653 0.0619 0.0775 | lr 5.1e-04 | norm 0.0165 | dt 0.045 type train | step 2640 | loss 0.0806 0.0533 0.0656 0.0619 0.0776 | lr 5.1e-04 | norm 0.0161 | dt 0.045 type train | step 2650 | loss 0.0806 0.0531 0.0655 0.0617 0.0772 | lr 5.1e-04 | norm 0.0198 | dt 0.045 type train | step 2660 | loss 0.0801 0.0530 0.0655 0.0617 0.0773 | lr 5.0e-04 | norm 0.0228 | dt 0.044 type train | step 2670 | loss 0.0802 0.0530 0.0652 0.0617 0.0769 | lr 5.0e-04 | norm 0.0171 | dt 0.045 type train | step 2680 | loss 0.0803 0.0530 0.0653 0.0616 0.0772 | lr 5.0e-04 | norm 0.0195 | dt 0.045 type train | step 2690 | loss 0.0805 0.0531 0.0655 0.0618 0.0774 | lr 5.0e-04 | norm 0.0203 | dt 0.044 type train | step 2700 | loss 0.0823 0.0539 0.0662 0.0626 0.0780 | lr 4.9e-04 | norm 0.0268 | dt 0.045 type train | step 2710 | loss 0.0794 0.0526 0.0649 0.0615 0.0772 | lr 4.9e-04 | norm 0.0200 | dt 0.045 type train | step 2720 | loss 0.0804 0.0530 0.0655 0.0619 0.0776 | lr 4.9e-04 | norm 0.0186 | dt 0.045 type train | step 2730 | loss 0.0812 0.0534 0.0660 0.0623 0.0778 | lr 4.9e-04 | norm 0.0247 | dt 0.044 type train | step 2740 | loss 0.0804 0.0532 0.0655 0.0618 0.0773 | lr 4.8e-04 | norm 0.0225 | dt 0.044 type train | step 2750 | loss 0.0804 0.0531 0.0654 0.0618 0.0771 | lr 4.8e-04 | norm 0.0221 | dt 0.045 type train | step 2760 | loss 0.0805 0.0531 0.0654 0.0618 0.0773 | lr 4.8e-04 | norm 0.0276 | dt 0.047 type train | step 2770 | loss 0.0800 0.0530 0.0653 0.0617 0.0771 | lr 4.7e-04 | norm 0.0178 | dt 0.047 type train | step 2780 | loss 0.0808 0.0533 0.0657 0.0619 0.0775 | lr 4.7e-04 | norm 0.0184 | dt 0.047 type train | step 2790 | loss 0.0809 0.0533 0.0656 0.0621 0.0777 | lr 4.7e-04 | norm 0.0263 | dt 0.046 type train | step 2800 | loss 0.0797 0.0527 0.0650 0.0615 0.0767 | lr 4.7e-04 | norm 0.0186 | dt 0.045 type train | step 2810 | loss 0.0806 0.0531 0.0654 0.0616 0.0771 | lr 4.6e-04 | norm 0.0181 | dt 0.045 type train | step 2820 | loss 0.0796 0.0525 0.0649 0.0615 0.0766 | lr 4.6e-04 | norm 0.0174 | dt 0.044 type train | step 2830 | loss 0.0804 0.0531 0.0656 0.0620 0.0777 | lr 4.6e-04 | norm 0.0214 | dt 0.045 type train | step 2840 | loss 0.0800 0.0529 0.0653 0.0618 0.0770 | lr 4.5e-04 | norm 0.0208 | dt 0.046 type train | step 2850 | loss 0.0805 0.0532 0.0656 0.0619 0.0777 | lr 4.5e-04 | norm 0.0174 | dt 0.045 type train | step 2860 | loss 0.0801 0.0530 0.0653 0.0618 0.0770 | lr 4.5e-04 | norm 0.0153 | dt 0.044 type train | step 2870 | loss 0.0801 0.0528 0.0652 0.0617 0.0773 | lr 4.5e-04 | norm 0.0245 | dt 0.044 type train | step 2880 | loss 0.0805 0.0532 0.0657 0.0621 0.0777 | lr 4.4e-04 | norm 0.0161 | dt 0.045 type train | step 2890 | loss 0.0788 0.0524 0.0649 0.0613 0.0766 | lr 4.4e-04 | norm 0.0179 | dt 0.044 type train | step 2900 | loss 0.0795 0.0527 0.0650 0.0616 0.0772 | lr 4.4e-04 | norm 0.0205 | dt 0.044 type train | step 2910 | loss 0.0811 0.0537 0.0659 0.0622 0.0778 | lr 4.4e-04 | norm 0.0190 | dt 0.044 type train | step 2920 | loss 0.0804 0.0531 0.0657 0.0619 0.0775 | lr 4.3e-04 | norm 0.0185 | dt 0.045 type train | step 2930 | loss 0.0794 0.0526 0.0651 0.0617 0.0769 | lr 4.3e-04 | norm 0.0201 | dt 0.045 type train | step 2940 | loss 0.0796 0.0527 0.0652 0.0616 0.0769 | lr 4.3e-04 | norm 0.0187 | dt 0.044 type train | step 2950 | loss 0.0802 0.0531 0.0655 0.0617 0.0773 | lr 4.2e-04 | norm 0.0178 | dt 0.045 type train | step 2960 | loss 0.0802 0.0530 0.0655 0.0619 0.0773 | lr 4.2e-04 | norm 0.0193 | dt 0.045 type train | step 2970 | loss 0.0800 0.0531 0.0654 0.0619 0.0775 | lr 4.2e-04 | norm 0.0193 | dt 0.045 type train | step 2980 | loss 0.0800 0.0530 0.0655 0.0618 0.0773 | lr 4.2e-04 | norm 0.0175 | dt 0.045 type train | step 2990 | loss 0.0809 0.0533 0.0657 0.0622 0.0775 | lr 4.1e-04 | norm 0.0143 | dt 0.045 type train | step 3000 | loss 0.0812 0.0535 0.0657 0.0620 0.0778 | lr 4.1e-04 | norm 0.0201 | dt 0.045 type train | step 3010 | loss 0.0805 0.0531 0.0654 0.0618 0.0773 | lr 4.1e-04 | norm 0.0190 | dt 0.044 type train | step 3020 | loss 0.0794 0.0526 0.0650 0.0612 0.0766 | lr 4.1e-04 | norm 0.0196 | dt 0.045 type train | step 3030 | loss 0.0803 0.0530 0.0654 0.0617 0.0773 | lr 4.0e-04 | norm 0.0188 | dt 0.045 type train | step 3040 | loss 0.0802 0.0529 0.0652 0.0614 0.0769 | lr 4.0e-04 | norm 0.0309 | dt 0.044 type train | step 3050 | loss 0.0796 0.0527 0.0649 0.0617 0.0771 | lr 4.0e-04 | norm 0.0213 | dt 0.088 type train | step 3060 | loss 0.0807 0.0533 0.0658 0.0621 0.0783 | lr 3.9e-04 | norm 0.0233 | dt 0.045 type train | step 3070 | loss 0.0800 0.0531 0.0655 0.0620 0.0778 | lr 3.9e-04 | norm 0.0205 | dt 0.044 type train | step 3080 | loss 0.0806 0.0530 0.0654 0.0618 0.0773 | lr 3.9e-04 | norm 0.0148 | dt 0.044 type train | step 3090 | loss 0.0794 0.0527 0.0651 0.0615 0.0769 | lr 3.9e-04 | norm 0.0179 | dt 0.044 type train | step 3100 | loss 0.0803 0.0531 0.0655 0.0618 0.0772 | lr 3.8e-04 | norm 0.0167 | dt 0.045 type train | step 3110 | loss 0.0796 0.0525 0.0651 0.0614 0.0770 | lr 3.8e-04 | norm 0.0182 | dt 0.044 type train | step 3120 | loss 0.0803 0.0530 0.0654 0.0621 0.0776 | lr 3.8e-04 | norm 0.0193 | dt 0.046 type train | step 3130 | loss 0.0805 0.0530 0.0653 0.0617 0.0774 | lr 3.8e-04 | norm 0.0167 | dt 0.045 type train | step 3140 | loss 0.0800 0.0529 0.0652 0.0616 0.0772 | lr 3.7e-04 | norm 0.0194 | dt 0.044 type train | step 3150 | loss 0.0800 0.0530 0.0653 0.0617 0.0772 | lr 3.7e-04 | norm 0.0219 | dt 0.044 type train | step 3160 | loss 0.0805 0.0531 0.0656 0.0621 0.0778 | lr 3.7e-04 | norm 0.0184 | dt 0.044 type train | step 3170 | loss 0.0805 0.0531 0.0657 0.0621 0.0779 | lr 3.7e-04 | norm 0.0242 | dt 0.044 type train | step 3180 | loss 0.0807 0.0532 0.0656 0.0620 0.0776 | lr 3.6e-04 | norm 0.0170 | dt 0.045 type train | step 3190 | loss 0.0803 0.0530 0.0655 0.0618 0.0773 | lr 3.6e-04 | norm 0.0154 | dt 0.045 type train | step 3200 | loss 0.0792 0.0525 0.0649 0.0615 0.0771 | lr 3.6e-04 | norm 0.0198 | dt 0.044 type train | step 3210 | loss 0.0800 0.0528 0.0653 0.0617 0.0771 | lr 3.6e-04 | norm 0.0181 | dt 0.044 type train | step 3220 | loss 0.0794 0.0525 0.0649 0.0613 0.0766 | lr 3.5e-04 | norm 0.0192 | dt 0.045 type train | step 3230 | loss 0.0794 0.0525 0.0648 0.0612 0.0766 | lr 3.5e-04 | norm 0.0181 | dt 0.045 type train | step 3240 | loss 0.0795 0.0527 0.0652 0.0618 0.0774 | lr 3.5e-04 | norm 0.0164 | dt 0.045 type train | step 3250 | loss 0.0801 0.0530 0.0654 0.0617 0.0775 | lr 3.5e-04 | norm 0.0151 | dt 0.045 type train | step 3260 | loss 0.0801 0.0529 0.0654 0.0616 0.0771 | lr 3.4e-04 | norm 0.0161 | dt 0.047 type train | step 3270 | loss 0.0797 0.0527 0.0653 0.0616 0.0772 | lr 3.4e-04 | norm 0.0196 | dt 0.047 type train | step 3280 | loss 0.0797 0.0527 0.0651 0.0616 0.0768 | lr 3.4e-04 | norm 0.0161 | dt 0.045 type train | step 3290 | loss 0.0799 0.0528 0.0652 0.0615 0.0771 | lr 3.4e-04 | norm 0.0163 | dt 0.044 type train | step 3300 | loss 0.0800 0.0529 0.0653 0.0617 0.0773 | lr 3.3e-04 | norm 0.0175 | dt 0.044 type train | step 3310 | loss 0.0819 0.0537 0.0661 0.0625 0.0779 | lr 3.3e-04 | norm 0.0250 | dt 0.044 type train | step 3320 | loss 0.0790 0.0524 0.0648 0.0614 0.0771 | lr 3.3e-04 | norm 0.0212 | dt 0.045 type train | step 3330 | loss 0.0800 0.0528 0.0654 0.0618 0.0775 | lr 3.3e-04 | norm 0.0172 | dt 0.045 type train | step 3340 | loss 0.0808 0.0532 0.0658 0.0622 0.0777 | lr 3.2e-04 | norm 0.0234 | dt 0.046 type train | step 3350 | loss 0.0800 0.0530 0.0653 0.0617 0.0772 | lr 3.2e-04 | norm 0.0218 | dt 0.045 type train | step 3360 | loss 0.0800 0.0529 0.0652 0.0617 0.0770 | lr 3.2e-04 | norm 0.0189 | dt 0.044 type train | step 3370 | loss 0.0802 0.0529 0.0653 0.0616 0.0772 | lr 3.2e-04 | norm 0.0266 | dt 0.044 type train | step 3380 | loss 0.0796 0.0528 0.0652 0.0616 0.0770 | lr 3.1e-04 | norm 0.0179 | dt 0.045 type train | step 3390 | loss 0.0804 0.0531 0.0655 0.0618 0.0774 | lr 3.1e-04 | norm 0.0161 | dt 0.044 type train | step 3400 | loss 0.0804 0.0531 0.0655 0.0620 0.0776 | lr 3.1e-04 | norm 0.0229 | dt 0.045 type train | step 3410 | loss 0.0793 0.0525 0.0649 0.0614 0.0766 | lr 3.1e-04 | norm 0.0176 | dt 0.045 type train | step 3420 | loss 0.0802 0.0529 0.0652 0.0615 0.0770 | lr 3.0e-04 | norm 0.0173 | dt 0.044 type train | step 3430 | loss 0.0792 0.0523 0.0648 0.0614 0.0765 | lr 3.0e-04 | norm 0.0151 | dt 0.044 type train | step 3440 | loss 0.0800 0.0529 0.0654 0.0619 0.0776 | lr 3.0e-04 | norm 0.0185 | dt 0.044 type train | step 3450 | loss 0.0796 0.0527 0.0652 0.0617 0.0769 | lr 3.0e-04 | norm 0.0179 | dt 0.044 type train | step 3460 | loss 0.0801 0.0530 0.0655 0.0618 0.0776 | lr 2.9e-04 | norm 0.0174 | dt 0.045 type train | step 3470 | loss 0.0797 0.0528 0.0652 0.0617 0.0770 | lr 2.9e-04 | norm 0.0142 | dt 0.044 type train | step 3480 | loss 0.0797 0.0526 0.0650 0.0616 0.0772 | lr 2.9e-04 | norm 0.0204 | dt 0.044 type train | step 3490 | loss 0.0801 0.0530 0.0656 0.0620 0.0776 | lr 2.9e-04 | norm 0.0142 | dt 0.044 type train | step 3500 | loss 0.0785 0.0523 0.0647 0.0612 0.0765 | lr 2.9e-04 | norm 0.0191 | dt 0.045 type train | step 3510 | loss 0.0791 0.0525 0.0649 0.0615 0.0771 | lr 2.8e-04 | norm 0.0174 | dt 0.047 type train | step 3520 | loss 0.0807 0.0535 0.0658 0.0622 0.0778 | lr 2.8e-04 | norm 0.0192 | dt 0.047 type train | step 3530 | loss 0.0800 0.0529 0.0656 0.0618 0.0774 | lr 2.8e-04 | norm 0.0184 | dt 0.046 type train | step 3540 | loss 0.0791 0.0524 0.0650 0.0616 0.0769 | lr 2.8e-04 | norm 0.0166 | dt 0.046 type train | step 3550 | loss 0.0793 0.0526 0.0651 0.0615 0.0768 | lr 2.7e-04 | norm 0.0174 | dt 0.045 type train | step 3560 | loss 0.0799 0.0529 0.0653 0.0617 0.0772 | lr 2.7e-04 | norm 0.0155 | dt 0.044 type train | step 3570 | loss 0.0798 0.0528 0.0654 0.0619 0.0772 | lr 2.7e-04 | norm 0.0177 | dt 0.044 type train | step 3580 | loss 0.0797 0.0529 0.0653 0.0618 0.0774 | lr 2.7e-04 | norm 0.0175 | dt 0.044 type train | step 3590 | loss 0.0797 0.0528 0.0654 0.0618 0.0773 | lr 2.7e-04 | norm 0.0164 | dt 0.045 type train | step 3600 | loss 0.0806 0.0532 0.0656 0.0621 0.0775 | lr 2.6e-04 | norm 0.0157 | dt 0.045 type train | step 3610 | loss 0.0808 0.0533 0.0656 0.0619 0.0777 | lr 2.6e-04 | norm 0.0184 | dt 0.044 type train | step 3620 | loss 0.0802 0.0529 0.0653 0.0617 0.0772 | lr 2.6e-04 | norm 0.0172 | dt 0.045 type train | step 3630 | loss 0.0791 0.0524 0.0649 0.0612 0.0765 | lr 2.6e-04 | norm 0.0187 | dt 0.045 type train | step 3640 | loss 0.0801 0.0528 0.0653 0.0616 0.0772 | lr 2.5e-04 | norm 0.0172 | dt 0.044 type train | step 3650 | loss 0.0799 0.0527 0.0651 0.0614 0.0768 | lr 2.5e-04 | norm 0.0281 | dt 0.044 type train | step 3660 | loss 0.0793 0.0526 0.0648 0.0616 0.0770 | lr 2.5e-04 | norm 0.0187 | dt 0.087 type train | step 3670 | loss 0.0804 0.0531 0.0657 0.0621 0.0782 | lr 2.5e-04 | norm 0.0221 | dt 0.045 type train | step 3680 | loss 0.0797 0.0530 0.0654 0.0619 0.0777 | lr 2.5e-04 | norm 0.0167 | dt 0.045 type train | step 3690 | loss 0.0803 0.0528 0.0653 0.0617 0.0772 | lr 2.4e-04 | norm 0.0146 | dt 0.044 type train | step 3700 | loss 0.0791 0.0525 0.0650 0.0614 0.0769 | lr 2.4e-04 | norm 0.0158 | dt 0.045 type train | step 3710 | loss 0.0800 0.0529 0.0654 0.0617 0.0772 | lr 2.4e-04 | norm 0.0166 | dt 0.045 type train | step 3720 | loss 0.0794 0.0524 0.0650 0.0614 0.0770 | lr 2.4e-04 | norm 0.0170 | dt 0.045 type train | step 3730 | loss 0.0801 0.0529 0.0653 0.0620 0.0775 | lr 2.4e-04 | norm 0.0195 | dt 0.044 type train | step 3740 | loss 0.0803 0.0529 0.0652 0.0616 0.0774 | lr 2.3e-04 | norm 0.0187 | dt 0.044 type train | step 3750 | loss 0.0797 0.0528 0.0651 0.0615 0.0771 | lr 2.3e-04 | norm 0.0212 | dt 0.044 type train | step 3760 | loss 0.0798 0.0528 0.0652 0.0617 0.0771 | lr 2.3e-04 | norm 0.0204 | dt 0.044 type train | step 3770 | loss 0.0802 0.0530 0.0655 0.0621 0.0777 | lr 2.3e-04 | norm 0.0170 | dt 0.044 type train | step 3780 | loss 0.0802 0.0530 0.0656 0.0621 0.0778 | lr 2.3e-04 | norm 0.0240 | dt 0.045 type train | step 3790 | loss 0.0805 0.0531 0.0656 0.0619 0.0775 | lr 2.2e-04 | norm 0.0170 | dt 0.044 type train | step 3800 | loss 0.0801 0.0529 0.0654 0.0617 0.0772 | lr 2.2e-04 | norm 0.0158 | dt 0.044 type train | step 3810 | loss 0.0790 0.0524 0.0648 0.0614 0.0770 | lr 2.2e-04 | norm 0.0168 | dt 0.045 type train | step 3820 | loss 0.0797 0.0527 0.0652 0.0616 0.0771 | lr 2.2e-04 | norm 0.0179 | dt 0.044 type train | step 3830 | loss 0.0791 0.0523 0.0648 0.0612 0.0766 | lr 2.2e-04 | norm 0.0190 | dt 0.044 type train | step 3840 | loss 0.0791 0.0524 0.0647 0.0612 0.0765 | lr 2.1e-04 | norm 0.0165 | dt 0.044 type train | step 3850 | loss 0.0793 0.0525 0.0651 0.0617 0.0773 | lr 2.1e-04 | norm 0.0154 | dt 0.044 type train | step 3860 | loss 0.0799 0.0529 0.0653 0.0617 0.0775 | lr 2.1e-04 | norm 0.0153 | dt 0.044 type train | step 3870 | loss 0.0799 0.0528 0.0653 0.0615 0.0770 | lr 2.1e-04 | norm 0.0144 | dt 0.046 type train | step 3880 | loss 0.0795 0.0526 0.0652 0.0615 0.0771 | lr 2.1e-04 | norm 0.0196 | dt 0.045 type train | step 3890 | loss 0.0795 0.0526 0.0650 0.0615 0.0767 | lr 2.1e-04 | norm 0.0147 | dt 0.044 type train | step 3900 | loss 0.0796 0.0527 0.0651 0.0614 0.0770 | lr 2.0e-04 | norm 0.0148 | dt 0.044 type train | step 3910 | loss 0.0798 0.0527 0.0652 0.0616 0.0773 | lr 2.0e-04 | norm 0.0162 | dt 0.045 type train | step 3920 | loss 0.0816 0.0536 0.0660 0.0624 0.0779 | lr 2.0e-04 | norm 0.0240 | dt 0.044 type train | step 3930 | loss 0.0788 0.0523 0.0647 0.0614 0.0770 | lr 2.0e-04 | norm 0.0214 | dt 0.044 type train | step 3940 | loss 0.0798 0.0527 0.0653 0.0618 0.0774 | lr 2.0e-04 | norm 0.0142 | dt 0.045 type train | step 3950 | loss 0.0806 0.0531 0.0657 0.0622 0.0777 | lr 1.9e-04 | norm 0.0207 | dt 0.047 type train | step 3960 | loss 0.0798 0.0529 0.0653 0.0616 0.0772 | lr 1.9e-04 | norm 0.0178 | dt 0.045 type train | step 3970 | loss 0.0798 0.0528 0.0651 0.0616 0.0770 | lr 1.9e-04 | norm 0.0182 | dt 0.049 type train | step 3980 | loss 0.0800 0.0528 0.0652 0.0616 0.0771 | lr 1.9e-04 | norm 0.0217 | dt 0.047 type train | step 3990 | loss 0.0794 0.0527 0.0651 0.0615 0.0770 | lr 1.9e-04 | norm 0.0157 | dt 0.047 type train | step 4000 | loss 0.0802 0.0530 0.0654 0.0617 0.0774 | lr 1.9e-04 | norm 0.0153 | dt 0.048 type train | step 4010 | loss 0.0802 0.0530 0.0654 0.0620 0.0776 | lr 1.8e-04 | norm 0.0209 | dt 0.044 type train | step 4020 | loss 0.0790 0.0524 0.0648 0.0614 0.0766 | lr 1.8e-04 | norm 0.0170 | dt 0.044 type train | step 4030 | loss 0.0800 0.0528 0.0652 0.0615 0.0770 | lr 1.8e-04 | norm 0.0167 | dt 0.044 type train | step 4040 | loss 0.0790 0.0522 0.0647 0.0613 0.0765 | lr 1.8e-04 | norm 0.0154 | dt 0.044 type train | step 4050 | loss 0.0798 0.0528 0.0653 0.0618 0.0775 | lr 1.8e-04 | norm 0.0158 | dt 0.044 type train | step 4060 | loss 0.0794 0.0526 0.0651 0.0617 0.0768 | lr 1.8e-04 | norm 0.0170 | dt 0.044 type train | step 4070 | loss 0.0799 0.0529 0.0654 0.0618 0.0776 | lr 1.7e-04 | norm 0.0150 | dt 0.044 type train | step 4080 | loss 0.0796 0.0527 0.0651 0.0616 0.0769 | lr 1.7e-04 | norm 0.0145 | dt 0.044 type train | step 4090 | loss 0.0795 0.0525 0.0649 0.0615 0.0772 | lr 1.7e-04 | norm 0.0195 | dt 0.045 type train | step 4100 | loss 0.0799 0.0529 0.0655 0.0620 0.0776 | lr 1.7e-04 | norm 0.0138 | dt 0.045 type train | step 4110 | loss 0.0783 0.0522 0.0647 0.0612 0.0765 | lr 1.7e-04 | norm 0.0169 | dt 0.046 type train | step 4120 | loss 0.0789 0.0524 0.0648 0.0615 0.0771 | lr 1.7e-04 | norm 0.0157 | dt 0.045 type train | step 4130 | loss 0.0805 0.0534 0.0657 0.0621 0.0777 | lr 1.7e-04 | norm 0.0158 | dt 0.044 type train | step 4140 | loss 0.0799 0.0528 0.0655 0.0617 0.0773 | lr 1.6e-04 | norm 0.0160 | dt 0.044 type train | step 4150 | loss 0.0789 0.0523 0.0649 0.0615 0.0768 | lr 1.6e-04 | norm 0.0154 | dt 0.047 type train | step 4160 | loss 0.0791 0.0525 0.0650 0.0614 0.0768 | lr 1.6e-04 | norm 0.0161 | dt 0.045 type train | step 4170 | loss 0.0798 0.0528 0.0653 0.0616 0.0771 | lr 1.6e-04 | norm 0.0140 | dt 0.044 type train | step 4180 | loss 0.0796 0.0527 0.0653 0.0618 0.0772 | lr 1.6e-04 | norm 0.0171 | dt 0.044 type train | step 4190 | loss 0.0795 0.0528 0.0652 0.0618 0.0773 | lr 1.6e-04 | norm 0.0151 | dt 0.045 type train | step 4200 | loss 0.0795 0.0527 0.0653 0.0617 0.0772 | lr 1.6e-04 | norm 0.0155 | dt 0.045 type train | step 4210 | loss 0.0804 0.0531 0.0655 0.0621 0.0774 | lr 1.5e-04 | norm 0.0135 | dt 0.046 type train | step 4220 | loss 0.0807 0.0532 0.0655 0.0618 0.0776 | lr 1.5e-04 | norm 0.0174 | dt 0.049 type train | step 4230 | loss 0.0800 0.0528 0.0653 0.0617 0.0771 | lr 1.5e-04 | norm 0.0180 | dt 0.048 type train | step 4240 | loss 0.0789 0.0523 0.0648 0.0611 0.0765 | lr 1.5e-04 | norm 0.0177 | dt 0.047 type train | step 4250 | loss 0.0799 0.0528 0.0653 0.0616 0.0772 | lr 1.5e-04 | norm 0.0157 | dt 0.048 type train | step 4260 | loss 0.0797 0.0526 0.0650 0.0613 0.0768 | lr 1.5e-04 | norm 0.0277 | dt 0.047 type train | step 4270 | loss 0.0791 0.0525 0.0648 0.0616 0.0770 | lr 1.5e-04 | norm 0.0196 | dt 0.087 type train | step 4280 | loss 0.0803 0.0530 0.0656 0.0620 0.0782 | lr 1.5e-04 | norm 0.0205 | dt 0.044 type train | step 4290 | loss 0.0796 0.0529 0.0653 0.0619 0.0777 | lr 1.4e-04 | norm 0.0143 | dt 0.044 type train | step 4300 | loss 0.0802 0.0528 0.0653 0.0617 0.0772 | lr 1.4e-04 | norm 0.0146 | dt 0.045 type train | step 4310 | loss 0.0790 0.0524 0.0649 0.0614 0.0768 | lr 1.4e-04 | norm 0.0162 | dt 0.044 type train | step 4320 | loss 0.0799 0.0528 0.0653 0.0617 0.0771 | lr 1.4e-04 | norm 0.0159 | dt 0.044 type train | step 4330 | loss 0.0792 0.0523 0.0650 0.0613 0.0769 | lr 1.4e-04 | norm 0.0165 | dt 0.046 type train | step 4340 | loss 0.0799 0.0528 0.0653 0.0620 0.0775 | lr 1.4e-04 | norm 0.0162 | dt 0.044 type train | step 4350 | loss 0.0801 0.0528 0.0652 0.0616 0.0774 | lr 1.4e-04 | norm 0.0142 | dt 0.045 type train | step 4360 | loss 0.0796 0.0527 0.0651 0.0615 0.0771 | lr 1.4e-04 | norm 0.0168 | dt 0.044 type train | step 4370 | loss 0.0796 0.0528 0.0652 0.0616 0.0770 | lr 1.3e-04 | norm 0.0193 | dt 0.044 type train | step 4380 | loss 0.0801 0.0529 0.0654 0.0620 0.0777 | lr 1.3e-04 | norm 0.0148 | dt 0.044 type train | step 4390 | loss 0.0801 0.0529 0.0656 0.0620 0.0778 | lr 1.3e-04 | norm 0.0232 | dt 0.044 type train | step 4400 | loss 0.0804 0.0531 0.0655 0.0619 0.0775 | lr 1.3e-04 | norm 0.0147 | dt 0.044 type train | step 4410 | loss 0.0799 0.0528 0.0653 0.0617 0.0772 | lr 1.3e-04 | norm 0.0143 | dt 0.044 type train | step 4420 | loss 0.0789 0.0523 0.0648 0.0614 0.0770 | lr 1.3e-04 | norm 0.0160 | dt 0.044 type train | step 4430 | loss 0.0796 0.0526 0.0651 0.0616 0.0770 | lr 1.3e-04 | norm 0.0182 | dt 0.044 type train | step 4440 | loss 0.0790 0.0523 0.0648 0.0612 0.0765 | lr 1.3e-04 | norm 0.0172 | dt 0.044 type train | step 4450 | loss 0.0790 0.0524 0.0647 0.0611 0.0765 | lr 1.3e-04 | norm 0.0160 | dt 0.044 type train | step 4460 | loss 0.0791 0.0525 0.0650 0.0617 0.0773 | lr 1.3e-04 | norm 0.0147 | dt 0.045 type train | step 4470 | loss 0.0797 0.0529 0.0653 0.0617 0.0774 | lr 1.2e-04 | norm 0.0157 | dt 0.045 type train | step 4480 | loss 0.0798 0.0527 0.0652 0.0615 0.0770 | lr 1.2e-04 | norm 0.0127 | dt 0.044 type train | step 4490 | loss 0.0793 0.0526 0.0652 0.0615 0.0771 | lr 1.2e-04 | norm 0.0169 | dt 0.044 type train | step 4500 | loss 0.0794 0.0526 0.0649 0.0615 0.0767 | lr 1.2e-04 | norm 0.0140 | dt 0.046 type train | step 4510 | loss 0.0795 0.0526 0.0650 0.0614 0.0770 | lr 1.2e-04 | norm 0.0158 | dt 0.045 type train | step 4520 | loss 0.0797 0.0527 0.0652 0.0616 0.0773 | lr 1.2e-04 | norm 0.0151 | dt 0.045 type train | step 4530 | loss 0.0815 0.0535 0.0659 0.0624 0.0778 | lr 1.2e-04 | norm 0.0239 | dt 0.044 type train | step 4540 | loss 0.0787 0.0522 0.0647 0.0614 0.0770 | lr 1.2e-04 | norm 0.0193 | dt 0.044 type train | step 4550 | loss 0.0796 0.0526 0.0652 0.0617 0.0774 | lr 1.2e-04 | norm 0.0127 | dt 0.045 type train | step 4560 | loss 0.0804 0.0530 0.0657 0.0622 0.0777 | lr 1.2e-04 | norm 0.0177 | dt 0.044 type train | step 4570 | loss 0.0797 0.0528 0.0652 0.0616 0.0771 | lr 1.2e-04 | norm 0.0163 | dt 0.044 type train | step 4580 | loss 0.0797 0.0527 0.0651 0.0616 0.0769 | lr 1.2e-04 | norm 0.0159 | dt 0.044 type train | step 4590 | loss 0.0798 0.0528 0.0651 0.0616 0.0771 | lr 1.1e-04 | norm 0.0202 | dt 0.044 type train | step 4600 | loss 0.0793 0.0526 0.0651 0.0615 0.0770 | lr 1.1e-04 | norm 0.0159 | dt 0.044 type train | step 4610 | loss 0.0801 0.0530 0.0654 0.0617 0.0773 | lr 1.1e-04 | norm 0.0141 | dt 0.044 type train | step 4620 | loss 0.0801 0.0530 0.0654 0.0620 0.0776 | lr 1.1e-04 | norm 0.0206 | dt 0.044 type train | step 4630 | loss 0.0789 0.0523 0.0648 0.0614 0.0765 | lr 1.1e-04 | norm 0.0169 | dt 0.044 type train | step 4640 | loss 0.0799 0.0527 0.0651 0.0615 0.0769 | lr 1.1e-04 | norm 0.0165 | dt 0.044 type train | step 4650 | loss 0.0789 0.0521 0.0647 0.0613 0.0764 | lr 1.1e-04 | norm 0.0139 | dt 0.045 type train | step 4660 | loss 0.0797 0.0527 0.0653 0.0618 0.0775 | lr 1.1e-04 | norm 0.0141 | dt 0.044 type train | step 4670 | loss 0.0793 0.0526 0.0651 0.0617 0.0768 | lr 1.1e-04 | norm 0.0156 | dt 0.045 type train | step 4680 | loss 0.0798 0.0528 0.0654 0.0618 0.0775 | lr 1.1e-04 | norm 0.0147 | dt 0.044 type train | step 4690 | loss 0.0794 0.0526 0.0651 0.0616 0.0769 | lr 1.1e-04 | norm 0.0147 | dt 0.044 type train | step 4700 | loss 0.0794 0.0524 0.0649 0.0615 0.0771 | lr 1.1e-04 | norm 0.0187 | dt 0.045 type train | step 4710 | loss 0.0798 0.0528 0.0654 0.0619 0.0775 | lr 1.1e-04 | norm 0.0130 | dt 0.044 type train | step 4720 | loss 0.0782 0.0521 0.0646 0.0611 0.0764 | lr 1.1e-04 | norm 0.0161 | dt 0.046 type train | step 4730 | loss 0.0788 0.0524 0.0648 0.0614 0.0770 | lr 1.1e-04 | norm 0.0151 | dt 0.045 type train | step 4740 | loss 0.0804 0.0533 0.0657 0.0621 0.0777 | lr 1.1e-04 | norm 0.0159 | dt 0.045 type train | step 4750 | loss 0.0798 0.0528 0.0655 0.0617 0.0773 | lr 1.1e-04 | norm 0.0165 | dt 0.045 type train | step 4760 | loss 0.0788 0.0522 0.0649 0.0615 0.0768 | lr 1.1e-04 | norm 0.0148 | dt 0.044 type train | step 4770 | loss 0.0790 0.0525 0.0650 0.0614 0.0767 | lr 1.0e-04 | norm 0.0163 | dt 0.044 type train | step 4780 | loss 0.0797 0.0528 0.0652 0.0616 0.0771 | lr 1.0e-04 | norm 0.0128 | dt 0.045 type train | step 4790 | loss 0.0796 0.0527 0.0653 0.0618 0.0771 | lr 1.0e-04 | norm 0.0164 | dt 0.044 type train | step 4800 | loss 0.0794 0.0528 0.0652 0.0618 0.0773 | lr 1.0e-04 | norm 0.0145 | dt 0.044 type train | step 4810 | loss 0.0794 0.0527 0.0653 0.0617 0.0772 | lr 1.0e-04 | norm 0.0149 | dt 0.044 type train | step 4820 | loss 0.0803 0.0530 0.0655 0.0621 0.0774 | lr 1.0e-04 | norm 0.0137 | dt 0.044 type train | step 4830 | loss 0.0806 0.0531 0.0655 0.0618 0.0776 | lr 1.0e-04 | norm 0.0171 | dt 0.044 type train | step 4840 | loss 0.0800 0.0528 0.0652 0.0617 0.0771 | lr 1.0e-04 | norm 0.0184 | dt 0.045 type train | step 4850 | loss 0.0788 0.0523 0.0648 0.0611 0.0765 | lr 1.0e-04 | norm 0.0191 | dt 0.044 type train | step 4860 | loss 0.0798 0.0527 0.0652 0.0616 0.0772 | lr 1.0e-04 | norm 0.0148 | dt 0.044 type train | step 4870 | loss 0.0796 0.0526 0.0650 0.0613 0.0768 | lr 1.0e-04 | norm 0.0280 | dt 0.045 type train | step 4880 | loss 0.0790 0.0525 0.0648 0.0616 0.0770 | lr 1.0e-04 | norm 0.0205 | dt 0.088 type train | step 4890 | loss 0.0802 0.0530 0.0656 0.0620 0.0781 | lr 1.0e-04 | norm 0.0199 | dt 0.048 type train | step 4900 | loss 0.0795 0.0528 0.0653 0.0619 0.0776 | lr 1.0e-04 | norm 0.0130 | dt 0.048 type train | step 4910 | loss 0.0801 0.0527 0.0652 0.0617 0.0772 | lr 1.0e-04 | norm 0.0149 | dt 0.047 type train | step 4920 | loss 0.0789 0.0524 0.0649 0.0614 0.0768 | lr 1.0e-04 | norm 0.0156 | dt 0.047 type train | step 4930 | loss 0.0798 0.0528 0.0653 0.0617 0.0771 | lr 1.0e-04 | norm 0.0149 | dt 0.045 type train | step 4940 | loss 0.0791 0.0523 0.0650 0.0613 0.0769 | lr 1.0e-04 | norm 0.0164 | dt 0.045 type train | step 4950 | loss 0.0798 0.0528 0.0652 0.0620 0.0774 | lr 1.0e-04 | norm 0.0152 | dt 0.045 type train | step 4960 | loss 0.0800 0.0528 0.0651 0.0616 0.0773 | lr 1.0e-04 | norm 0.0135 | dt 0.044 type train | step 4970 | loss 0.0795 0.0527 0.0650 0.0615 0.0771 | lr 1.0e-04 | norm 0.0163 | dt 0.044 type train | step 4980 | loss 0.0796 0.0527 0.0651 0.0616 0.0770 | lr 1.0e-04 | norm 0.0190 | dt 0.044 type train | step 4990 | loss 0.0800 0.0529 0.0654 0.0620 0.0777 | lr 1.0e-04 | norm 0.0142 | dt 0.045 type train | step 5000 | loss 0.0800 0.0529 0.0655 0.0620 0.0777 | lr 1.0e-04 | norm 0.0216 | dt 0.044