update files

6c6b84e verified 10 months ago

46.3 kB

	{"loss": 1.5113287, "token_acc": 0.61778471, "grad_norm": 1.1438998, "learning_rate": 4.76e-06, "memory(GiB)": 27.82, "train_speed(iter/s)": 0.045285, "epoch": 0.00985222, "global_step/max_steps": "1/408", "percentage": "0.25%", "elapsed_time": "15s", "remaining_time": "1h 45m 12s"}
	{"loss": 1.36758876, "token_acc": 0.69628339, "grad_norm": 7.16057968, "learning_rate": 2.381e-05, "memory(GiB)": 43.66, "train_speed(iter/s)": 0.068926, "epoch": 0.04926108, "global_step/max_steps": "5/408", "percentage": "1.23%", "elapsed_time": "1m 5s", "remaining_time": "1h 28m 37s"}
	{"loss": 1.29375896, "token_acc": 0.71007164, "grad_norm": 2.56125426, "learning_rate": 4.762e-05, "memory(GiB)": 43.66, "train_speed(iter/s)": 0.080563, "epoch": 0.09852217, "global_step/max_steps": "10/408", "percentage": "2.45%", "elapsed_time": "1m 57s", "remaining_time": "1h 17m 58s"}
	{"loss": 1.05734949, "token_acc": 0.70894309, "grad_norm": 0.56351644, "learning_rate": 7.143e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.080517, "epoch": 0.14778325, "global_step/max_steps": "15/408", "percentage": "3.68%", "elapsed_time": "2m 59s", "remaining_time": "1h 18m 28s"}
	{"loss": 0.86586151, "token_acc": 0.7974038, "grad_norm": 1.47200131, "learning_rate": 9.524e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.083377, "epoch": 0.19704433, "global_step/max_steps": "20/408", "percentage": "4.90%", "elapsed_time": "3m 53s", "remaining_time": "1h 15m 26s"}
	{"loss": 0.63560405, "token_acc": 0.79494863, "grad_norm": 0.71839398, "learning_rate": 9.997e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.083884, "epoch": 0.24630542, "global_step/max_steps": "25/408", "percentage": "6.13%", "elapsed_time": "4m 51s", "remaining_time": "1h 14m 26s"}
	{"loss": 0.37654943, "token_acc": 0.89977117, "grad_norm": 2.07310343, "learning_rate": 9.987e-05, "memory(GiB)": 46.36, "train_speed(iter/s)": 0.082587, "epoch": 0.2955665, "global_step/max_steps": "30/408", "percentage": "7.35%", "elapsed_time": "5m 56s", "remaining_time": "1h 14m 54s"}
	{"loss": 0.29990513, "token_acc": 0.92004773, "grad_norm": 0.34475967, "learning_rate": 9.968e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083511, "epoch": 0.34482759, "global_step/max_steps": "35/408", "percentage": "8.58%", "elapsed_time": "6m 52s", "remaining_time": "1h 13m 16s"}
	{"loss": 0.23740344, "token_acc": 0.9159473, "grad_norm": 0.35161784, "learning_rate": 9.941e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084586, "epoch": 0.39408867, "global_step/max_steps": "40/408", "percentage": "9.80%", "elapsed_time": "7m 46s", "remaining_time": "1h 11m 30s"}
	{"loss": 0.18025997, "token_acc": 0.93435449, "grad_norm": 0.20392458, "learning_rate": 9.905e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084239, "epoch": 0.44334975, "global_step/max_steps": "45/408", "percentage": "11.03%", "elapsed_time": "8m 47s", "remaining_time": "1h 10m 58s"}
	{"loss": 0.21609094, "token_acc": 0.90572119, "grad_norm": 0.36114228, "learning_rate": 9.862e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084254, "epoch": 0.49261084, "global_step/max_steps": "50/408", "percentage": "12.25%", "elapsed_time": "9m 46s", "remaining_time": "1h 10m 2s"}
	{"loss": 0.19180589, "token_acc": 0.93096146, "grad_norm": 0.14914896, "learning_rate": 9.811e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084312, "epoch": 0.54187192, "global_step/max_steps": "55/408", "percentage": "13.48%", "elapsed_time": "10m 45s", "remaining_time": "1h 9m 4s"}
	{"loss": 0.19516932, "token_acc": 0.93881857, "grad_norm": 0.18670624, "learning_rate": 9.752e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084705, "epoch": 0.591133, "global_step/max_steps": "60/408", "percentage": "14.71%", "elapsed_time": "11m 41s", "remaining_time": "1h 7m 50s"}
	{"loss": 0.21567554, "token_acc": 0.93712436, "grad_norm": 0.51451272, "learning_rate": 9.684e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084649, "epoch": 0.64039409, "global_step/max_steps": "65/408", "percentage": "15.93%", "elapsed_time": "12m 41s", "remaining_time": "1h 6m 57s"}
	{"loss": 0.25853636, "token_acc": 0.89223455, "grad_norm": 0.15231448, "learning_rate": 9.61e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08441, "epoch": 0.68965517, "global_step/max_steps": "70/408", "percentage": "17.16%", "elapsed_time": "13m 42s", "remaining_time": "1h 6m 12s"}
	{"loss": 0.23861709, "token_acc": 0.90701606, "grad_norm": 0.217263, "learning_rate": 9.527e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08483, "epoch": 0.73891626, "global_step/max_steps": "75/408", "percentage": "18.38%", "elapsed_time": "14m 37s", "remaining_time": "1h 4m 56s"}
	{"loss": 0.19056642, "token_acc": 0.91514069, "grad_norm": 0.2489659, "learning_rate": 9.437e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084918, "epoch": 0.78817734, "global_step/max_steps": "80/408", "percentage": "19.61%", "elapsed_time": "15m 35s", "remaining_time": "1h 3m 55s"}
	{"loss": 0.21224594, "token_acc": 0.93311808, "grad_norm": 0.1249176, "learning_rate": 9.34e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085108, "epoch": 0.83743842, "global_step/max_steps": "85/408", "percentage": "20.83%", "elapsed_time": "16m 32s", "remaining_time": "1h 2m 50s"}
	{"loss": 0.22671685, "token_acc": 0.93943041, "grad_norm": 0.13741058, "learning_rate": 9.236e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085309, "epoch": 0.88669951, "global_step/max_steps": "90/408", "percentage": "22.06%", "elapsed_time": "17m 28s", "remaining_time": "1h 1m 44s"}
	{"loss": 0.21927426, "token_acc": 0.91076431, "grad_norm": 0.13183653, "learning_rate": 9.125e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085269, "epoch": 0.93596059, "global_step/max_steps": "95/408", "percentage": "23.28%", "elapsed_time": "18m 27s", "remaining_time": "1h 0m 49s"}
	{"loss": 0.25219593, "token_acc": 0.91363124, "grad_norm": 0.14684513, "learning_rate": 9.007e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085107, "epoch": 0.98522167, "global_step/max_steps": "100/408", "percentage": "24.51%", "elapsed_time": "19m 28s", "remaining_time": "59m 58s"}
	{"eval_loss": 0.18471338, "eval_token_acc": 0.92693376, "eval_runtime": 32.5583, "eval_samples_per_second": 5.006, "eval_steps_per_second": 0.645, "epoch": 0.98522167, "global_step/max_steps": "100/408", "percentage": "24.51%", "elapsed_time": "20m 0s", "remaining_time": "1h 1m 39s"}
	{"loss": 0.18699621, "token_acc": 0.9513842, "grad_norm": 0.09996708, "learning_rate": 8.882e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082192, "epoch": 1.02955665, "global_step/max_steps": "105/408", "percentage": "25.74%", "elapsed_time": "21m 10s", "remaining_time": "1h 1m 7s"}
	{"loss": 0.22225828, "token_acc": 0.93471682, "grad_norm": 0.46669698, "learning_rate": 8.751e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082526, "epoch": 1.07881773, "global_step/max_steps": "110/408", "percentage": "26.96%", "elapsed_time": "22m 6s", "remaining_time": "59m 53s"}
	{"loss": 0.20784435, "token_acc": 0.9002201, "grad_norm": 0.24231695, "learning_rate": 8.614e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082733, "epoch": 1.12807882, "global_step/max_steps": "115/408", "percentage": "28.19%", "elapsed_time": "23m 3s", "remaining_time": "58m 44s"}
	{"loss": 0.21038592, "token_acc": 0.91332523, "grad_norm": 0.11104886, "learning_rate": 8.47e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083205, "epoch": 1.1773399, "global_step/max_steps": "120/408", "percentage": "29.41%", "elapsed_time": "23m 55s", "remaining_time": "57m 25s"}
	{"loss": 0.16864126, "token_acc": 0.90902052, "grad_norm": 0.12771185, "learning_rate": 8.321e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083244, "epoch": 1.22660099, "global_step/max_steps": "125/408", "percentage": "30.64%", "elapsed_time": "24m 55s", "remaining_time": "56m 24s"}
	{"loss": 0.21356649, "token_acc": 0.94361603, "grad_norm": 0.14268941, "learning_rate": 8.167e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08358, "epoch": 1.27586207, "global_step/max_steps": "130/408", "percentage": "31.86%", "elapsed_time": "25m 48s", "remaining_time": "55m 12s"}
	{"loss": 0.18836164, "token_acc": 0.94089609, "grad_norm": 0.1286447, "learning_rate": 8.007e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084021, "epoch": 1.32512315, "global_step/max_steps": "135/408", "percentage": "33.09%", "elapsed_time": "26m 40s", "remaining_time": "53m 55s"}
	{"loss": 0.18028114, "token_acc": 0.93527081, "grad_norm": 0.19574603, "learning_rate": 7.843e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083978, "epoch": 1.37438424, "global_step/max_steps": "140/408", "percentage": "34.31%", "elapsed_time": "27m 40s", "remaining_time": "52m 58s"}
	{"loss": 0.24067347, "token_acc": 0.91863969, "grad_norm": 0.16170277, "learning_rate": 7.674e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084231, "epoch": 1.42364532, "global_step/max_steps": "145/408", "percentage": "35.54%", "elapsed_time": "28m 34s", "remaining_time": "51m 50s"}
	{"loss": 0.17983549, "token_acc": 0.94094994, "grad_norm": 0.17479429, "learning_rate": 7.5e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084121, "epoch": 1.4729064, "global_step/max_steps": "150/408", "percentage": "36.76%", "elapsed_time": "29m 36s", "remaining_time": "50m 55s"}
	{"loss": 0.18072735, "token_acc": 0.93500672, "grad_norm": 0.12388473, "learning_rate": 7.322e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084251, "epoch": 1.52216749, "global_step/max_steps": "155/408", "percentage": "37.99%", "elapsed_time": "30m 33s", "remaining_time": "49m 52s"}
	{"loss": 0.21040893, "token_acc": 0.92209259, "grad_norm": 0.15163633, "learning_rate": 7.141e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08424, "epoch": 1.57142857, "global_step/max_steps": "160/408", "percentage": "39.22%", "elapsed_time": "31m 32s", "remaining_time": "48m 53s"}
	{"loss": 0.19408944, "token_acc": 0.93657606, "grad_norm": 0.11409654, "learning_rate": 6.956e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084339, "epoch": 1.62068966, "global_step/max_steps": "165/408", "percentage": "40.44%", "elapsed_time": "32m 29s", "remaining_time": "47m 51s"}
	{"loss": 0.24078565, "token_acc": 0.91913531, "grad_norm": 0.1193001, "learning_rate": 6.767e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084297, "epoch": 1.66995074, "global_step/max_steps": "170/408", "percentage": "41.67%", "elapsed_time": "33m 30s", "remaining_time": "46m 54s"}
	{"loss": 0.17748476, "token_acc": 0.95294118, "grad_norm": 0.14652598, "learning_rate": 6.576e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084149, "epoch": 1.71921182, "global_step/max_steps": "175/408", "percentage": "42.89%", "elapsed_time": "34m 33s", "remaining_time": "46m 0s"}
	{"loss": 0.21679573, "token_acc": 0.90971108, "grad_norm": 0.17889175, "learning_rate": 6.382e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084177, "epoch": 1.76847291, "global_step/max_steps": "180/408", "percentage": "44.12%", "elapsed_time": "35m 31s", "remaining_time": "45m 0s"}
	{"loss": 0.20164218, "token_acc": 0.9244713, "grad_norm": 0.19796193, "learning_rate": 6.186e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084229, "epoch": 1.81773399, "global_step/max_steps": "185/408", "percentage": "45.34%", "elapsed_time": "36m 29s", "remaining_time": "43m 59s"}
	{"loss": 0.20713468, "token_acc": 0.93385896, "grad_norm": 0.39984605, "learning_rate": 5.988e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084194, "epoch": 1.86699507, "global_step/max_steps": "190/408", "percentage": "46.57%", "elapsed_time": "37m 30s", "remaining_time": "43m 1s"}
	{"loss": 0.19675667, "token_acc": 0.93268826, "grad_norm": 0.14613956, "learning_rate": 5.788e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084217, "epoch": 1.91625616, "global_step/max_steps": "195/408", "percentage": "47.79%", "elapsed_time": "38m 28s", "remaining_time": "42m 1s"}
	{"loss": 0.18560442, "token_acc": 0.92589641, "grad_norm": 0.17948869, "learning_rate": 5.587e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084341, "epoch": 1.96551724, "global_step/max_steps": "200/408", "percentage": "49.02%", "elapsed_time": "39m 24s", "remaining_time": "40m 59s"}
	{"eval_loss": 0.16955855, "eval_token_acc": 0.93132189, "eval_runtime": 32.5182, "eval_samples_per_second": 5.013, "eval_steps_per_second": 0.646, "epoch": 1.96551724, "global_step/max_steps": "200/408", "percentage": "49.02%", "elapsed_time": "39m 57s", "remaining_time": "41m 33s"}
	{"loss": 0.17119836, "token_acc": 0.94060537, "grad_norm": 0.26103875, "learning_rate": 5.385e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082712, "epoch": 2.00985222, "global_step/max_steps": "205/408", "percentage": "50.25%", "elapsed_time": "41m 11s", "remaining_time": "40m 47s"}
	{"loss": 0.17515835, "token_acc": 0.93255512, "grad_norm": 0.14594969, "learning_rate": 5.183e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082858, "epoch": 2.0591133, "global_step/max_steps": "210/408", "percentage": "51.47%", "elapsed_time": "42m 7s", "remaining_time": "39m 43s"}
	{"loss": 0.18792986, "token_acc": 0.92803347, "grad_norm": 0.14474452, "learning_rate": 4.98e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082975, "epoch": 2.10837438, "global_step/max_steps": "215/408", "percentage": "52.70%", "elapsed_time": "43m 4s", "remaining_time": "38m 40s"}
	{"loss": 0.19646168, "token_acc": 0.91322471, "grad_norm": 0.2766884, "learning_rate": 4.777e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.0831, "epoch": 2.15763547, "global_step/max_steps": "220/408", "percentage": "53.92%", "elapsed_time": "44m 0s", "remaining_time": "37m 36s"}
	{"loss": 0.21830192, "token_acc": 0.94089733, "grad_norm": 0.20483315, "learning_rate": 4.574e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083061, "epoch": 2.20689655, "global_step/max_steps": "225/408", "percentage": "55.15%", "elapsed_time": "45m 2s", "remaining_time": "36m 37s"}
	{"loss": 0.15320545, "token_acc": 0.92535497, "grad_norm": 0.19927153, "learning_rate": 4.373e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083147, "epoch": 2.25615764, "global_step/max_steps": "230/408", "percentage": "56.37%", "elapsed_time": "45m 59s", "remaining_time": "35m 35s"}
	{"loss": 0.16205881, "token_acc": 0.95869565, "grad_norm": 0.15315884, "learning_rate": 4.172e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083046, "epoch": 2.30541872, "global_step/max_steps": "235/408", "percentage": "57.60%", "elapsed_time": "47m 3s", "remaining_time": "34m 38s"}
	{"loss": 0.18759173, "token_acc": 0.96141649, "grad_norm": 0.20538951, "learning_rate": 3.972e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083011, "epoch": 2.3546798, "global_step/max_steps": "240/408", "percentage": "58.82%", "elapsed_time": "48m 4s", "remaining_time": "33m 39s"}
	{"loss": 0.21688395, "token_acc": 0.9302439, "grad_norm": 0.14777622, "learning_rate": 3.775e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08305, "epoch": 2.40394089, "global_step/max_steps": "245/408", "percentage": "60.05%", "elapsed_time": "49m 3s", "remaining_time": "32m 38s"}
	{"loss": 0.1730878, "token_acc": 0.92793557, "grad_norm": 0.2008879, "learning_rate": 3.579e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083147, "epoch": 2.45320197, "global_step/max_steps": "250/408", "percentage": "61.27%", "elapsed_time": "50m 0s", "remaining_time": "31m 36s"}
	{"loss": 0.22691278, "token_acc": 0.95130368, "grad_norm": 0.22323272, "learning_rate": 3.386e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083069, "epoch": 2.50246305, "global_step/max_steps": "255/408", "percentage": "62.50%", "elapsed_time": "51m 3s", "remaining_time": "30m 37s"}
	{"loss": 0.19658697, "token_acc": 0.94259819, "grad_norm": 0.1386316, "learning_rate": 3.195e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082946, "epoch": 2.55172414, "global_step/max_steps": "260/408", "percentage": "63.73%", "elapsed_time": "52m 8s", "remaining_time": "29m 40s"}
	{"loss": 0.14468747, "token_acc": 0.93704806, "grad_norm": 0.1488943, "learning_rate": 3.007e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082919, "epoch": 2.60098522, "global_step/max_steps": "265/408", "percentage": "64.95%", "elapsed_time": "53m 9s", "remaining_time": "28m 41s"}
	{"loss": 0.15620756, "token_acc": 0.95110484, "grad_norm": 0.24362616, "learning_rate": 2.823e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082956, "epoch": 2.65024631, "global_step/max_steps": "270/408", "percentage": "66.18%", "elapsed_time": "54m 8s", "remaining_time": "27m 40s"}
	{"loss": 0.21157949, "token_acc": 0.93887734, "grad_norm": 0.15498498, "learning_rate": 2.642e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082967, "epoch": 2.69950739, "global_step/max_steps": "275/408", "percentage": "67.40%", "elapsed_time": "55m 7s", "remaining_time": "26m 39s"}
	{"loss": 0.18628376, "token_acc": 0.93192589, "grad_norm": 0.16928883, "learning_rate": 2.465e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083119, "epoch": 2.74876847, "global_step/max_steps": "280/408", "percentage": "68.63%", "elapsed_time": "56m 2s", "remaining_time": "25m 36s"}
	{"loss": 0.18460662, "token_acc": 0.95232348, "grad_norm": 0.14508431, "learning_rate": 2.292e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083129, "epoch": 2.79802956, "global_step/max_steps": "285/408", "percentage": "69.85%", "elapsed_time": "57m 1s", "remaining_time": "24m 36s"}
	{"loss": 0.18390374, "token_acc": 0.94512195, "grad_norm": 0.2172551, "learning_rate": 2.124e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083288, "epoch": 2.84729064, "global_step/max_steps": "290/408", "percentage": "71.08%", "elapsed_time": "57m 55s", "remaining_time": "23m 34s"}
	{"loss": 0.15291797, "token_acc": 0.94475358, "grad_norm": 0.20952879, "learning_rate": 1.96e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083288, "epoch": 2.89655172, "global_step/max_steps": "295/408", "percentage": "72.30%", "elapsed_time": "58m 55s", "remaining_time": "22m 34s"}
	{"loss": 0.15450981, "token_acc": 0.94544463, "grad_norm": 0.15007183, "learning_rate": 1.802e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083566, "epoch": 2.94581281, "global_step/max_steps": "300/408", "percentage": "73.53%", "elapsed_time": "59m 43s", "remaining_time": "21m 30s"}
	{"eval_loss": 0.15761703, "eval_token_acc": 0.93646301, "eval_runtime": 32.5069, "eval_samples_per_second": 5.014, "eval_steps_per_second": 0.646, "epoch": 2.94581281, "global_step/max_steps": "300/408", "percentage": "73.53%", "elapsed_time": "1h 0m 15s", "remaining_time": "21m 41s"}
	{"loss": 0.16923821, "token_acc": 0.94023723, "grad_norm": 0.15036938, "learning_rate": 1.648e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082541, "epoch": 2.99507389, "global_step/max_steps": "305/408", "percentage": "74.75%", "elapsed_time": "1h 1m 28s", "remaining_time": "20m 45s"}
	{"loss": 0.19433179, "token_acc": 0.94760257, "grad_norm": 0.14990255, "learning_rate": 1.501e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082701, "epoch": 3.03940887, "global_step/max_steps": "310/408", "percentage": "75.98%", "elapsed_time": "1h 2m 21s", "remaining_time": "19m 42s"}
	{"loss": 0.14747853, "token_acc": 0.94215181, "grad_norm": 0.1708767, "learning_rate": 1.358e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082712, "epoch": 3.08866995, "global_step/max_steps": "315/408", "percentage": "77.21%", "elapsed_time": "1h 3m 21s", "remaining_time": "18m 42s"}
	{"loss": 0.15996115, "token_acc": 0.94332553, "grad_norm": 0.19326164, "learning_rate": 1.222e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082805, "epoch": 3.13793103, "global_step/max_steps": "320/408", "percentage": "78.43%", "elapsed_time": "1h 4m 17s", "remaining_time": "17m 40s"}
	{"loss": 0.17513353, "token_acc": 0.94858871, "grad_norm": 0.19978851, "learning_rate": 1.093e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082877, "epoch": 3.18719212, "global_step/max_steps": "325/408", "percentage": "79.66%", "elapsed_time": "1h 5m 14s", "remaining_time": "16m 39s"}
	{"loss": 0.18874717, "token_acc": 0.92810458, "grad_norm": 0.22572196, "learning_rate": 9.69e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082928, "epoch": 3.2364532, "global_step/max_steps": "330/408", "percentage": "80.88%", "elapsed_time": "1h 6m 12s", "remaining_time": "15m 39s"}
	{"loss": 0.14738693, "token_acc": 0.97657143, "grad_norm": 0.19937402, "learning_rate": 8.53e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082968, "epoch": 3.28571429, "global_step/max_steps": "335/408", "percentage": "82.11%", "elapsed_time": "1h 7m 11s", "remaining_time": "14m 38s"}
	{"loss": 0.18726131, "token_acc": 0.94211288, "grad_norm": 0.17524569, "learning_rate": 7.43e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083179, "epoch": 3.33497537, "global_step/max_steps": "340/408", "percentage": "83.33%", "elapsed_time": "1h 8m 0s", "remaining_time": "13m 36s"}
	{"loss": 0.17416344, "token_acc": 0.9524838, "grad_norm": 0.27905264, "learning_rate": 6.4e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083282, "epoch": 3.38423645, "global_step/max_steps": "345/408", "percentage": "84.56%", "elapsed_time": "1h 8m 56s", "remaining_time": "12m 35s"}
	{"loss": 0.16444647, "token_acc": 0.95111111, "grad_norm": 0.41894877, "learning_rate": 5.44e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083223, "epoch": 3.43349754, "global_step/max_steps": "350/408", "percentage": "85.78%", "elapsed_time": "1h 9m 59s", "remaining_time": "11m 35s"}
	{"loss": 0.18561231, "token_acc": 0.9483633, "grad_norm": 0.19981049, "learning_rate": 4.56e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083115, "epoch": 3.48275862, "global_step/max_steps": "355/408", "percentage": "87.01%", "elapsed_time": "1h 11m 4s", "remaining_time": "10m 36s"}
	{"loss": 0.17485485, "token_acc": 0.93364377, "grad_norm": 0.17850652, "learning_rate": 3.75e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083077, "epoch": 3.5320197, "global_step/max_steps": "360/408", "percentage": "88.24%", "elapsed_time": "1h 12m 6s", "remaining_time": "9m 36s"}
	{"loss": 0.16429365, "token_acc": 0.94556905, "grad_norm": 0.28650454, "learning_rate": 3.02e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082981, "epoch": 3.58128079, "global_step/max_steps": "365/408", "percentage": "89.46%", "elapsed_time": "1h 13m 12s", "remaining_time": "8m 37s"}
	{"loss": 0.1857482, "token_acc": 0.94309623, "grad_norm": 0.35630593, "learning_rate": 2.36e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082966, "epoch": 3.63054187, "global_step/max_steps": "370/408", "percentage": "90.69%", "elapsed_time": "1h 14m 13s", "remaining_time": "7m 37s"}
	{"loss": 0.18329021, "token_acc": 0.93688925, "grad_norm": 0.19585034, "learning_rate": 1.78e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083017, "epoch": 3.67980296, "global_step/max_steps": "375/408", "percentage": "91.91%", "elapsed_time": "1h 15m 10s", "remaining_time": "6m 36s"}
	{"loss": 0.16946472, "token_acc": 0.92848948, "grad_norm": 0.79841506, "learning_rate": 1.29e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083059, "epoch": 3.72906404, "global_step/max_steps": "380/408", "percentage": "93.14%", "elapsed_time": "1h 16m 8s", "remaining_time": "5m 36s"}
	{"loss": 0.15113609, "token_acc": 0.94202899, "grad_norm": 0.16166148, "learning_rate": 8.7e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083091, "epoch": 3.77832512, "global_step/max_steps": "385/408", "percentage": "94.36%", "elapsed_time": "1h 17m 6s", "remaining_time": "4m 36s"}
	{"loss": 0.17639358, "token_acc": 0.95543315, "grad_norm": 0.16370237, "learning_rate": 5.3e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083127, "epoch": 3.82758621, "global_step/max_steps": "390/408", "percentage": "95.59%", "elapsed_time": "1h 18m 5s", "remaining_time": "3m 36s"}
	{"loss": 0.17641805, "token_acc": 0.93890339, "grad_norm": 0.23572873, "learning_rate": 2.8e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08323, "epoch": 3.87684729, "global_step/max_steps": "395/408", "percentage": "96.81%", "elapsed_time": "1h 18m 59s", "remaining_time": "2m 35s"}
	{"loss": 0.177474, "token_acc": 0.95670103, "grad_norm": 0.19766259, "learning_rate": 1.1e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083229, "epoch": 3.92610837, "global_step/max_steps": "400/408", "percentage": "98.04%", "elapsed_time": "1h 19m 59s", "remaining_time": "1m 35s"}
	{"eval_loss": 0.1540731, "eval_token_acc": 0.9378911, "eval_runtime": 32.6614, "eval_samples_per_second": 4.991, "eval_steps_per_second": 0.643, "epoch": 3.92610837, "global_step/max_steps": "400/408", "percentage": "98.04%", "elapsed_time": "1h 20m 32s", "remaining_time": "1m 36s"}
	{"loss": 0.16515431, "token_acc": 0.94796748, "grad_norm": 0.21533018, "learning_rate": 1e-08, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082468, "epoch": 3.97536946, "global_step/max_steps": "405/408", "percentage": "99.26%", "elapsed_time": "1h 21m 44s", "remaining_time": "36s"}
	{"eval_loss": 0.15408652, "eval_token_acc": 0.93765741, "eval_runtime": 32.7286, "eval_samples_per_second": 4.98, "eval_steps_per_second": 0.642, "epoch": 4.0, "global_step/max_steps": "408/408", "percentage": "100.00%", "elapsed_time": "1h 22m 45s", "remaining_time": "0s"}
	{"train_runtime": 4979.0913, "train_samples_per_second": 1.309, "train_steps_per_second": 0.082, "total_flos": 1.6451657951409603e+18, "train_loss": 0.24745458, "epoch": 4.0, "global_step/max_steps": "408/408", "percentage": "100.00%", "elapsed_time": "1h 22m 59s", "remaining_time": "0s"}
	{"model_parameter_info": "PeftModelForCausalLM: 8395.8159M Params (103.6493M Trainable [1.2345%]), 0.0019M Buffers.", "last_model_checkpoint": "/mnt/bn/automl-aigc/huiyang/work/VLM/output/v9-20250701-110255/checkpoint-408", "best_model_checkpoint": "/mnt/bn/automl-aigc/huiyang/work/VLM/output/v9-20250701-110255/checkpoint-400", "best_metric": 0.1540731, "global_step": 408, "log_history": [{"loss": 1.5113286972045898, "token_acc": 0.6177847113884556, "grad_norm": 1.1438997983932495, "learning_rate": 4.7619047619047615e-06, "memory(GiB)": 27.82, "train_speed(iter/s)": 0.045285, "epoch": 0.009852216748768473, "step": 1}, {"loss": 1.367588758468628, "token_acc": 0.6962833914053427, "grad_norm": 7.160579681396484, "learning_rate": 2.380952380952381e-05, "memory(GiB)": 43.66, "train_speed(iter/s)": 0.068926, "epoch": 0.04926108374384237, "step": 5}, {"loss": 1.2937589645385743, "token_acc": 0.7100716392751791, "grad_norm": 2.5612542629241943, "learning_rate": 4.761904761904762e-05, "memory(GiB)": 43.66, "train_speed(iter/s)": 0.080563, "epoch": 0.09852216748768473, "step": 10}, {"loss": 1.0573494911193848, "token_acc": 0.7089430894308943, "grad_norm": 0.5635164380073547, "learning_rate": 7.142857142857143e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.080517, "epoch": 0.1477832512315271, "step": 15}, {"loss": 0.8658615112304687, "token_acc": 0.7974038015762633, "grad_norm": 1.472001314163208, "learning_rate": 9.523809523809524e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.083377, "epoch": 0.19704433497536947, "step": 20}, {"loss": 0.6356040477752686, "token_acc": 0.7949486301369864, "grad_norm": 0.7183939814567566, "learning_rate": 9.997364277724361e-05, "memory(GiB)": 46.18, "train_speed(iter/s)": 0.083884, "epoch": 0.24630541871921183, "step": 25}, {"loss": 0.37654943466186525, "token_acc": 0.8997711670480549, "grad_norm": 2.073103427886963, "learning_rate": 9.986661418317759e-05, "memory(GiB)": 46.36, "train_speed(iter/s)": 0.082587, "epoch": 0.2955665024630542, "step": 30}, {"loss": 0.2999051332473755, "token_acc": 0.9200477326968973, "grad_norm": 0.34475967288017273, "learning_rate": 9.967744305799357e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083511, "epoch": 0.3448275862068966, "step": 35}, {"loss": 0.23740344047546386, "token_acc": 0.9159472966833258, "grad_norm": 0.35161784291267395, "learning_rate": 9.940644101288259e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084586, "epoch": 0.39408866995073893, "step": 40}, {"loss": 0.18025996685028076, "token_acc": 0.9343544857768052, "grad_norm": 0.20392458140850067, "learning_rate": 9.905405445460972e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084239, "epoch": 0.4433497536945813, "step": 45}, {"loss": 0.21609094142913818, "token_acc": 0.9057211925866236, "grad_norm": 0.36114227771759033, "learning_rate": 9.862086385017283e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084254, "epoch": 0.49261083743842365, "step": 50}, {"loss": 0.19180588722229003, "token_acc": 0.9309614570097416, "grad_norm": 0.14914895594120026, "learning_rate": 9.810758277063119e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084312, "epoch": 0.541871921182266, "step": 55}, {"loss": 0.19516931772232055, "token_acc": 0.9388185654008439, "grad_norm": 0.18670624494552612, "learning_rate": 9.751505671567913e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084705, "epoch": 0.5911330049261084, "step": 60}, {"loss": 0.21567554473876954, "token_acc": 0.9371243643088303, "grad_norm": 0.5145127177238464, "learning_rate": 9.684426172090085e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084649, "epoch": 0.6403940886699507, "step": 65}, {"loss": 0.2585363626480103, "token_acc": 0.8922345483359746, "grad_norm": 0.15231448411941528, "learning_rate": 9.609630275000072e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08441, "epoch": 0.6896551724137931, "step": 70}, {"loss": 0.23861708641052246, "token_acc": 0.9070160608622148, "grad_norm": 0.21726299822330475, "learning_rate": 9.527241187465734e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08483, "epoch": 0.7389162561576355, "step": 75}, {"loss": 0.19056642055511475, "token_acc": 0.9151406878070567, "grad_norm": 0.24896590411663055, "learning_rate": 9.437394624499958e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084918, "epoch": 0.7881773399014779, "step": 80}, {"loss": 0.21224594116210938, "token_acc": 0.9331180811808119, "grad_norm": 0.12491760402917862, "learning_rate": 9.340238585404788e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085108, "epoch": 0.8374384236453202, "step": 85}, {"loss": 0.22671685218811036, "token_acc": 0.9394304051343763, "grad_norm": 0.13741058111190796, "learning_rate": 9.235933109980301e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085309, "epoch": 0.8866995073891626, "step": 90}, {"loss": 0.21927425861358643, "token_acc": 0.910764305722289, "grad_norm": 0.13183653354644775, "learning_rate": 9.124650014899867e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085269, "epoch": 0.9359605911330049, "step": 95}, {"loss": 0.252195930480957, "token_acc": 0.9136312429590687, "grad_norm": 0.14684513211250305, "learning_rate": 9.006572610685968e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.085107, "epoch": 0.9852216748768473, "step": 100}, {"eval_loss": 0.18471337854862213, "eval_token_acc": 0.9269337626256069, "eval_runtime": 32.5583, "eval_samples_per_second": 5.006, "eval_steps_per_second": 0.645, "epoch": 0.9852216748768473, "step": 100}, {"loss": 0.18699620962142943, "token_acc": 0.9513841998649561, "grad_norm": 0.09996708482503891, "learning_rate": 8.881895399752874e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082192, "epoch": 1.0295566502463054, "step": 105}, {"loss": 0.22225828170776368, "token_acc": 0.9347168179853005, "grad_norm": 0.46669697761535645, "learning_rate": 8.750823756013498e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082526, "epoch": 1.0788177339901477, "step": 110}, {"loss": 0.20784435272216797, "token_acc": 0.9002201027146002, "grad_norm": 0.24231694638729095, "learning_rate": 8.613573586578262e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082733, "epoch": 1.1280788177339902, "step": 115}, {"loss": 0.21038591861724854, "token_acc": 0.9133252328878089, "grad_norm": 0.1110488623380661, "learning_rate": 8.47037097610317e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083205, "epoch": 1.1773399014778325, "step": 120}, {"loss": 0.16864125728607177, "token_acc": 0.9090205187766164, "grad_norm": 0.12771184742450714, "learning_rate": 8.321451814372997e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083244, "epoch": 1.2266009852216748, "step": 125}, {"loss": 0.21356649398803712, "token_acc": 0.9436160298229264, "grad_norm": 0.14268940687179565, "learning_rate": 8.167061407733016e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08358, "epoch": 1.2758620689655173, "step": 130}, {"loss": 0.18836164474487305, "token_acc": 0.9408960915157293, "grad_norm": 0.12864470481872559, "learning_rate": 8.007454075009351e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084021, "epoch": 1.3251231527093597, "step": 135}, {"loss": 0.18028113842010499, "token_acc": 0.9352708058124174, "grad_norm": 0.1957460343837738, "learning_rate": 7.842892728583558e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083978, "epoch": 1.374384236453202, "step": 140}, {"loss": 0.24067347049713134, "token_acc": 0.9186396900559621, "grad_norm": 0.16170276701450348, "learning_rate": 7.673648441311508e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084231, "epoch": 1.4236453201970443, "step": 145}, {"loss": 0.17983548641204833, "token_acc": 0.9409499358151476, "grad_norm": 0.1747942864894867, "learning_rate": 7.500000000000001e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084121, "epoch": 1.4729064039408866, "step": 150}, {"loss": 0.1807273507118225, "token_acc": 0.9350067234424025, "grad_norm": 0.12388473004102707, "learning_rate": 7.322233446176571e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084251, "epoch": 1.522167487684729, "step": 155}, {"loss": 0.21040892601013184, "token_acc": 0.922092585622883, "grad_norm": 0.15163633227348328, "learning_rate": 7.14064160490902e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08424, "epoch": 1.5714285714285714, "step": 160}, {"loss": 0.1940894365310669, "token_acc": 0.9365760610395804, "grad_norm": 0.11409653723239899, "learning_rate": 6.95552360245078e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084339, "epoch": 1.6206896551724137, "step": 165}, {"loss": 0.24078564643859862, "token_acc": 0.9191353082465973, "grad_norm": 0.11930009722709656, "learning_rate": 6.767184373506697e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084297, "epoch": 1.6699507389162562, "step": 170}, {"loss": 0.17748476266860963, "token_acc": 0.9529411764705882, "grad_norm": 0.14652597904205322, "learning_rate": 6.57593415893085e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084149, "epoch": 1.7192118226600985, "step": 175}, {"loss": 0.2167957305908203, "token_acc": 0.9097110754414125, "grad_norm": 0.17889174818992615, "learning_rate": 6.382087994683859e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084177, "epoch": 1.7684729064039408, "step": 180}, {"loss": 0.20164217948913574, "token_acc": 0.9244712990936556, "grad_norm": 0.1979619264602661, "learning_rate": 6.185965192891472e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084229, "epoch": 1.8177339901477834, "step": 185}, {"loss": 0.20713467597961427, "token_acc": 0.9338589575120455, "grad_norm": 0.39984604716300964, "learning_rate": 5.987888815859266e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084194, "epoch": 1.8669950738916257, "step": 190}, {"loss": 0.1967566728591919, "token_acc": 0.9326882625157762, "grad_norm": 0.14613956212997437, "learning_rate": 5.788185143909868e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084217, "epoch": 1.916256157635468, "step": 195}, {"loss": 0.18560441732406616, "token_acc": 0.9258964143426295, "grad_norm": 0.17948868870735168, "learning_rate": 5.587183137919332e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.084341, "epoch": 1.9655172413793105, "step": 200}, {"eval_loss": 0.1695585548877716, "eval_token_acc": 0.931321891309428, "eval_runtime": 32.5182, "eval_samples_per_second": 5.013, "eval_steps_per_second": 0.646, "epoch": 1.9655172413793105, "step": 200}, {"loss": 0.1711983561515808, "token_acc": 0.9406053683609366, "grad_norm": 0.26103875041007996, "learning_rate": 5.385213897437975e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082712, "epoch": 2.0098522167487687, "step": 205}, {"loss": 0.1751583456993103, "token_acc": 0.9325551232166018, "grad_norm": 0.14594969153404236, "learning_rate": 5.182610115288295e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082858, "epoch": 2.0591133004926108, "step": 210}, {"loss": 0.18792985677719115, "token_acc": 0.9280334728033472, "grad_norm": 0.14474451541900635, "learning_rate": 4.979705529538385e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082975, "epoch": 2.1083743842364533, "step": 215}, {"loss": 0.19646167755126953, "token_acc": 0.9132247063281546, "grad_norm": 0.2766883969306946, "learning_rate": 4.776834373753569e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.0831, "epoch": 2.1576354679802954, "step": 220}, {"loss": 0.21830191612243652, "token_acc": 0.9408973252804141, "grad_norm": 0.20483314990997314, "learning_rate": 4.574330826431821e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083061, "epoch": 2.206896551724138, "step": 225}, {"loss": 0.15320545434951782, "token_acc": 0.9253549695740365, "grad_norm": 0.1992715299129486, "learning_rate": 4.37252846052992e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083147, "epoch": 2.2561576354679804, "step": 230}, {"loss": 0.16205880641937256, "token_acc": 0.9586956521739131, "grad_norm": 0.15315884351730347, "learning_rate": 4.171759693987046e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083046, "epoch": 2.3054187192118225, "step": 235}, {"loss": 0.18759173154830933, "token_acc": 0.9614164904862579, "grad_norm": 0.20538951456546783, "learning_rate": 3.972355242150998e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083011, "epoch": 2.354679802955665, "step": 240}, {"loss": 0.21688394546508788, "token_acc": 0.9302439024390244, "grad_norm": 0.14777621626853943, "learning_rate": 3.774643573008995e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08305, "epoch": 2.4039408866995076, "step": 245}, {"loss": 0.17308779954910278, "token_acc": 0.9279355659177617, "grad_norm": 0.20088790357112885, "learning_rate": 3.578950366120414e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083147, "epoch": 2.4532019704433496, "step": 250}, {"loss": 0.226912784576416, "token_acc": 0.9513036809815951, "grad_norm": 0.2232327163219452, "learning_rate": 3.38559797614277e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083069, "epoch": 2.502463054187192, "step": 255}, {"loss": 0.1965869665145874, "token_acc": 0.9425981873111783, "grad_norm": 0.13863159716129303, "learning_rate": 3.1949049018346126e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082946, "epoch": 2.5517241379310347, "step": 260}, {"loss": 0.1446874737739563, "token_acc": 0.937048064653339, "grad_norm": 0.1488942950963974, "learning_rate": 3.0071852614100426e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082919, "epoch": 2.600985221674877, "step": 265}, {"loss": 0.15620756149291992, "token_acc": 0.9511048425011753, "grad_norm": 0.2436261624097824, "learning_rate": 2.8227482751090445e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082956, "epoch": 2.6502463054187193, "step": 270}, {"loss": 0.21157948970794677, "token_acc": 0.9388773388773389, "grad_norm": 0.1549849808216095, "learning_rate": 2.641897755835997e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082967, "epoch": 2.6995073891625614, "step": 275}, {"loss": 0.1862837553024292, "token_acc": 0.9319258940112021, "grad_norm": 0.16928882896900177, "learning_rate": 2.4649316087053837e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083119, "epoch": 2.748768472906404, "step": 280}, {"loss": 0.18460662364959718, "token_acc": 0.9523234761617381, "grad_norm": 0.14508430659770966, "learning_rate": 2.2921413403190772e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083129, "epoch": 2.7980295566502464, "step": 285}, {"loss": 0.18390374183654784, "token_acc": 0.9451219512195121, "grad_norm": 0.217255100607872, "learning_rate": 2.123811578583551e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083288, "epoch": 2.8472906403940885, "step": 290}, {"loss": 0.15291796922683715, "token_acc": 0.9447535771065183, "grad_norm": 0.20952878892421722, "learning_rate": 1.960219603857977e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083288, "epoch": 2.896551724137931, "step": 295}, {"loss": 0.1545098066329956, "token_acc": 0.9454446262956901, "grad_norm": 0.15007182955741882, "learning_rate": 1.801634892205545e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083566, "epoch": 2.945812807881773, "step": 300}, {"eval_loss": 0.15761703252792358, "eval_token_acc": 0.9364630124892893, "eval_runtime": 32.5069, "eval_samples_per_second": 5.014, "eval_steps_per_second": 0.646, "epoch": 2.945812807881773, "step": 300}, {"loss": 0.16923820972442627, "token_acc": 0.9402372262773723, "grad_norm": 0.15036937594413757, "learning_rate": 1.6483186715003523e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082541, "epoch": 2.9950738916256157, "step": 305}, {"loss": 0.19433178901672363, "token_acc": 0.9476025704399407, "grad_norm": 0.1499025523662567, "learning_rate": 1.500523491121108e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082701, "epoch": 3.039408866995074, "step": 310}, {"loss": 0.1474785327911377, "token_acc": 0.9421518054532056, "grad_norm": 0.17087669670581818, "learning_rate": 1.3584928059404205e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082712, "epoch": 3.0886699507389164, "step": 315}, {"loss": 0.15996115207672118, "token_acc": 0.9433255269320843, "grad_norm": 0.19326163828372955, "learning_rate": 1.2224605752949786e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082805, "epoch": 3.1379310344827585, "step": 320}, {"loss": 0.17513352632522583, "token_acc": 0.9485887096774194, "grad_norm": 0.19978851079940796, "learning_rate": 1.0926508775971994e-05, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082877, "epoch": 3.187192118226601, "step": 325}, {"loss": 0.18874716758728027, "token_acc": 0.9281045751633987, "grad_norm": 0.22572195529937744, "learning_rate": 9.692775412231863e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082928, "epoch": 3.2364532019704435, "step": 330}, {"loss": 0.14738693237304687, "token_acc": 0.9765714285714285, "grad_norm": 0.1993740200996399, "learning_rate": 8.525437922850032e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082968, "epoch": 3.2857142857142856, "step": 335}, {"loss": 0.18726130723953247, "token_acc": 0.9421128798842258, "grad_norm": 0.17524568736553192, "learning_rate": 7.426419198674772e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083179, "epoch": 3.334975369458128, "step": 340}, {"loss": 0.17416343688964844, "token_acc": 0.9524838012958964, "grad_norm": 0.27905264496803284, "learning_rate": 6.397529592809614e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083282, "epoch": 3.3842364532019706, "step": 345}, {"loss": 0.16444647312164307, "token_acc": 0.9511111111111111, "grad_norm": 0.418948769569397, "learning_rate": 5.440463938518303e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083223, "epoch": 3.4334975369458127, "step": 350}, {"loss": 0.1856123089790344, "token_acc": 0.9483633010603965, "grad_norm": 0.19981049001216888, "learning_rate": 4.556798757419068e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083115, "epoch": 3.4827586206896552, "step": 355}, {"loss": 0.17485485076904297, "token_acc": 0.9336437718277066, "grad_norm": 0.1785065233707428, "learning_rate": 3.7479896625674027e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083077, "epoch": 3.5320197044334973, "step": 360}, {"loss": 0.16429364681243896, "token_acc": 0.9455690508322088, "grad_norm": 0.2865045368671417, "learning_rate": 3.0153689607045845e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082981, "epoch": 3.58128078817734, "step": 365}, {"loss": 0.18574819564819336, "token_acc": 0.9430962343096234, "grad_norm": 0.35630592703819275, "learning_rate": 2.3601434576221546e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082966, "epoch": 3.6305418719211824, "step": 370}, {"loss": 0.18329020738601684, "token_acc": 0.9368892508143323, "grad_norm": 0.19585034251213074, "learning_rate": 1.7833924702570725e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083017, "epoch": 3.6798029556650245, "step": 375}, {"loss": 0.16946471929550172, "token_acc": 0.92848948374761, "grad_norm": 0.7984150648117065, "learning_rate": 1.2860660487922616e-06, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083059, "epoch": 3.729064039408867, "step": 380}, {"loss": 0.15113608837127684, "token_acc": 0.9420289855072463, "grad_norm": 0.16166147589683533, "learning_rate": 8.68983411691221e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083091, "epoch": 3.7783251231527095, "step": 385}, {"loss": 0.17639358043670655, "token_acc": 0.9554331497245869, "grad_norm": 0.1637023687362671, "learning_rate": 5.328315962444874e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083127, "epoch": 3.8275862068965516, "step": 390}, {"loss": 0.1764180541038513, "token_acc": 0.9389033942558747, "grad_norm": 0.23572872579097748, "learning_rate": 2.78164326850916e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.08323, "epoch": 3.876847290640394, "step": 395}, {"loss": 0.1774739980697632, "token_acc": 0.9567010309278351, "grad_norm": 0.1976625919342041, "learning_rate": 1.0540110289786742e-07, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.083229, "epoch": 3.9261083743842367, "step": 400}, {"eval_loss": 0.154073104262352, "eval_token_acc": 0.9378911017059175, "eval_runtime": 32.6614, "eval_samples_per_second": 4.991, "eval_steps_per_second": 0.643, "epoch": 3.9261083743842367, "step": 400}, {"loss": 0.1651543140411377, "token_acc": 0.9479674796747968, "grad_norm": 0.21533018350601196, "learning_rate": 1.482650774303207e-08, "memory(GiB)": 47.92, "train_speed(iter/s)": 0.082468, "epoch": 3.9753694581280787, "step": 405}, {"eval_loss": 0.15408651530742645, "eval_token_acc": 0.9376574143795602, "eval_runtime": 32.7286, "eval_samples_per_second": 4.98, "eval_steps_per_second": 0.642, "epoch": 4.0, "step": 408}, {"train_runtime": 4979.0913, "train_samples_per_second": 1.309, "train_steps_per_second": 0.082, "total_flos": 1.6451657951409603e+18, "train_loss": 0.24745458466749565, "epoch": 4.0, "step": 408}], "memory": 47.921875}