| Log Value: [{'loss': 6.1173, 'grad_norm': 8.981595993041992, 'learning_rate': 2e-05, 'epoch': 0.128, 'step': 10}, {'loss': 4.1609, 'grad_norm': 3.8438518047332764, 'learning_rate': 4e-05, 'epoch': 0.256, 'step': 20}, {'loss': 3.5029, 'grad_norm': 2.762497901916504, 'learning_rate': 6e-05, 'epoch': 0.384, 'step': 30}, {'loss': 3.0722, 'grad_norm': 3.150526285171509, 'learning_rate': 8e-05, 'epoch': 0.512, 'step': 40}, {'loss': 2.8285, 'grad_norm': 2.0224602222442627, 'learning_rate': 0.0001, 'epoch': 0.64, 'step': 50}, {'loss': 2.6261, 'grad_norm': 2.7699999809265137, 'learning_rate': 0.00012, 'epoch': 0.768, 'step': 60}, {'loss': 2.51, 'grad_norm': 3.506568431854248, 'learning_rate': 0.00014000000000000001, 'epoch': 0.896, 'step': 70}, {'eval_loss': 2.20839786529541, 'eval_runtime': 6.5047, 'eval_samples_per_second': 30.747, 'eval_steps_per_second': 3.843, 'epoch': 1.0, 'step': 79}, {'loss': 2.168, 'grad_norm': 4.297799110412598, 'learning_rate': 0.00016, 'epoch': 1.0128, 'step': 80}, {'loss': 2.2514, 'grad_norm': 4.645401954650879, 'learning_rate': 0.00017999999999999998, 'epoch': 1.1408, 'step': 90}, {'loss': 2.1131, 'grad_norm': 3.249354124069214, 'learning_rate': 0.0002, 'epoch': 1.2688, 'step': 100}, {'loss': 2.0565, 'grad_norm': 3.233424425125122, 'learning_rate': 0.00022, 'epoch': 1.3968, 'step': 110}, {'loss': 1.9913, 'grad_norm': 2.557805299758911, 'learning_rate': 0.00024, 'epoch': 1.5248, 'step': 120}, {'loss': 1.9383, 'grad_norm': 4.199419975280762, 'learning_rate': 0.00026000000000000003, 'epoch': 1.6528, 'step': 130}, {'loss': 1.9246, 'grad_norm': 2.271446704864502, 'learning_rate': 0.00028000000000000003, 'epoch': 1.7808000000000002, 'step': 140}, {'loss': 1.874, 'grad_norm': 3.1808652877807617, 'learning_rate': 0.0003, 'epoch': 1.9088, 'step': 150}, {'eval_loss': 1.680722713470459, 'eval_runtime': 6.4543, 'eval_samples_per_second': 30.987, 'eval_steps_per_second': 3.873, 'epoch': 2.0, 'step': 158}, {'loss': 1.6657, 'grad_norm': 2.3878705501556396, 'learning_rate': 0.00032, 'epoch': 2.0256, 'step': 160}, {'loss': 1.7713, 'grad_norm': 3.480285406112671, 'learning_rate': 0.00034, 'epoch': 2.1536, 'step': 170}, {'loss': 1.7324, 'grad_norm': 2.961031675338745, 'learning_rate': 0.00035999999999999997, 'epoch': 2.2816, 'step': 180}, {'loss': 1.7358, 'grad_norm': 2.9891834259033203, 'learning_rate': 0.00038, 'epoch': 2.4096, 'step': 190}, {'loss': 1.7223, 'grad_norm': 3.3914687633514404, 'learning_rate': 0.0004, 'epoch': 2.5376, 'step': 200}, {'loss': 1.6493, 'grad_norm': 2.4917428493499756, 'learning_rate': 0.00042, 'epoch': 2.6656, 'step': 210}, {'loss': 1.6438, 'grad_norm': 2.122530221939087, 'learning_rate': 0.00044, 'epoch': 2.7936, 'step': 220}, {'loss': 1.649, 'grad_norm': 1.6494371891021729, 'learning_rate': 0.00046, 'epoch': 2.9215999999999998, 'step': 230}, {'eval_loss': 1.5858850479125977, 'eval_runtime': 6.4851, 'eval_samples_per_second': 30.84, 'eval_steps_per_second': 3.855, 'epoch': 3.0, 'step': 237}, {'loss': 1.5065, 'grad_norm': 3.295961380004883, 'learning_rate': 0.00048, 'epoch': 3.0384, 'step': 240}, {'loss': 1.5731, 'grad_norm': 1.9913331270217896, 'learning_rate': 0.0005, 'epoch': 3.1664, 'step': 250}, {'loss': 1.5461, 'grad_norm': 2.4190750122070312, 'learning_rate': 0.0005200000000000001, 'epoch': 3.2944, 'step': 260}, {'loss': 1.5581, 'grad_norm': 2.098761558532715, 'learning_rate': 0.00054, 'epoch': 3.4224, 'step': 270}, {'loss': 1.5423, 'grad_norm': 1.863847255706787, 'learning_rate': 0.0005600000000000001, 'epoch': 3.5504, 'step': 280}, {'loss': 1.556, 'grad_norm': 3.5130531787872314, 'learning_rate': 0.00058, 'epoch': 3.6784, 'step': 290}, {'loss': 1.5623, 'grad_norm': 2.6868553161621094, 'learning_rate': 0.0006, 'epoch': 3.8064, 'step': 300}, {'loss': 1.5399, 'grad_norm': 1.915865421295166, 'learning_rate': 0.00062, 'epoch': 3.9344, 'step': 310}, {'eval_loss': 1.3037290573120117, 'eval_runtime': 6.0923, 'eval_samples_per_second': 32.828, 'eval_steps_per_second': 4.104, 'epoch': 3.96, 'step': 312}, {'train_runtime': 2729.5634, 'train_samples_per_second': 7.32, 'train_steps_per_second': 0.114, 'total_flos': 6677944082104320.0, 'train_loss': 2.1601001734916982, 'epoch': 3.96, 'step': 312}] |