Training in progress, epoch 1

ec07cc3 verified about 1 month ago

13.3 kB

	{"loss": 17.1796875, "grad_norm": 811.1418457, "learning_rate": 9.99e-05, "acc": 0.34375, "epoch": 0.02, "global_step/max_steps": "1/50", "elapsed_time": "46s", "remaining_time": "37m 39s", "memory(GiB)": 324.87, "train_speed(s/it)": 46.10755}
	{"loss": 0.9668895, "grad_norm": 176.16418457, "learning_rate": 9.961e-05, "acc": 0.8125, "epoch": 0.04, "global_step/max_steps": "2/50", "elapsed_time": "1m 17s", "remaining_time": "30m 57s", "memory(GiB)": 327.4, "train_speed(s/it)": 38.69433}
	{"loss": 2.09674168, "grad_norm": 414.09197998, "learning_rate": 9.911e-05, "acc": 0.5625, "epoch": 0.06, "global_step/max_steps": "3/50", "elapsed_time": "1m 45s", "remaining_time": "27m 32s", "memory(GiB)": 327.42, "train_speed(s/it)": 35.159545}
	{"loss": 1.1532433, "grad_norm": 130.7901001, "learning_rate": 9.843e-05, "acc": 0.6875, "epoch": 0.08, "global_step/max_steps": "4/50", "elapsed_time": "2m 19s", "remaining_time": "26m 33s", "memory(GiB)": 433.23, "train_speed(s/it)": 34.637934}
	{"loss": 0.66474307, "grad_norm": 59.59462738, "learning_rate": 9.755e-05, "acc": 0.71875, "epoch": 0.1, "global_step/max_steps": "5/50", "elapsed_time": "2m 48s", "remaining_time": "25m 9s", "memory(GiB)": 433.24, "train_speed(s/it)": 33.539169}
	{"loss": 1.68326926, "grad_norm": 183.97386169, "learning_rate": 9.649e-05, "acc": 0.6875, "epoch": 0.12, "global_step/max_steps": "6/50", "elapsed_time": "3m 19s", "remaining_time": "24m 18s", "memory(GiB)": 436.32, "train_speed(s/it)": 33.127688}
	{"loss": 0.80070394, "grad_norm": 110.27841949, "learning_rate": 9.524e-05, "acc": 0.65625, "epoch": 0.14, "global_step/max_steps": "7/50", "elapsed_time": "3m 48s", "remaining_time": "23m 23s", "memory(GiB)": 436.37, "train_speed(s/it)": 32.628692}
	{"loss": 1.07749236, "grad_norm": 138.86932373, "learning_rate": 9.382e-05, "acc": 0.75, "epoch": 0.16, "global_step/max_steps": "8/50", "elapsed_time": "4m 37s", "remaining_time": "24m 13s", "memory(GiB)": 918.78, "train_speed(s/it)": 34.591915}
	{"loss": 1.13690972, "grad_norm": 154.54496765, "learning_rate": 9.222e-05, "acc": 0.84375, "epoch": 0.18, "global_step/max_steps": "9/50", "elapsed_time": "5m 5s", "remaining_time": "23m 10s", "memory(GiB)": 918.78, "train_speed(s/it)": 33.893615}
	{"loss": 1.31084585, "grad_norm": 249.10691833, "learning_rate": 9.045e-05, "acc": 0.71875, "epoch": 0.2, "global_step/max_steps": "10/50", "elapsed_time": "5m 35s", "remaining_time": "22m 19s", "memory(GiB)": 918.78, "train_speed(s/it)": 33.480005}
	{"loss": 0.61935788, "grad_norm": 61.78084564, "learning_rate": 8.853e-05, "acc": 0.71875, "epoch": 0.22, "global_step/max_steps": "11/50", "elapsed_time": "6m 2s", "remaining_time": "21m 25s", "memory(GiB)": 918.8, "train_speed(s/it)": 32.943424}
	{"loss": 0.88910866, "grad_norm": 57.18918228, "learning_rate": 8.645e-05, "acc": 0.75, "epoch": 0.24, "global_step/max_steps": "12/50", "elapsed_time": "6m 32s", "remaining_time": "20m 41s", "memory(GiB)": 918.8, "train_speed(s/it)": 32.64889}
	{"loss": 0.6144278, "grad_norm": 80.94382477, "learning_rate": 8.423e-05, "acc": 0.78125, "epoch": 0.26, "global_step/max_steps": "13/50", "elapsed_time": "7m 0s", "remaining_time": "19m 56s", "memory(GiB)": 918.8, "train_speed(s/it)": 32.332691}
	{"loss": 1.14864802, "grad_norm": 152.05555725, "learning_rate": 8.187e-05, "acc": 0.8125, "epoch": 0.28, "global_step/max_steps": "14/50", "elapsed_time": "7m 29s", "remaining_time": "19m 14s", "memory(GiB)": 918.84, "train_speed(s/it)": 32.057107}
	{"loss": 0.67896771, "grad_norm": 94.29515839, "learning_rate": 7.939e-05, "acc": 0.71875, "epoch": 0.3, "global_step/max_steps": "15/50", "elapsed_time": "7m 58s", "remaining_time": "18m 34s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.83777}
	{"loss": 1.19280779, "grad_norm": 99.14068604, "learning_rate": 7.679e-05, "acc": 0.65625, "epoch": 0.32, "global_step/max_steps": "16/50", "elapsed_time": "8m 27s", "remaining_time": "17m 57s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.690403}
	{"loss": 1.79700446, "grad_norm": 228.49835205, "learning_rate": 7.409e-05, "acc": 0.625, "epoch": 0.34, "global_step/max_steps": "17/50", "elapsed_time": "8m 56s", "remaining_time": "17m 21s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.536922}
	{"loss": 0.85732567, "grad_norm": 43.1253891, "learning_rate": 7.129e-05, "acc": 0.71875, "epoch": 0.36, "global_step/max_steps": "18/50", "elapsed_time": "9m 26s", "remaining_time": "16m 47s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.460119}
	{"loss": 0.51069164, "grad_norm": 81.38828278, "learning_rate": 6.841e-05, "acc": 0.71875, "epoch": 0.38, "global_step/max_steps": "19/50", "elapsed_time": "9m 56s", "remaining_time": "16m 12s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.351789}
	{"loss": 0.97638738, "grad_norm": 41.71090317, "learning_rate": 6.545e-05, "acc": 0.71875, "epoch": 0.4, "global_step/max_steps": "20/50", "elapsed_time": "10m 26s", "remaining_time": "15m 39s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.289328}
	{"loss": 0.4176254, "grad_norm": 80.78935242, "learning_rate": 6.243e-05, "acc": 0.84375, "epoch": 0.42, "global_step/max_steps": "21/50", "elapsed_time": "10m 54s", "remaining_time": "15m 3s", "memory(GiB)": 918.84, "train_speed(s/it)": 31.126298}
	{"loss": 0.4053829, "grad_norm": 35.90161133, "learning_rate": 5.937e-05, "acc": 0.875, "epoch": 0.44, "global_step/max_steps": "22/50", "elapsed_time": "11m 21s", "remaining_time": "14m 27s", "memory(GiB)": 918.84, "train_speed(s/it)": 30.977016}
	{"loss": 0.89363104, "grad_norm": 181.12052917, "learning_rate": 5.627e-05, "acc": 0.71875, "epoch": 0.46, "global_step/max_steps": "23/50", "elapsed_time": "11m 53s", "remaining_time": "13m 57s", "memory(GiB)": 918.84, "train_speed(s/it)": 30.993231}
	{"loss": 0.60000342, "grad_norm": 158.20402527, "learning_rate": 5.314e-05, "acc": 0.8125, "epoch": 0.48, "global_step/max_steps": "24/50", "elapsed_time": "12m 22s", "remaining_time": "13m 23s", "memory(GiB)": 918.84, "train_speed(s/it)": 30.899095}
	{"loss": 0.68743765, "grad_norm": 158.03596497, "learning_rate": 5e-05, "acc": 0.75, "epoch": 0.5, "global_step/max_steps": "25/50", "elapsed_time": "12m 52s", "remaining_time": "12m 52s", "memory(GiB)": 918.84, "train_speed(s/it)": 30.866986}
	{"loss": 0.74483097, "grad_norm": 45.19816208, "learning_rate": 4.686e-05, "acc": 0.75, "epoch": 0.52, "global_step/max_steps": "26/50", "elapsed_time": "13m 21s", "remaining_time": "12m 19s", "memory(GiB)": 918.84, "train_speed(s/it)": 30.799887}
	{"loss": 0.74547559, "grad_norm": 47.7800293, "learning_rate": 4.373e-05, "acc": 0.71875, "epoch": 0.54, "global_step/max_steps": "27/50", "elapsed_time": "13m 51s", "remaining_time": "11m 48s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.788324}
	{"loss": 0.97353625, "grad_norm": 166.58718872, "learning_rate": 4.063e-05, "acc": 0.71875, "epoch": 0.56, "global_step/max_steps": "28/50", "elapsed_time": "14m 19s", "remaining_time": "11m 15s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.69614}
	{"loss": 1.09791815, "grad_norm": 194.83337402, "learning_rate": 3.757e-05, "acc": 0.78125, "epoch": 0.58, "global_step/max_steps": "29/50", "elapsed_time": "14m 49s", "remaining_time": "10m 44s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.663673}
	{"loss": 0.74843174, "grad_norm": 157.47549438, "learning_rate": 3.455e-05, "acc": 0.75, "epoch": 0.6, "global_step/max_steps": "30/50", "elapsed_time": "15m 18s", "remaining_time": "10m 12s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.586774}
	{"loss": 0.8970117, "grad_norm": 195.42445374, "learning_rate": 3.159e-05, "acc": 0.71875, "epoch": 0.62, "global_step/max_steps": "31/50", "elapsed_time": "15m 47s", "remaining_time": "9m 41s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.559909}
	{"loss": 0.74384636, "grad_norm": 175.62641907, "learning_rate": 2.871e-05, "acc": 0.8125, "epoch": 0.64, "global_step/max_steps": "32/50", "elapsed_time": "16m 16s", "remaining_time": "9m 9s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.492349}
	{"loss": 0.46055907, "grad_norm": 26.31072044, "learning_rate": 2.591e-05, "acc": 0.8125, "epoch": 0.66, "global_step/max_steps": "33/50", "elapsed_time": "16m 45s", "remaining_time": "8m 38s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.45294}
	{"loss": 0.74976432, "grad_norm": 69.81343079, "learning_rate": 2.321e-05, "acc": 0.78125, "epoch": 0.68, "global_step/max_steps": "34/50", "elapsed_time": "17m 14s", "remaining_time": "8m 7s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.41431}
	{"loss": 0.60726362, "grad_norm": 158.10920715, "learning_rate": 2.061e-05, "acc": 0.75, "epoch": 0.7, "global_step/max_steps": "35/50", "elapsed_time": "17m 47s", "remaining_time": "7m 37s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.47734}
	{"loss": 0.74102372, "grad_norm": 162.59750366, "learning_rate": 1.813e-05, "acc": 0.6875, "epoch": 0.72, "global_step/max_steps": "36/50", "elapsed_time": "18m 16s", "remaining_time": "7m 6s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.456584}
	{"loss": 0.8247081, "grad_norm": 276.91693115, "learning_rate": 1.577e-05, "acc": 0.6875, "epoch": 0.74, "global_step/max_steps": "37/50", "elapsed_time": "18m 44s", "remaining_time": "6m 35s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.384018}
	{"loss": 0.30228949, "grad_norm": 119.477211, "learning_rate": 1.355e-05, "acc": 0.8125, "epoch": 0.76, "global_step/max_steps": "38/50", "elapsed_time": "19m 13s", "remaining_time": "6m 4s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.35109}
	{"loss": 0.37589198, "grad_norm": 40.67320251, "learning_rate": 1.147e-05, "acc": 0.84375, "epoch": 0.78, "global_step/max_steps": "39/50", "elapsed_time": "19m 42s", "remaining_time": "5m 33s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.303445}
	{"loss": 0.93750566, "grad_norm": 143.20127869, "learning_rate": 9.55e-06, "acc": 0.65625, "epoch": 0.8, "global_step/max_steps": "40/50", "elapsed_time": "20m 12s", "remaining_time": "5m 3s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.294841}
	{"loss": 0.4624958, "grad_norm": 44.70033264, "learning_rate": 7.78e-06, "acc": 0.84375, "epoch": 0.82, "global_step/max_steps": "41/50", "elapsed_time": "20m 40s", "remaining_time": "4m 32s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.251347}
	{"loss": 0.88394469, "grad_norm": 45.58294296, "learning_rate": 6.18e-06, "acc": 0.78125, "epoch": 0.84, "global_step/max_steps": "42/50", "elapsed_time": "21m 9s", "remaining_time": "4m 2s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.205221}
	{"loss": 0.4153989, "grad_norm": 54.79707336, "learning_rate": 4.76e-06, "acc": 0.84375, "epoch": 0.86, "global_step/max_steps": "43/50", "elapsed_time": "21m 41s", "remaining_time": "3m 32s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.254113}
	{"loss": 0.53010935, "grad_norm": 41.83688354, "learning_rate": 3.51e-06, "acc": 0.84375, "epoch": 0.88, "global_step/max_steps": "44/50", "elapsed_time": "22m 10s", "remaining_time": "3m 1s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.236475}
	{"loss": 0.38101518, "grad_norm": 93.48731995, "learning_rate": 2.45e-06, "acc": 0.90625, "epoch": 0.9, "global_step/max_steps": "45/50", "elapsed_time": "22m 39s", "remaining_time": "2m 31s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.195785}
	{"loss": 0.88037968, "grad_norm": 110.08046722, "learning_rate": 1.57e-06, "acc": 0.75, "epoch": 0.92, "global_step/max_steps": "46/50", "elapsed_time": "23m 8s", "remaining_time": "2m 1s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.171712}
	{"loss": 0.23860466, "grad_norm": 59.30566788, "learning_rate": 8.9e-07, "acc": 0.875, "epoch": 0.94, "global_step/max_steps": "47/50", "elapsed_time": "23m 36s", "remaining_time": "1m 30s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.117437}
	{"loss": 0.37946707, "grad_norm": 42.35092545, "learning_rate": 3.9e-07, "acc": 0.875, "epoch": 0.96, "global_step/max_steps": "48/50", "elapsed_time": "24m 4s", "remaining_time": "1m 0s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.081181}
	{"loss": 0.70971835, "grad_norm": 35.86734772, "learning_rate": 1e-07, "acc": 0.75, "epoch": 0.98, "global_step/max_steps": "49/50", "elapsed_time": "24m 34s", "remaining_time": "30s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.086343}
	{"loss": 0.40302956, "grad_norm": 48.29428101, "learning_rate": 0.0, "acc": 0.875, "epoch": 1.0, "global_step/max_steps": "50/50", "elapsed_time": "25m 3s", "remaining_time": "0s", "memory(GiB)": 918.88, "train_speed(s/it)": 30.064326}
	{"eval_loss": 0.0506254, "eval_runtime": 335.3211, "eval_samples_per_second": 2.088, "eval_steps_per_second": 0.262, "eval_acc": 0.84, "epoch": 1.0, "global_step/max_steps": "50/50", "elapsed_time": "30m 39s", "remaining_time": "0s", "memory(GiB)": 1166.05, "train_speed(s/it)": 36.770874}
	{"eval_loss": 0.0506254, "eval_runtime": 331.6222, "eval_samples_per_second": 2.111, "eval_steps_per_second": 0.265, "eval_acc": 0.84, "epoch": 1.0, "global_step/max_steps": "50/50", "elapsed_time": "36m 11s", "remaining_time": "0s", "memory(GiB)": 1166.05, "train_speed(s/it)": 43.418463}
	{"train_runtime": 2173.473, "train_samples_per_second": 0.736, "train_steps_per_second": 0.023, "total_flos": 1.1234325087506765e+18, "train_loss": 1.13187107, "epoch": 1.0, "global_step/max_steps": "50/50", "elapsed_time": "36m 12s", "remaining_time": "0s", "memory(GiB)": 1166.05, "train_speed(s/it)": 43.434697}