Training in progress, step 30

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +22 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be34401892f440442a28a0bb352c3d933cc710ba519babbd8354891f6dc1e9c7
 size 3565203280

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3847528c3fef03fc7d9c26c4217ea563b0b8312dbf5b0a23bd5019a3c2364f2
 size 3565203280

logging.jsonl CHANGED Viewed

@@ -30,3 +30,25 @@
 {"loss": 0.61611456, "token_acc": 0.88035639, "grad_norm": 1.65962636, "learning_rate": 1.5e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.111339, "epoch": 0.01498127, "global_step/max_steps": "28/1869", "percentage": "1.50%", "elapsed_time": "3m 41s", "remaining_time": "4h 3m 14s"}
 {"loss": 0.62859809, "token_acc": 0.80737705, "grad_norm": 1.79358125, "learning_rate": 1.55e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.114566, "epoch": 0.01551632, "global_step/max_steps": "29/1869", "percentage": "1.55%", "elapsed_time": "3m 43s", "remaining_time": "3h 56m 27s"}
 {"loss": 0.56487948, "token_acc": 0.82064298, "grad_norm": 1.58352077, "learning_rate": 1.6e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.117766, "epoch": 0.01605136, "global_step/max_steps": "30/1869", "percentage": "1.61%", "elapsed_time": "3m 45s", "remaining_time": "3h 50m 6s"}

 {"loss": 0.61611456, "token_acc": 0.88035639, "grad_norm": 1.65962636, "learning_rate": 1.5e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.111339, "epoch": 0.01498127, "global_step/max_steps": "28/1869", "percentage": "1.50%", "elapsed_time": "3m 41s", "remaining_time": "4h 3m 14s"}
 {"loss": 0.62859809, "token_acc": 0.80737705, "grad_norm": 1.79358125, "learning_rate": 1.55e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.114566, "epoch": 0.01551632, "global_step/max_steps": "29/1869", "percentage": "1.55%", "elapsed_time": "3m 43s", "remaining_time": "3h 56m 27s"}
 {"loss": 0.56487948, "token_acc": 0.82064298, "grad_norm": 1.58352077, "learning_rate": 1.6e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.117766, "epoch": 0.01605136, "global_step/max_steps": "30/1869", "percentage": "1.61%", "elapsed_time": "3m 45s", "remaining_time": "3h 50m 6s"}
+{"eval_loss": 0.65829676, "eval_token_acc": 0.8001531, "eval_runtime": 47.0799, "eval_samples_per_second": 9.813, "eval_steps_per_second": 1.232, "epoch": 0.01605136, "global_step/max_steps": "30/1869", "percentage": "1.61%", "elapsed_time": "4m 32s", "remaining_time": "4h 38m 12s"}
+{"loss": 0.67666018, "token_acc": 0.80539966, "grad_norm": 2.33286023, "learning_rate": 1.66e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.097787, "epoch": 0.01658641, "global_step/max_steps": "31/1869", "percentage": "1.66%", "elapsed_time": "4m 47s", "remaining_time": "4h 44m 5s"}
+{"loss": 0.63778967, "token_acc": 0.80305891, "grad_norm": 2.01571345, "learning_rate": 1.71e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.099226, "epoch": 0.01712146, "global_step/max_steps": "32/1869", "percentage": "1.71%", "elapsed_time": "4m 52s", "remaining_time": "4h 40m 18s"}
+{"loss": 0.59222853, "token_acc": 0.7991121, "grad_norm": 1.66044676, "learning_rate": 1.76e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.101818, "epoch": 0.0176565, "global_step/max_steps": "33/1869", "percentage": "1.77%", "elapsed_time": "4m 54s", "remaining_time": "4h 33m 9s"}
+{"loss": 0.69081396, "token_acc": 0.7992126, "grad_norm": 1.77187538, "learning_rate": 1.82e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.104384, "epoch": 0.01819155, "global_step/max_steps": "34/1869", "percentage": "1.82%", "elapsed_time": "4m 56s", "remaining_time": "4h 26m 26s"}
+{"loss": 0.67318571, "token_acc": 0.79340278, "grad_norm": 1.85111713, "learning_rate": 1.87e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.10676, "epoch": 0.01872659, "global_step/max_steps": "35/1869", "percentage": "1.87%", "elapsed_time": "4m 58s", "remaining_time": "4h 20m 32s"}
+{"loss": 0.67253304, "token_acc": 0.86307054, "grad_norm": 1.59842598, "learning_rate": 1.93e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.108967, "epoch": 0.01926164, "global_step/max_steps": "36/1869", "percentage": "1.93%", "elapsed_time": "5m 0s", "remaining_time": "4h 15m 18s"}
+{"loss": 0.5134393, "token_acc": 0.81165049, "grad_norm": 1.45173693, "learning_rate": 1.98e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.111451, "epoch": 0.01979668, "global_step/max_steps": "37/1869", "percentage": "1.98%", "elapsed_time": "5m 2s", "remaining_time": "4h 9m 36s"}
+{"loss": 0.58593655, "token_acc": 0.89829659, "grad_norm": 1.75730073, "learning_rate": 2.03e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.113312, "epoch": 0.02033173, "global_step/max_steps": "38/1869", "percentage": "2.03%", "elapsed_time": "5m 5s", "remaining_time": "4h 5m 36s"}
+{"loss": 0.65140462, "token_acc": 0.7693041, "grad_norm": 2.10822535, "learning_rate": 2.09e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.115498, "epoch": 0.02086677, "global_step/max_steps": "39/1869", "percentage": "2.09%", "elapsed_time": "5m 8s", "remaining_time": "4h 0m 59s"}
+{"loss": 0.57421994, "token_acc": 0.75711382, "grad_norm": 1.53696847, "learning_rate": 2.14e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.117897, "epoch": 0.02140182, "global_step/max_steps": "40/1869", "percentage": "2.14%", "elapsed_time": "5m 9s", "remaining_time": "3h 56m 3s"}
+{"eval_loss": 0.6192683, "eval_token_acc": 0.80489669, "eval_runtime": 47.2084, "eval_samples_per_second": 9.786, "eval_steps_per_second": 1.229, "epoch": 0.02140182, "global_step/max_steps": "40/1869", "percentage": "2.14%", "elapsed_time": "5m 56s", "remaining_time": "4h 32m 2s"}
+{"loss": 0.55008793, "token_acc": 0.80942272, "grad_norm": 1.61669028, "learning_rate": 2.19e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.102395, "epoch": 0.02193686, "global_step/max_steps": "41/1869", "percentage": "2.19%", "elapsed_time": "6m 10s", "remaining_time": "4h 35m 36s"}
+{"loss": 0.62053865, "token_acc": 0.77777778, "grad_norm": 2.01010704, "learning_rate": 2.25e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.104464, "epoch": 0.02247191, "global_step/max_steps": "42/1869", "percentage": "2.25%", "elapsed_time": "6m 12s", "remaining_time": "4h 30m 5s"}
+{"loss": 0.55582368, "token_acc": 0.83614458, "grad_norm": 1.91279387, "learning_rate": 2.3e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.106527, "epoch": 0.02300696, "global_step/max_steps": "43/1869", "percentage": "2.30%", "elapsed_time": "6m 14s", "remaining_time": "4h 24m 47s"}
+{"loss": 0.63187927, "token_acc": 0.8298109, "grad_norm": 1.11072254, "learning_rate": 2.35e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.107514, "epoch": 0.023542, "global_step/max_steps": "44/1869", "percentage": "2.35%", "elapsed_time": "6m 19s", "remaining_time": "4h 22m 30s"}
+{"loss": 0.63910359, "token_acc": 0.84244792, "grad_norm": 2.4335506, "learning_rate": 2.41e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.109528, "epoch": 0.02407705, "global_step/max_steps": "45/1869", "percentage": "2.41%", "elapsed_time": "6m 21s", "remaining_time": "4h 17m 36s"}
+{"loss": 0.60400552, "token_acc": 0.86158401, "grad_norm": 2.22681427, "learning_rate": 2.46e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.111339, "epoch": 0.02461209, "global_step/max_steps": "46/1869", "percentage": "2.46%", "elapsed_time": "6m 23s", "remaining_time": "4h 13m 23s"}
+{"loss": 0.67614436, "token_acc": 0.84046693, "grad_norm": 1.86316872, "learning_rate": 2.51e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.113318, "epoch": 0.02514714, "global_step/max_steps": "47/1869", "percentage": "2.51%", "elapsed_time": "6m 25s", "remaining_time": "4h 8m 54s"}
+{"loss": 0.54839796, "token_acc": 0.79958027, "grad_norm": 1.43800616, "learning_rate": 2.57e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.115267, "epoch": 0.02568218, "global_step/max_steps": "48/1869", "percentage": "2.57%", "elapsed_time": "6m 26s", "remaining_time": "4h 4m 38s"}
+{"loss": 0.61684155, "token_acc": 0.77229299, "grad_norm": 1.36796963, "learning_rate": 2.62e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.11613, "epoch": 0.02621723, "global_step/max_steps": "49/1869", "percentage": "2.62%", "elapsed_time": "6m 32s", "remaining_time": "4h 2m 55s"}
+{"loss": 0.52599233, "token_acc": 0.89716312, "grad_norm": 1.61794019, "learning_rate": 2.67e-06, "memory(GiB)": 49.79, "train_speed(iter/s)": 0.118051, "epoch": 0.02675227, "global_step/max_steps": "50/1869", "percentage": "2.68%", "elapsed_time": "6m 34s", "remaining_time": "3h 58m 54s"}