Training in progress, step 30

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +10 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df3797a71437a52cd52a2c301e2499355bcc0120805c4445e5f09acb3fbbc5dd
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaa3e561c8a6f7139539f7bbf5f7c2df62aede893c1a92f8ffc488d123cbcb90
 size 13254157312

logging.jsonl CHANGED Viewed

@@ -25,3 +25,13 @@
 {"loss": 0.43007508, "token_acc": 0.84537907, "grad_norm": 0.07760287, "learning_rate": 9.58e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007856, "epoch": 0.09844837, "global_step/max_steps": "23/233", "percentage": "9.87%", "elapsed_time": "48m 40s", "remaining_time": "7h 24m 29s"}
 {"loss": 0.4541401, "token_acc": 0.90728287, "grad_norm": 0.07906581, "learning_rate": 1e-05, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007919, "epoch": 0.10272873, "global_step/max_steps": "24/233", "percentage": "10.30%", "elapsed_time": "50m 23s", "remaining_time": "7h 18m 52s"}
 {"loss": 0.40432471, "token_acc": 0.88812693, "grad_norm": 0.06518858, "learning_rate": 9.95e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008004, "epoch": 0.1070091, "global_step/max_steps": "25/233", "percentage": "10.73%", "elapsed_time": "51m 56s", "remaining_time": "7h 12m 11s"}

 {"loss": 0.43007508, "token_acc": 0.84537907, "grad_norm": 0.07760287, "learning_rate": 9.58e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007856, "epoch": 0.09844837, "global_step/max_steps": "23/233", "percentage": "9.87%", "elapsed_time": "48m 40s", "remaining_time": "7h 24m 29s"}
 {"loss": 0.4541401, "token_acc": 0.90728287, "grad_norm": 0.07906581, "learning_rate": 1e-05, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007919, "epoch": 0.10272873, "global_step/max_steps": "24/233", "percentage": "10.30%", "elapsed_time": "50m 23s", "remaining_time": "7h 18m 52s"}
 {"loss": 0.40432471, "token_acc": 0.88812693, "grad_norm": 0.06518858, "learning_rate": 9.95e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008004, "epoch": 0.1070091, "global_step/max_steps": "25/233", "percentage": "10.73%", "elapsed_time": "51m 56s", "remaining_time": "7h 12m 11s"}
+{"loss": 0.39950103, "token_acc": 0.8830859, "grad_norm": 0.07344344, "learning_rate": 9.9e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008126, "epoch": 0.11128946, "global_step/max_steps": "26/233", "percentage": "11.16%", "elapsed_time": "53m 12s", "remaining_time": "7h 3m 39s"}
+{"loss": 0.40415633, "token_acc": 0.88295608, "grad_norm": 0.06576811, "learning_rate": 9.86e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008217, "epoch": 0.11556982, "global_step/max_steps": "27/233", "percentage": "11.59%", "elapsed_time": "54m 39s", "remaining_time": "6h 57m 0s"}
+{"loss": 0.42902291, "token_acc": 0.9096094, "grad_norm": 0.0687621, "learning_rate": 9.81e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008314, "epoch": 0.11985019, "global_step/max_steps": "28/233", "percentage": "12.02%", "elapsed_time": "56m 1s", "remaining_time": "6h 50m 7s"}
+{"loss": 0.41589683, "token_acc": 0.90562369, "grad_norm": 0.15414927, "learning_rate": 9.76e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008366, "epoch": 0.12413055, "global_step/max_steps": "29/233", "percentage": "12.45%", "elapsed_time": "57m 39s", "remaining_time": "6h 45m 36s"}
+{"loss": 0.38500765, "token_acc": 0.86961207, "grad_norm": 0.11320223, "learning_rate": 9.71e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.008501, "epoch": 0.12841091, "global_step/max_steps": "30/233", "percentage": "12.88%", "elapsed_time": "58m 42s", "remaining_time": "6h 37m 14s"}
+{"eval_loss": 0.39565024, "eval_token_acc": 0.85503138, "eval_runtime": 226.8071, "eval_samples_per_second": 2.037, "eval_steps_per_second": 0.256, "epoch": 0.12841091, "global_step/max_steps": "30/233", "percentage": "12.88%", "elapsed_time": "1h 2m 29s", "remaining_time": "7h 2m 49s"}
+{"loss": 0.45793277, "token_acc": 0.85833734, "grad_norm": 0.06815999, "learning_rate": 9.67e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007862, "epoch": 0.13269128, "global_step/max_steps": "31/233", "percentage": "13.30%", "elapsed_time": "1h 5m 36s", "remaining_time": "7h 7m 29s"}
+{"loss": 0.42956412, "token_acc": 0.85953068, "grad_norm": 0.06743568, "learning_rate": 9.62e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007809, "epoch": 0.13697164, "global_step/max_steps": "32/233", "percentage": "13.73%", "elapsed_time": "1h 8m 11s", "remaining_time": "7h 8m 16s"}
+{"loss": 0.42277759, "token_acc": 0.86786451, "grad_norm": 0.07200071, "learning_rate": 9.57e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007834, "epoch": 0.14125201, "global_step/max_steps": "33/233", "percentage": "14.16%", "elapsed_time": "1h 10m 5s", "remaining_time": "7h 4m 50s"}
+{"loss": 0.36818027, "token_acc": 0.84394063, "grad_norm": 0.07575763, "learning_rate": 9.52e-06, "memory(GiB)": 127.12, "train_speed(iter/s)": 0.007918, "epoch": 0.14553237, "global_step/max_steps": "34/233", "percentage": "14.59%", "elapsed_time": "1h 11m 27s", "remaining_time": "6h 58m 13s"}