Training in progress, step 80

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +11 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2ec1e9c3707a5ebac5ddb06be775b578c088bb81c5b262b4f3b506bad3d3d30
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:829c0a666a74f42d50ccf06b82a42fbdfbb697119256d086b26ca91e8ed37e69
 size 13254157312

logging.jsonl CHANGED Viewed

@@ -85,3 +85,14 @@
 {"loss": 0.29016113, "grad_norm": 2.21216694, "learning_rate": 8.48e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015298, "rewards/chosen": -0.01220703, "rewards/rejected": -0.0267334, "rewards/accuracies": 1.0, "rewards/margins": 0.01452637, "logps/rejected": -0.26757812, "logps/chosen": -0.12207031, "logits/rejected": 0.85546875, "logits/chosen": -0.23242188, "nll_loss": 0.12158203, "log_odds_ratio": -0.3515625, "log_odds_chosen": 0.86328125, "epoch": 0.23708207, "global_step/max_steps": "78/329", "percentage": "23.71%", "elapsed_time": "1h 24m 51s", "remaining_time": "4h 33m 5s"}
 {"loss": 0.34313965, "grad_norm": 2.48498459, "learning_rate": 8.45e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015376, "rewards/chosen": -0.03662109, "rewards/rejected": -0.06103516, "rewards/accuracies": 1.0, "rewards/margins": 0.02441406, "logps/rejected": -0.609375, "logps/chosen": -0.36523438, "logits/rejected": 0.99609375, "logits/chosen": 0.953125, "nll_loss": 0.36328125, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.6484375, "epoch": 0.24012158, "global_step/max_steps": "79/329", "percentage": "24.01%", "elapsed_time": "1h 25m 31s", "remaining_time": "4h 30m 37s"}
 {"loss": 0.33691406, "grad_norm": 2.50369791, "learning_rate": 8.41e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015391, "rewards/chosen": -0.03295898, "rewards/rejected": -0.02270508, "rewards/accuracies": 0.0, "rewards/margins": -0.01025391, "logps/rejected": -0.2265625, "logps/chosen": -0.33007812, "logits/rejected": 0.46289062, "logits/chosen": 0.53515625, "nll_loss": 0.33007812, "log_odds_ratio": -0.9296875, "log_odds_chosen": -0.43164062, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 26m 30s", "remaining_time": "4h 29m 16s"}

 {"loss": 0.29016113, "grad_norm": 2.21216694, "learning_rate": 8.48e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015298, "rewards/chosen": -0.01220703, "rewards/rejected": -0.0267334, "rewards/accuracies": 1.0, "rewards/margins": 0.01452637, "logps/rejected": -0.26757812, "logps/chosen": -0.12207031, "logits/rejected": 0.85546875, "logits/chosen": -0.23242188, "nll_loss": 0.12158203, "log_odds_ratio": -0.3515625, "log_odds_chosen": 0.86328125, "epoch": 0.23708207, "global_step/max_steps": "78/329", "percentage": "23.71%", "elapsed_time": "1h 24m 51s", "remaining_time": "4h 33m 5s"}
 {"loss": 0.34313965, "grad_norm": 2.48498459, "learning_rate": 8.45e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015376, "rewards/chosen": -0.03662109, "rewards/rejected": -0.06103516, "rewards/accuracies": 1.0, "rewards/margins": 0.02441406, "logps/rejected": -0.609375, "logps/chosen": -0.36523438, "logits/rejected": 0.99609375, "logits/chosen": 0.953125, "nll_loss": 0.36328125, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.6484375, "epoch": 0.24012158, "global_step/max_steps": "79/329", "percentage": "24.01%", "elapsed_time": "1h 25m 31s", "remaining_time": "4h 30m 37s"}
 {"loss": 0.33691406, "grad_norm": 2.50369791, "learning_rate": 8.41e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015391, "rewards/chosen": -0.03295898, "rewards/rejected": -0.02270508, "rewards/accuracies": 0.0, "rewards/margins": -0.01025391, "logps/rejected": -0.2265625, "logps/chosen": -0.33007812, "logits/rejected": 0.46289062, "logits/chosen": 0.53515625, "nll_loss": 0.33007812, "log_odds_ratio": -0.9296875, "log_odds_chosen": -0.43164062, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 26m 30s", "remaining_time": "4h 29m 16s"}
+{"eval_loss": 0.37027392, "eval_runtime": 141.3583, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.0349565, "eval_rewards/rejected": -0.04730779, "eval_rewards/accuracies": 0.54545456, "eval_rewards/margins": 0.0123291, "eval_logps/rejected": -0.47274503, "eval_logps/chosen": -0.34925425, "eval_logits/rejected": 0.6041593, "eval_logits/chosen": 0.40482953, "eval_nll_loss": 0.34969816, "eval_log_odds_ratio": -0.59232956, "eval_log_odds_chosen": 0.31383169, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 28m 52s", "remaining_time": "4h 36m 36s"}
+{"loss": 0.29141235, "grad_norm": 2.14457193, "learning_rate": 8.38e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014863, "rewards/chosen": -0.03063965, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.01184082, "logps/rejected": -0.42382812, "logps/chosen": -0.30664062, "logits/rejected": 0.98046875, "logits/chosen": 0.97265625, "nll_loss": 0.30859375, "log_odds_ratio": -0.51953125, "log_odds_chosen": 0.375, "epoch": 0.24620061, "global_step/max_steps": "81/329", "percentage": "24.62%", "elapsed_time": "1h 30m 43s", "remaining_time": "4h 37m 45s"}
+{"loss": 0.40600586, "grad_norm": 2.55797078, "learning_rate": 8.34e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014933, "rewards/chosen": -0.01165771, "rewards/rejected": -0.07373047, "rewards/accuracies": 1.0, "rewards/margins": 0.06201172, "logps/rejected": -0.73828125, "logps/chosen": -0.11669922, "logits/rejected": 0.50390625, "logits/chosen": 0.20605469, "nll_loss": 0.11621094, "log_odds_ratio": -0.10693359, "log_odds_chosen": 2.1875, "epoch": 0.24924012, "global_step/max_steps": "82/329", "percentage": "24.92%", "elapsed_time": "1h 31m 24s", "remaining_time": "4h 35m 19s"}
+{"loss": 0.34484863, "grad_norm": 2.56287775, "learning_rate": 8.31e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014995, "rewards/chosen": -0.0133667, "rewards/rejected": -0.05126953, "rewards/accuracies": 1.0, "rewards/margins": 0.0378418, "logps/rejected": -0.51171875, "logps/chosen": -0.13378906, "logits/rejected": 0.13476562, "logits/chosen": 0.47070312, "nll_loss": 0.13378906, "log_odds_ratio": -0.19335938, "log_odds_chosen": 1.546875, "epoch": 0.25227964, "global_step/max_steps": "83/329", "percentage": "25.23%", "elapsed_time": "1h 32m 8s", "remaining_time": "4h 33m 5s"}
+{"loss": 0.27984619, "grad_norm": 1.86446951, "learning_rate": 8.28e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015078, "rewards/chosen": -0.02575684, "rewards/rejected": -0.11230469, "rewards/accuracies": 1.0, "rewards/margins": 0.08642578, "logps/rejected": -1.125, "logps/chosen": -0.2578125, "logits/rejected": 1.140625, "logits/chosen": 0.47070312, "nll_loss": 0.2578125, "log_odds_ratio": -0.13378906, "log_odds_chosen": 1.9609375, "epoch": 0.25531915, "global_step/max_steps": "84/329", "percentage": "25.53%", "elapsed_time": "1h 32m 44s", "remaining_time": "4h 30m 28s"}
+{"loss": 0.31011963, "grad_norm": 2.51877156, "learning_rate": 8.24e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015093, "rewards/chosen": -0.02990723, "rewards/rejected": -0.08203125, "rewards/accuracies": 1.0, "rewards/margins": 0.05224609, "logps/rejected": -0.8203125, "logps/chosen": -0.29882812, "logits/rejected": 1.1484375, "logits/chosen": 1.046875, "nll_loss": 0.296875, "log_odds_ratio": -0.2421875, "log_odds_chosen": 1.3046875, "epoch": 0.25835866, "global_step/max_steps": "85/329", "percentage": "25.84%", "elapsed_time": "1h 33m 44s", "remaining_time": "4h 29m 6s"}
+{"loss": 0.32727051, "grad_norm": 2.10151258, "learning_rate": 8.21e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015131, "rewards/chosen": -0.03613281, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.00830078, "logps/rejected": -0.44335938, "logps/chosen": -0.36132812, "logits/rejected": 0.83203125, "logits/chosen": 0.79296875, "nll_loss": 0.36132812, "log_odds_ratio": -0.57421875, "log_odds_chosen": 0.24609375, "epoch": 0.26139818, "global_step/max_steps": "86/329", "percentage": "26.14%", "elapsed_time": "1h 34m 36s", "remaining_time": "4h 27m 20s"}
+{"loss": 0.4039917, "grad_norm": 2.84432984, "learning_rate": 8.18e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015159, "rewards/chosen": -0.05078125, "rewards/rejected": -0.04223633, "rewards/accuracies": 0.0, "rewards/margins": -0.00854492, "logps/rejected": -0.421875, "logps/chosen": -0.5078125, "logits/rejected": 0.875, "logits/chosen": 0.515625, "nll_loss": 0.5078125, "log_odds_ratio": -0.81640625, "log_odds_chosen": -0.234375, "epoch": 0.26443769, "global_step/max_steps": "87/329", "percentage": "26.44%", "elapsed_time": "1h 35m 32s", "remaining_time": "4h 25m 45s"}
+{"loss": 0.40795898, "grad_norm": 2.2223277, "learning_rate": 8.14e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015228, "rewards/chosen": -0.03173828, "rewards/rejected": -0.04956055, "rewards/accuracies": 1.0, "rewards/margins": 0.01782227, "logps/rejected": -0.49609375, "logps/chosen": -0.31640625, "logits/rejected": 0.7578125, "logits/chosen": 0.8125, "nll_loss": 0.31640625, "log_odds_ratio": -0.45703125, "log_odds_chosen": 0.55078125, "epoch": 0.2674772, "global_step/max_steps": "88/329", "percentage": "26.75%", "elapsed_time": "1h 36m 11s", "remaining_time": "4h 23m 27s"}
+{"loss": 0.37896729, "grad_norm": 2.12277995, "learning_rate": 8.11e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015317, "rewards/chosen": -0.02246094, "rewards/rejected": -0.0324707, "rewards/accuracies": 1.0, "rewards/margins": 0.01000977, "logps/rejected": -0.32421875, "logps/chosen": -0.22460938, "logits/rejected": 0.29101562, "logits/chosen": 0.76953125, "nll_loss": 0.22460938, "log_odds_ratio": -0.5, "log_odds_chosen": 0.43554688, "epoch": 0.27051672, "global_step/max_steps": "89/329", "percentage": "27.05%", "elapsed_time": "1h 36m 43s", "remaining_time": "4h 20m 50s"}
+{"loss": 0.36132812, "grad_norm": 2.26651769, "learning_rate": 8.07e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015339, "rewards/chosen": -0.04492188, "rewards/rejected": -0.17382812, "rewards/accuracies": 1.0, "rewards/margins": 0.12890625, "logps/rejected": -1.734375, "logps/chosen": -0.44921875, "logits/rejected": 1.125, "logits/chosen": 0.9375, "nll_loss": 0.44921875, "log_odds_ratio": -0.11572266, "log_odds_chosen": 2.09375, "epoch": 0.27355623, "global_step/max_steps": "90/329", "percentage": "27.36%", "elapsed_time": "1h 37m 40s", "remaining_time": "4h 19m 23s"}