Training in progress, step 70

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +12 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:870b81f66dfab22da0321ec3eb7896ffc9972e1345fcb9783402d02a74de8432
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2ec1e9c3707a5ebac5ddb06be775b578c088bb81c5b262b4f3b506bad3d3d30
 size 13254157312

logging.jsonl CHANGED Viewed

@@ -73,3 +73,15 @@
 {"loss": 0.35998535, "grad_norm": 4.1067186, "learning_rate": 8.85e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015302, "rewards/chosen": -0.0213623, "rewards/rejected": -0.05737305, "rewards/accuracies": 1.0, "rewards/margins": 0.03613281, "logps/rejected": -0.57421875, "logps/chosen": -0.21386719, "logits/rejected": 0.51953125, "logits/chosen": 0.41601562, "nll_loss": 0.21386719, "log_odds_ratio": -0.26757812, "log_odds_chosen": 1.1875, "epoch": 0.20364742, "global_step/max_steps": "67/329", "percentage": "20.36%", "elapsed_time": "1h 12m 51s", "remaining_time": "4h 44m 54s"}
 {"loss": 0.43164062, "grad_norm": 2.28010319, "learning_rate": 8.82e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015329, "rewards/chosen": -0.0378418, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.0065918, "logps/rejected": -0.44335938, "logps/chosen": -0.37890625, "logits/rejected": 0.66015625, "logits/chosen": 0.7265625, "nll_loss": 0.37695312, "log_odds_ratio": -0.60546875, "log_odds_chosen": 0.18945312, "epoch": 0.20668693, "global_step/max_steps": "68/329", "percentage": "20.67%", "elapsed_time": "1h 13m 49s", "remaining_time": "4h 43m 20s"}
 {"loss": 0.41162109, "grad_norm": 8.88037536, "learning_rate": 8.78e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015325, "rewards/chosen": -0.04443359, "rewards/rejected": -0.06054688, "rewards/accuracies": 1.0, "rewards/margins": 0.01611328, "logps/rejected": -0.60546875, "logps/chosen": -0.44335938, "logits/rejected": 1.0625, "logits/chosen": 0.9765625, "nll_loss": 0.44140625, "log_odds_ratio": -0.515625, "log_odds_chosen": 0.39257812, "epoch": 0.20972644, "global_step/max_steps": "69/329", "percentage": "20.97%", "elapsed_time": "1h 14m 55s", "remaining_time": "4h 42m 19s"}

 {"loss": 0.35998535, "grad_norm": 4.1067186, "learning_rate": 8.85e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015302, "rewards/chosen": -0.0213623, "rewards/rejected": -0.05737305, "rewards/accuracies": 1.0, "rewards/margins": 0.03613281, "logps/rejected": -0.57421875, "logps/chosen": -0.21386719, "logits/rejected": 0.51953125, "logits/chosen": 0.41601562, "nll_loss": 0.21386719, "log_odds_ratio": -0.26757812, "log_odds_chosen": 1.1875, "epoch": 0.20364742, "global_step/max_steps": "67/329", "percentage": "20.36%", "elapsed_time": "1h 12m 51s", "remaining_time": "4h 44m 54s"}
 {"loss": 0.43164062, "grad_norm": 2.28010319, "learning_rate": 8.82e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015329, "rewards/chosen": -0.0378418, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.0065918, "logps/rejected": -0.44335938, "logps/chosen": -0.37890625, "logits/rejected": 0.66015625, "logits/chosen": 0.7265625, "nll_loss": 0.37695312, "log_odds_ratio": -0.60546875, "log_odds_chosen": 0.18945312, "epoch": 0.20668693, "global_step/max_steps": "68/329", "percentage": "20.67%", "elapsed_time": "1h 13m 49s", "remaining_time": "4h 43m 20s"}
 {"loss": 0.41162109, "grad_norm": 8.88037536, "learning_rate": 8.78e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015325, "rewards/chosen": -0.04443359, "rewards/rejected": -0.06054688, "rewards/accuracies": 1.0, "rewards/margins": 0.01611328, "logps/rejected": -0.60546875, "logps/chosen": -0.44335938, "logits/rejected": 1.0625, "logits/chosen": 0.9765625, "nll_loss": 0.44140625, "log_odds_ratio": -0.515625, "log_odds_chosen": 0.39257812, "epoch": 0.20972644, "global_step/max_steps": "69/329", "percentage": "20.97%", "elapsed_time": "1h 14m 55s", "remaining_time": "4h 42m 19s"}
+{"loss": 0.43383789, "grad_norm": 4.09660895, "learning_rate": 8.75e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015482, "rewards/chosen": -0.06347656, "rewards/rejected": -0.04101562, "rewards/accuracies": 0.0, "rewards/margins": -0.02246094, "logps/rejected": -0.41015625, "logps/chosen": -0.6328125, "logits/rejected": 0.41601562, "logits/chosen": 0.19433594, "nll_loss": 0.6328125, "log_odds_ratio": -1.015625, "log_odds_chosen": -0.55859375, "epoch": 0.21276596, "global_step/max_steps": "70/329", "percentage": "21.28%", "elapsed_time": "1h 15m 14s", "remaining_time": "4h 38m 24s"}
+{"eval_loss": 0.38610387, "eval_runtime": 141.5462, "eval_samples_per_second": 0.572, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03581099, "eval_rewards/rejected": -0.04599831, "eval_rewards/accuracies": 0.63636363, "eval_rewards/margins": 0.01018732, "eval_logps/rejected": -0.4601385, "eval_logps/chosen": -0.35795453, "eval_logits/rejected": 0.65514028, "eval_logits/chosen": 0.46897194, "eval_nll_loss": 0.35786578, "eval_log_odds_ratio": -0.58726919, "eval_log_odds_chosen": 0.30273438, "epoch": 0.21276596, "global_step/max_steps": "70/329", "percentage": "21.28%", "elapsed_time": "1h 17m 36s", "remaining_time": "4h 47m 8s"}
+{"loss": 0.38415527, "grad_norm": 3.11137735, "learning_rate": 8.72e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014955, "rewards/chosen": -0.0222168, "rewards/rejected": -0.05200195, "rewards/accuracies": 1.0, "rewards/margins": 0.02978516, "logps/rejected": -0.51953125, "logps/chosen": -0.22167969, "logits/rejected": 0.3359375, "logits/chosen": 0.45703125, "nll_loss": 0.22070312, "log_odds_ratio": -0.30859375, "log_odds_chosen": 1.015625, "epoch": 0.21580547, "global_step/max_steps": "71/329", "percentage": "21.58%", "elapsed_time": "1h 19m 0s", "remaining_time": "4h 47m 6s"}
+{"loss": 0.34295654, "grad_norm": 1.65725304, "learning_rate": 8.68e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015005, "rewards/chosen": -0.04614258, "rewards/rejected": -0.03955078, "rewards/accuracies": 0.0, "rewards/margins": -0.0065918, "logps/rejected": -0.39453125, "logps/chosen": -0.4609375, "logits/rejected": 0.6171875, "logits/chosen": 0.72265625, "nll_loss": 0.4609375, "log_odds_ratio": -0.796875, "log_odds_chosen": -0.19921875, "epoch": 0.21884498, "global_step/max_steps": "72/329", "percentage": "21.88%", "elapsed_time": "1h 19m 51s", "remaining_time": "4h 45m 3s"}
+{"loss": 0.44897461, "grad_norm": 2.40945423, "learning_rate": 8.65e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015094, "rewards/chosen": -0.04638672, "rewards/rejected": -0.03369141, "rewards/accuracies": 0.0, "rewards/margins": -0.01269531, "logps/rejected": -0.3359375, "logps/chosen": -0.46484375, "logits/rejected": 0.77734375, "logits/chosen": 0.32421875, "nll_loss": 0.46484375, "log_odds_ratio": -0.91015625, "log_odds_chosen": -0.39453125, "epoch": 0.2218845, "global_step/max_steps": "73/329", "percentage": "22.19%", "elapsed_time": "1h 20m 29s", "remaining_time": "4h 42m 16s"}
+{"loss": 0.34643555, "grad_norm": 1.96284651, "learning_rate": 8.61e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015159, "rewards/chosen": -0.02929688, "rewards/rejected": -0.04858398, "rewards/accuracies": 1.0, "rewards/margins": 0.01928711, "logps/rejected": -0.48632812, "logps/chosen": -0.29296875, "logits/rejected": 1.0625, "logits/chosen": 0.99609375, "nll_loss": 0.29296875, "log_odds_ratio": -0.43359375, "log_odds_chosen": 0.609375, "epoch": 0.22492401, "global_step/max_steps": "74/329", "percentage": "22.49%", "elapsed_time": "1h 21m 14s", "remaining_time": "4h 39m 57s"}
+{"loss": 0.33776855, "grad_norm": 1.87658427, "learning_rate": 8.58e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01521, "rewards/chosen": -0.01733398, "rewards/rejected": -0.04223633, "rewards/accuracies": 1.0, "rewards/margins": 0.02490234, "logps/rejected": -0.421875, "logps/chosen": -0.17285156, "logits/rejected": 0.38085938, "logits/chosen": -0.1171875, "nll_loss": 0.17285156, "log_odds_ratio": -0.30859375, "log_odds_chosen": 1.0078125, "epoch": 0.22796353, "global_step/max_steps": "75/329", "percentage": "22.80%", "elapsed_time": "1h 22m 4s", "remaining_time": "4h 37m 56s"}
+{"loss": 0.32189941, "grad_norm": 2.25169317, "learning_rate": 8.55e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015242, "rewards/chosen": -0.05664062, "rewards/rejected": -0.12890625, "rewards/accuracies": 1.0, "rewards/margins": 0.07226562, "logps/rejected": -1.2890625, "logps/chosen": -0.56640625, "logits/rejected": 0.96875, "logits/chosen": 0.79296875, "nll_loss": 0.5625, "log_odds_ratio": -0.2578125, "log_odds_chosen": 1.234375, "epoch": 0.23100304, "global_step/max_steps": "76/329", "percentage": "23.10%", "elapsed_time": "1h 22m 59s", "remaining_time": "4h 36m 15s"}
+{"loss": 0.47460938, "grad_norm": 2.50027676, "learning_rate": 8.51e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015241, "rewards/chosen": -0.04223633, "rewards/rejected": -0.06176758, "rewards/accuracies": 1.0, "rewards/margins": 0.01953125, "logps/rejected": -0.6171875, "logps/chosen": -0.421875, "logits/rejected": 1.0078125, "logits/chosen": 0.93359375, "nll_loss": 0.421875, "log_odds_ratio": -0.4765625, "log_odds_chosen": 0.4921875, "epoch": 0.23404255, "global_step/max_steps": "77/329", "percentage": "23.40%", "elapsed_time": "1h 24m 5s", "remaining_time": "4h 35m 11s"}
+{"loss": 0.29016113, "grad_norm": 2.21216694, "learning_rate": 8.48e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015298, "rewards/chosen": -0.01220703, "rewards/rejected": -0.0267334, "rewards/accuracies": 1.0, "rewards/margins": 0.01452637, "logps/rejected": -0.26757812, "logps/chosen": -0.12207031, "logits/rejected": 0.85546875, "logits/chosen": -0.23242188, "nll_loss": 0.12158203, "log_odds_ratio": -0.3515625, "log_odds_chosen": 0.86328125, "epoch": 0.23708207, "global_step/max_steps": "78/329", "percentage": "23.71%", "elapsed_time": "1h 24m 51s", "remaining_time": "4h 33m 5s"}
+{"loss": 0.34313965, "grad_norm": 2.48498459, "learning_rate": 8.45e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015376, "rewards/chosen": -0.03662109, "rewards/rejected": -0.06103516, "rewards/accuracies": 1.0, "rewards/margins": 0.02441406, "logps/rejected": -0.609375, "logps/chosen": -0.36523438, "logits/rejected": 0.99609375, "logits/chosen": 0.953125, "nll_loss": 0.36328125, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.6484375, "epoch": 0.24012158, "global_step/max_steps": "79/329", "percentage": "24.01%", "elapsed_time": "1h 25m 31s", "remaining_time": "4h 30m 37s"}
+{"loss": 0.33691406, "grad_norm": 2.50369791, "learning_rate": 8.41e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015391, "rewards/chosen": -0.03295898, "rewards/rejected": -0.02270508, "rewards/accuracies": 0.0, "rewards/margins": -0.01025391, "logps/rejected": -0.2265625, "logps/chosen": -0.33007812, "logits/rejected": 0.46289062, "logits/chosen": 0.53515625, "nll_loss": 0.33007812, "log_odds_ratio": -0.9296875, "log_odds_chosen": -0.43164062, "epoch": 0.24316109, "global_step/max_steps": "80/329", "percentage": "24.32%", "elapsed_time": "1h 26m 30s", "remaining_time": "4h 29m 16s"}