Training in progress, step 50

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +11 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43e5a2ee020e679e55844f88475baeb607e0fbc6f7eec3d565657b2c09a1367c
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:3844bebe1f1c2ef6850903573840f981f935e32fb8fee6fe9317577f6f226802
 size 13254157312

logging.jsonl CHANGED Viewed

@@ -52,3 +52,14 @@
 {"loss": 0.47900391, "grad_norm": 2.62579317, "learning_rate": 9.49e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015451, "rewards/chosen": -0.04370117, "rewards/rejected": -0.03686523, "rewards/accuracies": 0.0, "rewards/margins": -0.00683594, "logps/rejected": -0.36914062, "logps/chosen": -0.4375, "logits/rejected": 0.66015625, "logits/chosen": 0.68359375, "nll_loss": 0.43945312, "log_odds_ratio": -0.8046875, "log_odds_chosen": -0.20898438, "epoch": 0.14589666, "global_step/max_steps": "48/329", "percentage": "14.59%", "elapsed_time": "51m 39s", "remaining_time": "5h 2m 26s"}
 {"loss": 0.43115234, "grad_norm": 3.17159777, "learning_rate": 9.46e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015583, "rewards/chosen": -0.05029297, "rewards/rejected": -0.04516602, "rewards/accuracies": 0.0, "rewards/margins": -0.00512695, "logps/rejected": -0.45117188, "logps/chosen": -0.50390625, "logits/rejected": 1.078125, "logits/chosen": -0.6015625, "nll_loss": 0.50390625, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.13867188, "epoch": 0.14893617, "global_step/max_steps": "49/329", "percentage": "14.89%", "elapsed_time": "52m 17s", "remaining_time": "4h 58m 49s"}
 {"loss": 0.40551758, "grad_norm": 2.99144395, "learning_rate": 9.43e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015667, "rewards/chosen": -0.03833008, "rewards/rejected": -0.04418945, "rewards/accuracies": 1.0, "rewards/margins": 0.00585938, "logps/rejected": -0.44140625, "logps/chosen": -0.3828125, "logits/rejected": 1.0546875, "logits/chosen": 0.80859375, "nll_loss": 0.3828125, "log_odds_ratio": -0.609375, "log_odds_chosen": 0.17578125, "epoch": 0.15197568, "global_step/max_steps": "50/329", "percentage": "15.20%", "elapsed_time": "53m 4s", "remaining_time": "4h 56m 9s"}

 {"loss": 0.47900391, "grad_norm": 2.62579317, "learning_rate": 9.49e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015451, "rewards/chosen": -0.04370117, "rewards/rejected": -0.03686523, "rewards/accuracies": 0.0, "rewards/margins": -0.00683594, "logps/rejected": -0.36914062, "logps/chosen": -0.4375, "logits/rejected": 0.66015625, "logits/chosen": 0.68359375, "nll_loss": 0.43945312, "log_odds_ratio": -0.8046875, "log_odds_chosen": -0.20898438, "epoch": 0.14589666, "global_step/max_steps": "48/329", "percentage": "14.59%", "elapsed_time": "51m 39s", "remaining_time": "5h 2m 26s"}
 {"loss": 0.43115234, "grad_norm": 3.17159777, "learning_rate": 9.46e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015583, "rewards/chosen": -0.05029297, "rewards/rejected": -0.04516602, "rewards/accuracies": 0.0, "rewards/margins": -0.00512695, "logps/rejected": -0.45117188, "logps/chosen": -0.50390625, "logits/rejected": 1.078125, "logits/chosen": -0.6015625, "nll_loss": 0.50390625, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.13867188, "epoch": 0.14893617, "global_step/max_steps": "49/329", "percentage": "14.89%", "elapsed_time": "52m 17s", "remaining_time": "4h 58m 49s"}
 {"loss": 0.40551758, "grad_norm": 2.99144395, "learning_rate": 9.43e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015667, "rewards/chosen": -0.03833008, "rewards/rejected": -0.04418945, "rewards/accuracies": 1.0, "rewards/margins": 0.00585938, "logps/rejected": -0.44140625, "logps/chosen": -0.3828125, "logits/rejected": 1.0546875, "logits/chosen": 0.80859375, "nll_loss": 0.3828125, "log_odds_ratio": -0.609375, "log_odds_chosen": 0.17578125, "epoch": 0.15197568, "global_step/max_steps": "50/329", "percentage": "15.20%", "elapsed_time": "53m 4s", "remaining_time": "4h 56m 9s"}
+{"eval_loss": 0.40471885, "eval_runtime": 141.2022, "eval_samples_per_second": 0.574, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03548362, "eval_rewards/rejected": -0.04433372, "eval_rewards/accuracies": 0.72727275, "eval_rewards/margins": 0.00884455, "eval_logps/rejected": -0.44335938, "eval_logps/chosen": -0.35493609, "eval_logits/rejected": 0.69318181, "eval_logits/chosen": 0.50608134, "eval_nll_loss": 0.35475853, "eval_log_odds_ratio": -0.59197444, "eval_log_odds_chosen": 0.28995028, "epoch": 0.15197568, "global_step/max_steps": "50/329", "percentage": "15.20%", "elapsed_time": "55m 25s", "remaining_time": "5h 9m 17s"}
+{"loss": 0.4765625, "grad_norm": 2.66326494, "learning_rate": 9.39e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014793, "rewards/chosen": -0.03759766, "rewards/rejected": -0.03833008, "rewards/accuracies": 1.0, "rewards/margins": 0.00073242, "logps/rejected": -0.3828125, "logps/chosen": -0.37695312, "logits/rejected": 1.140625, "logits/chosen": 0.06542969, "nll_loss": 0.37695312, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.1550152, "global_step/max_steps": "51/329", "percentage": "15.50%", "elapsed_time": "57m 20s", "remaining_time": "5h 12m 34s"}
+{"loss": 0.34051514, "grad_norm": 2.14195901, "learning_rate": 9.36e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014818, "rewards/chosen": -0.02954102, "rewards/rejected": -0.03344727, "rewards/accuracies": 1.0, "rewards/margins": 0.00390625, "logps/rejected": -0.33398438, "logps/chosen": -0.29492188, "logits/rejected": 1.0625, "logits/chosen": 1.0625, "nll_loss": 0.29492188, "log_odds_ratio": -0.625, "log_odds_chosen": 0.1484375, "epoch": 0.15805471, "global_step/max_steps": "52/329", "percentage": "15.81%", "elapsed_time": "58m 22s", "remaining_time": "5h 10m 57s"}
+{"loss": 0.47961426, "grad_norm": 3.21076807, "learning_rate": 9.32e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01494, "rewards/chosen": -0.00775146, "rewards/rejected": -0.02770996, "rewards/accuracies": 1.0, "rewards/margins": 0.02001953, "logps/rejected": -0.27734375, "logps/chosen": -0.07763672, "logits/rejected": 0.56640625, "logits/chosen": 0.13867188, "nll_loss": 0.07763672, "log_odds_ratio": -0.22753906, "log_odds_chosen": 1.375, "epoch": 0.16109422, "global_step/max_steps": "53/329", "percentage": "16.11%", "elapsed_time": "59m 0s", "remaining_time": "5h 7m 18s"}
+{"loss": 0.40112305, "grad_norm": 2.34634184, "learning_rate": 9.29e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015009, "rewards/chosen": -0.02600098, "rewards/rejected": -0.0246582, "rewards/accuracies": 0.0, "rewards/margins": -0.00134277, "logps/rejected": -0.24609375, "logps/chosen": -0.25976562, "logits/rejected": 0.8671875, "logits/chosen": 0.8515625, "nll_loss": 0.25976562, "log_odds_ratio": -0.73046875, "log_odds_chosen": -0.06835938, "epoch": 0.16413374, "global_step/max_steps": "54/329", "percentage": "16.41%", "elapsed_time": "59m 51s", "remaining_time": "5h 4m 47s"}
+{"loss": 0.48168945, "grad_norm": 2.55802422, "learning_rate": 9.26e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01513, "rewards/chosen": -0.02966309, "rewards/rejected": -0.03027344, "rewards/accuracies": 1.0, "rewards/margins": 0.00061035, "logps/rejected": -0.30273438, "logps/chosen": -0.296875, "logits/rejected": 0.7421875, "logits/chosen": 0.6796875, "nll_loss": 0.29492188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.16717325, "global_step/max_steps": "55/329", "percentage": "16.72%", "elapsed_time": "1h 0m 28s", "remaining_time": "5h 1m 16s"}
+{"loss": 0.39550781, "grad_norm": 2.76143174, "learning_rate": 9.22e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015289, "rewards/chosen": -0.03759766, "rewards/rejected": -0.03857422, "rewards/accuracies": 1.0, "rewards/margins": 0.00097656, "logps/rejected": -0.38671875, "logps/chosen": -0.37695312, "logits/rejected": 0.7109375, "logits/chosen": 0.82421875, "nll_loss": 0.375, "log_odds_ratio": -0.67578125, "log_odds_chosen": 0.03320312, "epoch": 0.17021277, "global_step/max_steps": "56/329", "percentage": "17.02%", "elapsed_time": "1h 0m 56s", "remaining_time": "4h 57m 3s"}
+{"loss": 0.41088867, "grad_norm": 1.97359404, "learning_rate": 9.19e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015422, "rewards/chosen": -0.02404785, "rewards/rejected": -0.03955078, "rewards/accuracies": 1.0, "rewards/margins": 0.01550293, "logps/rejected": -0.39648438, "logps/chosen": -0.24023438, "logits/rejected": 0.55859375, "logits/chosen": 0.59375, "nll_loss": 0.24023438, "log_odds_ratio": -0.4453125, "log_odds_chosen": 0.578125, "epoch": 0.17325228, "global_step/max_steps": "57/329", "percentage": "17.33%", "elapsed_time": "1h 1m 29s", "remaining_time": "4h 53m 24s"}
+{"loss": 0.3314209, "grad_norm": 2.10131649, "learning_rate": 9.16e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015522, "rewards/chosen": -0.02661133, "rewards/rejected": -0.02490234, "rewards/accuracies": 0.0, "rewards/margins": -0.00170898, "logps/rejected": -0.24902344, "logps/chosen": -0.265625, "logits/rejected": 0.76953125, "logits/chosen": 0.73046875, "nll_loss": 0.265625, "log_odds_ratio": -0.73828125, "log_odds_chosen": -0.08691406, "epoch": 0.17629179, "global_step/max_steps": "58/329", "percentage": "17.63%", "elapsed_time": "1h 2m 9s", "remaining_time": "4h 50m 27s"}
+{"loss": 0.33679199, "grad_norm": 2.19148879, "learning_rate": 9.12e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015556, "rewards/chosen": -0.04199219, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.00048828, "logps/rejected": -0.42578125, "logps/chosen": -0.41992188, "logits/rejected": 0.7265625, "logits/chosen": 0.43359375, "nll_loss": 0.41992188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.17933131, "global_step/max_steps": "59/329", "percentage": "17.93%", "elapsed_time": "1h 3m 6s", "remaining_time": "4h 48m 45s"}
+{"loss": 0.40551758, "grad_norm": 2.98417344, "learning_rate": 9.09e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015665, "rewards/chosen": -0.04248047, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.0, "rewards/margins": -0.00463867, "logps/rejected": -0.37890625, "logps/chosen": -0.42578125, "logits/rejected": 0.83984375, "logits/chosen": 0.3125, "nll_loss": 0.42382812, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.140625, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 3m 43s", "remaining_time": "4h 45m 41s"}