Training in progress, step 60

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +10 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3844bebe1f1c2ef6850903573840f981f935e32fb8fee6fe9317577f6f226802
 size 13254157312

 version https://git-lfs.github.com/spec/v1
+oid sha256:870b81f66dfab22da0321ec3eb7896ffc9972e1345fcb9783402d02a74de8432
 size 13254157312

logging.jsonl CHANGED Viewed

@@ -63,3 +63,13 @@
 {"loss": 0.3314209, "grad_norm": 2.10131649, "learning_rate": 9.16e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015522, "rewards/chosen": -0.02661133, "rewards/rejected": -0.02490234, "rewards/accuracies": 0.0, "rewards/margins": -0.00170898, "logps/rejected": -0.24902344, "logps/chosen": -0.265625, "logits/rejected": 0.76953125, "logits/chosen": 0.73046875, "nll_loss": 0.265625, "log_odds_ratio": -0.73828125, "log_odds_chosen": -0.08691406, "epoch": 0.17629179, "global_step/max_steps": "58/329", "percentage": "17.63%", "elapsed_time": "1h 2m 9s", "remaining_time": "4h 50m 27s"}
 {"loss": 0.33679199, "grad_norm": 2.19148879, "learning_rate": 9.12e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015556, "rewards/chosen": -0.04199219, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.00048828, "logps/rejected": -0.42578125, "logps/chosen": -0.41992188, "logits/rejected": 0.7265625, "logits/chosen": 0.43359375, "nll_loss": 0.41992188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.17933131, "global_step/max_steps": "59/329", "percentage": "17.93%", "elapsed_time": "1h 3m 6s", "remaining_time": "4h 48m 45s"}
 {"loss": 0.40551758, "grad_norm": 2.98417344, "learning_rate": 9.09e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015665, "rewards/chosen": -0.04248047, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.0, "rewards/margins": -0.00463867, "logps/rejected": -0.37890625, "logps/chosen": -0.42578125, "logits/rejected": 0.83984375, "logits/chosen": 0.3125, "nll_loss": 0.42382812, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.140625, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 3m 43s", "remaining_time": "4h 45m 41s"}

 {"loss": 0.3314209, "grad_norm": 2.10131649, "learning_rate": 9.16e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015522, "rewards/chosen": -0.02661133, "rewards/rejected": -0.02490234, "rewards/accuracies": 0.0, "rewards/margins": -0.00170898, "logps/rejected": -0.24902344, "logps/chosen": -0.265625, "logits/rejected": 0.76953125, "logits/chosen": 0.73046875, "nll_loss": 0.265625, "log_odds_ratio": -0.73828125, "log_odds_chosen": -0.08691406, "epoch": 0.17629179, "global_step/max_steps": "58/329", "percentage": "17.63%", "elapsed_time": "1h 2m 9s", "remaining_time": "4h 50m 27s"}
 {"loss": 0.33679199, "grad_norm": 2.19148879, "learning_rate": 9.12e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015556, "rewards/chosen": -0.04199219, "rewards/rejected": -0.04248047, "rewards/accuracies": 1.0, "rewards/margins": 0.00048828, "logps/rejected": -0.42578125, "logps/chosen": -0.41992188, "logits/rejected": 0.7265625, "logits/chosen": 0.43359375, "nll_loss": 0.41992188, "log_odds_ratio": -0.68359375, "log_odds_chosen": 0.02148438, "epoch": 0.17933131, "global_step/max_steps": "59/329", "percentage": "17.93%", "elapsed_time": "1h 3m 6s", "remaining_time": "4h 48m 45s"}
 {"loss": 0.40551758, "grad_norm": 2.98417344, "learning_rate": 9.09e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015665, "rewards/chosen": -0.04248047, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.0, "rewards/margins": -0.00463867, "logps/rejected": -0.37890625, "logps/chosen": -0.42578125, "logits/rejected": 0.83984375, "logits/chosen": 0.3125, "nll_loss": 0.42382812, "log_odds_ratio": -0.765625, "log_odds_chosen": -0.140625, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 3m 43s", "remaining_time": "4h 45m 41s"}
+{"eval_loss": 0.38621238, "eval_runtime": 141.2637, "eval_samples_per_second": 0.573, "eval_steps_per_second": 0.078, "eval_rewards/chosen": -0.03542259, "eval_rewards/rejected": -0.04432262, "eval_rewards/accuracies": 0.63636363, "eval_rewards/margins": 0.00890004, "eval_logps/rejected": -0.44335938, "eval_logps/chosen": -0.35400391, "eval_logits/rejected": 0.70685369, "eval_logits/chosen": 0.50732422, "eval_nll_loss": 0.35418147, "eval_log_odds_ratio": -0.58638138, "eval_log_odds_chosen": 0.3046875, "epoch": 0.18237082, "global_step/max_steps": "60/329", "percentage": "18.24%", "elapsed_time": "1h 6m 4s", "remaining_time": "4h 56m 15s"}
+{"loss": 0.44628906, "grad_norm": 2.31816253, "learning_rate": 9.05e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.01493, "rewards/chosen": -0.04833984, "rewards/rejected": -0.03759766, "rewards/accuracies": 0.0, "rewards/margins": -0.01074219, "logps/rejected": -0.375, "logps/chosen": -0.48242188, "logits/rejected": 0.27539062, "logits/chosen": 0.7578125, "nll_loss": 0.48242188, "log_odds_ratio": -0.859375, "log_odds_chosen": -0.31054688, "epoch": 0.18541033, "global_step/max_steps": "61/329", "percentage": "18.54%", "elapsed_time": "1h 7m 58s", "remaining_time": "4h 58m 40s"}
+{"loss": 0.43273926, "grad_norm": 4.13422499, "learning_rate": 9.02e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014951, "rewards/chosen": -0.06054688, "rewards/rejected": -0.03979492, "rewards/accuracies": 0.0, "rewards/margins": -0.02075195, "logps/rejected": -0.3984375, "logps/chosen": -0.60546875, "logits/rejected": 0.4140625, "logits/chosen": 0.45507812, "nll_loss": 0.60546875, "log_odds_ratio": -0.9921875, "log_odds_chosen": -0.53125, "epoch": 0.18844985, "global_step/max_steps": "62/329", "percentage": "18.84%", "elapsed_time": "1h 9m 0s", "remaining_time": "4h 57m 8s"}
+{"loss": 0.39550781, "grad_norm": 2.83271886, "learning_rate": 8.99e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.014976, "rewards/chosen": -0.01953125, "rewards/rejected": -0.02697754, "rewards/accuracies": 1.0, "rewards/margins": 0.00744629, "logps/rejected": -0.26953125, "logps/chosen": -0.1953125, "logits/rejected": 0.63671875, "logits/chosen": 0.69921875, "nll_loss": 0.19628906, "log_odds_ratio": -0.52734375, "log_odds_chosen": 0.36328125, "epoch": 0.19148936, "global_step/max_steps": "63/329", "percentage": "19.15%", "elapsed_time": "1h 9m 59s", "remaining_time": "4h 55m 32s"}
+{"loss": 0.41711426, "grad_norm": 2.09376413, "learning_rate": 8.95e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015099, "rewards/chosen": -0.0480957, "rewards/rejected": -0.06201172, "rewards/accuracies": 1.0, "rewards/margins": 0.01391602, "logps/rejected": -0.62109375, "logps/chosen": -0.48046875, "logits/rejected": 1.0859375, "logits/chosen": 0.9140625, "nll_loss": 0.47851562, "log_odds_ratio": -0.54296875, "log_odds_chosen": 0.328125, "epoch": 0.19452888, "global_step/max_steps": "64/329", "percentage": "19.45%", "elapsed_time": "1h 10m 31s", "remaining_time": "4h 52m 2s"}
+{"loss": 0.4362793, "grad_norm": 1.80230089, "learning_rate": 8.92e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015114, "rewards/chosen": -0.03930664, "rewards/rejected": -0.06494141, "rewards/accuracies": 1.0, "rewards/margins": 0.02563477, "logps/rejected": -0.6484375, "logps/chosen": -0.39257812, "logits/rejected": 1.03125, "logits/chosen": 0.90625, "nll_loss": 0.39257812, "log_odds_ratio": -0.421875, "log_odds_chosen": 0.640625, "epoch": 0.19756839, "global_step/max_steps": "65/329", "percentage": "19.76%", "elapsed_time": "1h 11m 33s", "remaining_time": "4h 50m 39s"}
+{"loss": 0.36950684, "grad_norm": 3.48623789, "learning_rate": 8.89e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015212, "rewards/chosen": -0.03442383, "rewards/rejected": -0.03442383, "rewards/accuracies": 0.0, "rewards/margins": 0.0, "logps/rejected": -0.34375, "logps/chosen": -0.34375, "logits/rejected": 0.6796875, "logits/chosen": 0.56640625, "nll_loss": 0.34375, "log_odds_ratio": -0.69140625, "log_odds_chosen": 0.0, "epoch": 0.2006079, "global_step/max_steps": "66/329", "percentage": "20.06%", "elapsed_time": "1h 12m 11s", "remaining_time": "4h 47m 41s"}
+{"loss": 0.35998535, "grad_norm": 4.1067186, "learning_rate": 8.85e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015302, "rewards/chosen": -0.0213623, "rewards/rejected": -0.05737305, "rewards/accuracies": 1.0, "rewards/margins": 0.03613281, "logps/rejected": -0.57421875, "logps/chosen": -0.21386719, "logits/rejected": 0.51953125, "logits/chosen": 0.41601562, "nll_loss": 0.21386719, "log_odds_ratio": -0.26757812, "log_odds_chosen": 1.1875, "epoch": 0.20364742, "global_step/max_steps": "67/329", "percentage": "20.36%", "elapsed_time": "1h 12m 51s", "remaining_time": "4h 44m 54s"}
+{"loss": 0.43164062, "grad_norm": 2.28010319, "learning_rate": 8.82e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015329, "rewards/chosen": -0.0378418, "rewards/rejected": -0.04443359, "rewards/accuracies": 1.0, "rewards/margins": 0.0065918, "logps/rejected": -0.44335938, "logps/chosen": -0.37890625, "logits/rejected": 0.66015625, "logits/chosen": 0.7265625, "nll_loss": 0.37695312, "log_odds_ratio": -0.60546875, "log_odds_chosen": 0.18945312, "epoch": 0.20668693, "global_step/max_steps": "68/329", "percentage": "20.67%", "elapsed_time": "1h 13m 49s", "remaining_time": "4h 43m 20s"}
+{"loss": 0.41162109, "grad_norm": 8.88037536, "learning_rate": 8.78e-06, "memory(GiB)": 133.18, "train_speed(iter/s)": 0.015325, "rewards/chosen": -0.04443359, "rewards/rejected": -0.06054688, "rewards/accuracies": 1.0, "rewards/margins": 0.01611328, "logps/rejected": -0.60546875, "logps/chosen": -0.44335938, "logits/rejected": 1.0625, "logits/chosen": 0.9765625, "nll_loss": 0.44140625, "log_odds_ratio": -0.515625, "log_odds_chosen": 0.39257812, "epoch": 0.20972644, "global_step/max_steps": "69/329", "percentage": "20.97%", "elapsed_time": "1h 14m 55s", "remaining_time": "4h 42m 19s"}