Training in progress, step 160

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +11 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2ef83fb36d59272e72cfa6efb6c2cf0cc15bfd49a4c87828ca8cf8c1563f3c7
 size 6627156248

 version https://git-lfs.github.com/spec/v1
+oid sha256:39aa253082dd7775361bcc145ce2e3d84766cf5c98c02e5b9a69643f16b4f492
 size 6627156248

logging.jsonl CHANGED Viewed

@@ -163,3 +163,14 @@
 {"loss": 0.47558594, "grad_norm": 0.10571572, "learning_rate": 3.294e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004039, "rewards/chosen": -0.03918457, "rewards/rejected": -0.21398926, "rewards/accuracies": 0.25, "rewards/margins": 0.17510986, "logps/rejected": -2.13623047, "logps/chosen": -0.39160156, "logits/rejected": -0.4453125, "logits/chosen": -0.48193359, "nll_loss": 0.39160156, "log_odds_ratio": -0.70800781, "log_odds_chosen": 1.984375, "epoch": 0.34894614, "global_step/max_steps": "149/427", "percentage": "34.89%", "elapsed_time": "10h 14m 10s", "remaining_time": "19h 5m 55s"}
 {"loss": 0.40313721, "grad_norm": 0.11789128, "learning_rate": 3.282e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004048, "rewards/chosen": -0.02890015, "rewards/rejected": -0.21908569, "rewards/accuracies": 1.0, "rewards/margins": 0.18978882, "logps/rejected": -2.19287109, "logps/chosen": -0.2890625, "logits/rejected": -0.1060791, "logits/chosen": -0.59295654, "nll_loss": 0.28930664, "log_odds_ratio": -0.47265625, "log_odds_chosen": 2.34716797, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 16m 56s", "remaining_time": "18h 59m 17s"}
 {"eval_loss": 0.47329032, "eval_runtime": 649.4744, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04066784, "eval_rewards/rejected": -0.09058308, "eval_rewards/accuracies": 0.56603771, "eval_rewards/margins": 0.04997282, "eval_logps/rejected": -0.90518129, "eval_logps/chosen": -0.40683961, "eval_logits/rejected": -0.22765307, "eval_logits/chosen": -0.72029084, "eval_nll_loss": 0.40660009, "eval_log_odds_ratio": -0.68672609, "eval_log_odds_chosen": 0.5650059, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 27m 46s", "remaining_time": "19h 19m 16s"}

 {"loss": 0.47558594, "grad_norm": 0.10571572, "learning_rate": 3.294e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004039, "rewards/chosen": -0.03918457, "rewards/rejected": -0.21398926, "rewards/accuracies": 0.25, "rewards/margins": 0.17510986, "logps/rejected": -2.13623047, "logps/chosen": -0.39160156, "logits/rejected": -0.4453125, "logits/chosen": -0.48193359, "nll_loss": 0.39160156, "log_odds_ratio": -0.70800781, "log_odds_chosen": 1.984375, "epoch": 0.34894614, "global_step/max_steps": "149/427", "percentage": "34.89%", "elapsed_time": "10h 14m 10s", "remaining_time": "19h 5m 55s"}
 {"loss": 0.40313721, "grad_norm": 0.11789128, "learning_rate": 3.282e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004048, "rewards/chosen": -0.02890015, "rewards/rejected": -0.21908569, "rewards/accuracies": 1.0, "rewards/margins": 0.18978882, "logps/rejected": -2.19287109, "logps/chosen": -0.2890625, "logits/rejected": -0.1060791, "logits/chosen": -0.59295654, "nll_loss": 0.28930664, "log_odds_ratio": -0.47265625, "log_odds_chosen": 2.34716797, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 16m 56s", "remaining_time": "18h 59m 17s"}
 {"eval_loss": 0.47329032, "eval_runtime": 649.4744, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.04066784, "eval_rewards/rejected": -0.09058308, "eval_rewards/accuracies": 0.56603771, "eval_rewards/margins": 0.04997282, "eval_logps/rejected": -0.90518129, "eval_logps/chosen": -0.40683961, "eval_logits/rejected": -0.22765307, "eval_logits/chosen": -0.72029084, "eval_nll_loss": 0.40660009, "eval_log_odds_ratio": -0.68672609, "eval_log_odds_chosen": 0.5650059, "epoch": 0.35128806, "global_step/max_steps": "150/427", "percentage": "35.13%", "elapsed_time": "10h 27m 46s", "remaining_time": "19h 19m 16s"}
+{"loss": 0.43579102, "grad_norm": 0.09132672, "learning_rate": 3.27e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003978, "rewards/chosen": -0.03515625, "rewards/rejected": -0.04406738, "rewards/accuracies": 0.75, "rewards/margins": 0.00891113, "logps/rejected": -0.44091797, "logps/chosen": -0.3515625, "logits/rejected": -0.2612915, "logits/chosen": -0.67236328, "nll_loss": 0.3515625, "log_odds_ratio": -0.57910156, "log_odds_chosen": 0.27099609, "epoch": 0.35362998, "global_step/max_steps": "151/427", "percentage": "35.36%", "elapsed_time": "10h 32m 6s", "remaining_time": "19h 15m 22s"}
+{"loss": 0.47277832, "grad_norm": 0.08914906, "learning_rate": 3.258e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003983, "rewards/chosen": -0.03771973, "rewards/rejected": -0.04318237, "rewards/accuracies": 0.75, "rewards/margins": 0.00546265, "logps/rejected": -0.43164062, "logps/chosen": -0.37695312, "logits/rejected": -0.44018555, "logits/chosen": -0.74121094, "nll_loss": 0.37695312, "log_odds_ratio": -0.70117188, "log_odds_chosen": 0.07958984, "epoch": 0.3559719, "global_step/max_steps": "152/427", "percentage": "35.60%", "elapsed_time": "10h 35m 28s", "remaining_time": "19h 9m 43s"}
+{"loss": 0.48269653, "grad_norm": 0.10411897, "learning_rate": 3.246e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00398, "rewards/chosen": -0.03778076, "rewards/rejected": -0.0395813, "rewards/accuracies": 0.75, "rewards/margins": 0.00180054, "logps/rejected": -0.39550781, "logps/chosen": -0.37744141, "logits/rejected": -0.28955078, "logits/chosen": -0.57446289, "nll_loss": 0.37646484, "log_odds_ratio": -0.65625, "log_odds_chosen": 0.08251953, "epoch": 0.35831382, "global_step/max_steps": "153/427", "percentage": "35.83%", "elapsed_time": "10h 40m 6s", "remaining_time": "19h 6m 20s"}
+{"loss": 0.46362305, "grad_norm": 0.09759329, "learning_rate": 3.235e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003981, "rewards/chosen": -0.04348755, "rewards/rejected": -0.24304199, "rewards/accuracies": 0.5, "rewards/margins": 0.19989014, "logps/rejected": -2.43212891, "logps/chosen": -0.43554688, "logits/rejected": -0.32885742, "logits/chosen": -0.30065918, "nll_loss": 0.43457031, "log_odds_ratio": -0.56646729, "log_odds_chosen": 2.40966797, "epoch": 0.36065574, "global_step/max_steps": "154/427", "percentage": "36.07%", "elapsed_time": "10h 44m 5s", "remaining_time": "19h 1m 48s"}
+{"loss": 0.44882202, "grad_norm": 0.08997617, "learning_rate": 3.223e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003989, "rewards/chosen": -0.03393555, "rewards/rejected": -0.0378418, "rewards/accuracies": 0.75, "rewards/margins": 0.00390625, "logps/rejected": -0.37817383, "logps/chosen": -0.33959961, "logits/rejected": -0.28662109, "logits/chosen": -0.33853149, "nll_loss": 0.33911133, "log_odds_ratio": -0.64746094, "log_odds_chosen": 0.10888672, "epoch": 0.36299766, "global_step/max_steps": "155/427", "percentage": "36.30%", "elapsed_time": "10h 46m 58s", "remaining_time": "18h 55m 20s"}
+{"loss": 0.41662598, "grad_norm": 0.09527715, "learning_rate": 3.211e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.003996, "rewards/chosen": -0.03436279, "rewards/rejected": -0.04223633, "rewards/accuracies": 0.5, "rewards/margins": 0.00787354, "logps/rejected": -0.42260742, "logps/chosen": -0.34326172, "logits/rejected": -0.17456055, "logits/chosen": -0.86474609, "nll_loss": 0.34423828, "log_odds_ratio": -0.61132812, "log_odds_chosen": 0.22485352, "epoch": 0.36533958, "global_step/max_steps": "156/427", "percentage": "36.53%", "elapsed_time": "10h 50m 7s", "remaining_time": "18h 49m 22s"}
+{"loss": 0.44555664, "grad_norm": 0.08875868, "learning_rate": 3.199e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004009, "rewards/chosen": -0.03744507, "rewards/rejected": -0.04598999, "rewards/accuracies": 0.75, "rewards/margins": 0.00854492, "logps/rejected": -0.4597168, "logps/chosen": -0.37451172, "logits/rejected": -0.14245605, "logits/chosen": -0.82910156, "nll_loss": 0.37451172, "log_odds_ratio": -0.58691406, "log_odds_chosen": 0.23461914, "epoch": 0.3676815, "global_step/max_steps": "157/427", "percentage": "36.77%", "elapsed_time": "10h 52m 3s", "remaining_time": "18h 41m 22s"}
+{"loss": 0.42068481, "grad_norm": 0.08708041, "learning_rate": 3.187e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00402, "rewards/chosen": -0.05273438, "rewards/rejected": -0.06536865, "rewards/accuracies": 0.75, "rewards/margins": 0.01263428, "logps/rejected": -0.65332031, "logps/chosen": -0.52685547, "logits/rejected": -0.18002319, "logits/chosen": -1.01953125, "nll_loss": 0.52880859, "log_odds_ratio": -0.57324219, "log_odds_chosen": 0.28076172, "epoch": 0.37002342, "global_step/max_steps": "158/427", "percentage": "37.00%", "elapsed_time": "10h 54m 26s", "remaining_time": "18h 34m 12s"}
+{"loss": 0.53839111, "grad_norm": 0.12544316, "learning_rate": 3.175e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.004023, "rewards/chosen": -0.07232666, "rewards/rejected": -0.04547119, "rewards/accuracies": 0.75, "rewards/margins": -0.0267334, "logps/rejected": -0.45458984, "logps/chosen": -0.72314453, "logits/rejected": -0.15310669, "logits/chosen": -1.04785156, "nll_loss": 0.72558594, "log_odds_ratio": -1.03613281, "log_odds_chosen": -0.40722656, "epoch": 0.37236534, "global_step/max_steps": "159/427", "percentage": "37.24%", "elapsed_time": "10h 58m 8s", "remaining_time": "18h 29m 19s"}
+{"loss": 0.45611572, "grad_norm": 0.09365269, "learning_rate": 3.164e-05, "memory(GiB)": 133.71, "train_speed(iter/s)": 0.00403, "rewards/chosen": -0.0324707, "rewards/rejected": -0.02557373, "rewards/accuracies": 0.0, "rewards/margins": -0.00689697, "logps/rejected": -0.25561523, "logps/chosen": -0.32446289, "logits/rejected": -0.53125, "logits/chosen": -0.45849609, "nll_loss": 0.32470703, "log_odds_ratio": -0.84277344, "log_odds_chosen": -0.27441406, "epoch": 0.37470726, "global_step/max_steps": "160/427", "percentage": "37.47%", "elapsed_time": "11h 1m 5s", "remaining_time": "18h 23m 12s"}
+{"eval_loss": 0.46463084, "eval_runtime": 649.616, "eval_samples_per_second": 0.65, "eval_steps_per_second": 0.082, "eval_rewards/chosen": -0.0413565, "eval_rewards/rejected": -0.12970085, "eval_rewards/accuracies": 0.60377359, "eval_rewards/margins": 0.08834436, "eval_logps/rejected": -1.29744625, "eval_logps/chosen": -0.41352814, "eval_logits/rejected": -0.28135133, "eval_logits/chosen": -0.75331199, "eval_nll_loss": 0.41358343, "eval_log_odds_ratio": -0.58239979, "eval_log_odds_chosen": 1.09166789, "epoch": 0.37470726, "global_step/max_steps": "160/427", "percentage": "37.47%", "elapsed_time": "11h 11m 55s", "remaining_time": "18h 41m 16s"}