Training in progress, step 40

Browse files

Files changed (2) hide show

adapter_model.safetensors +1 -1
logging.jsonl +11 -0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d64f2acf0ba695c086243b31f72620375545758a1b324a2b8856077ed488331
 size 6627156248

 version https://git-lfs.github.com/spec/v1
+oid sha256:ada23fabdae7fdde487b7d5345db0f0adfb3bceb97e236ad2223ca5ced5caf4a
 size 6627156248

logging.jsonl CHANGED Viewed

@@ -32,3 +32,14 @@
 {"loss": 0.5987854, "grad_norm": 0.12445131, "learning_rate": 1.163e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004477, "rewards/chosen": -0.03991699, "rewards/rejected": -0.40048218, "rewards/accuracies": 0.25, "rewards/margins": 0.36141968, "logps/rejected": -4.00097656, "logps/chosen": -0.39941406, "logits/rejected": -0.20629883, "logits/chosen": -0.38500977, "nll_loss": 0.39941406, "log_odds_ratio": -0.67480469, "log_odds_chosen": 3.7109375, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "1h 51m 24s", "remaining_time": "3d 5h 25m 55s"}
 {"eval_loss": 0.56994921, "eval_runtime": 642.2195, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04699477, "eval_rewards/rejected": -0.08173529, "eval_rewards/accuracies": 0.13207547, "eval_rewards/margins": 0.03477852, "eval_logps/rejected": -0.81732756, "eval_logps/chosen": -0.47000295, "eval_logits/rejected": -0.2889151, "eval_logits/chosen": -0.53823537, "eval_nll_loss": 0.46996608, "eval_log_odds_ratio": -1.02137387, "eval_log_odds_chosen": 0.02808078, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "2h 2m 7s", "remaining_time": "3d 12h 52m 15s"}
 {"loss": 0.47167969, "grad_norm": 0.12563924, "learning_rate": 1.202e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004117, "rewards/chosen": -0.04330444, "rewards/rejected": -0.02688599, "rewards/accuracies": 0.25, "rewards/margins": -0.01641846, "logps/rejected": -0.26879883, "logps/chosen": -0.43261719, "logits/rejected": -0.22250366, "logits/chosen": -0.46716309, "nll_loss": 0.43310547, "log_odds_ratio": -1.02441406, "log_odds_chosen": -0.53173828, "epoch": 0.07259953, "global_step/max_steps": "31/1281", "percentage": "2.42%", "elapsed_time": "2h 5m 14s", "remaining_time": "3d 12h 10m 23s"}

 {"loss": 0.5987854, "grad_norm": 0.12445131, "learning_rate": 1.163e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004477, "rewards/chosen": -0.03991699, "rewards/rejected": -0.40048218, "rewards/accuracies": 0.25, "rewards/margins": 0.36141968, "logps/rejected": -4.00097656, "logps/chosen": -0.39941406, "logits/rejected": -0.20629883, "logits/chosen": -0.38500977, "nll_loss": 0.39941406, "log_odds_ratio": -0.67480469, "log_odds_chosen": 3.7109375, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "1h 51m 24s", "remaining_time": "3d 5h 25m 55s"}
 {"eval_loss": 0.56994921, "eval_runtime": 642.2195, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04699477, "eval_rewards/rejected": -0.08173529, "eval_rewards/accuracies": 0.13207547, "eval_rewards/margins": 0.03477852, "eval_logps/rejected": -0.81732756, "eval_logps/chosen": -0.47000295, "eval_logits/rejected": -0.2889151, "eval_logits/chosen": -0.53823537, "eval_nll_loss": 0.46996608, "eval_log_odds_ratio": -1.02137387, "eval_log_odds_chosen": 0.02808078, "epoch": 0.07025761, "global_step/max_steps": "30/1281", "percentage": "2.34%", "elapsed_time": "2h 2m 7s", "remaining_time": "3d 12h 52m 15s"}
 {"loss": 0.47167969, "grad_norm": 0.12563924, "learning_rate": 1.202e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004117, "rewards/chosen": -0.04330444, "rewards/rejected": -0.02688599, "rewards/accuracies": 0.25, "rewards/margins": -0.01641846, "logps/rejected": -0.26879883, "logps/chosen": -0.43261719, "logits/rejected": -0.22250366, "logits/chosen": -0.46716309, "nll_loss": 0.43310547, "log_odds_ratio": -1.02441406, "log_odds_chosen": -0.53173828, "epoch": 0.07259953, "global_step/max_steps": "31/1281", "percentage": "2.42%", "elapsed_time": "2h 5m 14s", "remaining_time": "3d 12h 10m 23s"}
+{"loss": 0.52798462, "grad_norm": 0.13983111, "learning_rate": 1.24e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004168, "rewards/chosen": -0.04241943, "rewards/rejected": -0.22332764, "rewards/accuracies": 0.5, "rewards/margins": 0.18048096, "logps/rejected": -2.2355957, "logps/chosen": -0.42431641, "logits/rejected": -0.26611328, "logits/chosen": -0.55712891, "nll_loss": 0.42431641, "log_odds_ratio": -0.69921875, "log_odds_chosen": 1.8984375, "epoch": 0.07494145, "global_step/max_steps": "32/1281", "percentage": "2.50%", "elapsed_time": "2h 7m 42s", "remaining_time": "3d 11h 4m 46s"}
+{"loss": 0.51583862, "grad_norm": 0.13743874, "learning_rate": 1.279e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004221, "rewards/chosen": -0.03179932, "rewards/rejected": -0.67071533, "rewards/accuracies": 0.75, "rewards/margins": 0.63766479, "logps/rejected": -6.70141602, "logps/chosen": -0.31787109, "logits/rejected": -0.24389648, "logits/chosen": -0.33642578, "nll_loss": 0.31884766, "log_odds_ratio": -0.38867188, "log_odds_chosen": 6.94311523, "epoch": 0.07728337, "global_step/max_steps": "33/1281", "percentage": "2.58%", "elapsed_time": "2h 10m 3s", "remaining_time": "3d 9h 58m 21s"}
+{"loss": 0.51626587, "grad_norm": 0.17774898, "learning_rate": 1.318e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004284, "rewards/chosen": -0.05136108, "rewards/rejected": -0.04049683, "rewards/accuracies": 0.25, "rewards/margins": -0.01086426, "logps/rejected": -0.40429688, "logps/chosen": -0.51416016, "logits/rejected": -0.33911133, "logits/chosen": -0.47973633, "nll_loss": 0.515625, "log_odds_ratio": -0.95849609, "log_odds_chosen": -0.32324219, "epoch": 0.07962529, "global_step/max_steps": "34/1281", "percentage": "2.65%", "elapsed_time": "2h 12m 0s", "remaining_time": "3d 8h 41m 50s"}
+{"loss": 0.48684692, "grad_norm": 0.1624738, "learning_rate": 1.357e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004297, "rewards/chosen": -0.04205322, "rewards/rejected": -0.51467896, "rewards/accuracies": 0.25, "rewards/margins": 0.47259521, "logps/rejected": -5.15454102, "logps/chosen": -0.42138672, "logits/rejected": -0.29693604, "logits/chosen": -0.41064453, "nll_loss": 0.42285156, "log_odds_ratio": -0.82617188, "log_odds_chosen": 4.69384766, "epoch": 0.08196721, "global_step/max_steps": "35/1281", "percentage": "2.73%", "elapsed_time": "2h 15m 30s", "remaining_time": "3d 8h 24m 3s"}
+{"loss": 0.64358521, "grad_norm": 0.15048102, "learning_rate": 1.395e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004323, "rewards/chosen": -0.04992676, "rewards/rejected": -0.02493286, "rewards/accuracies": 0.0, "rewards/margins": -0.0249939, "logps/rejected": -0.24951172, "logps/chosen": -0.49853516, "logits/rejected": -0.24240112, "logits/chosen": -0.59765625, "nll_loss": 0.49951172, "log_odds_ratio": -1.15234375, "log_odds_chosen": -0.73388672, "epoch": 0.08430913, "global_step/max_steps": "36/1281", "percentage": "2.81%", "elapsed_time": "2h 18m 32s", "remaining_time": "3d 7h 51m 20s"}
+{"loss": 0.46051025, "grad_norm": 0.12343454, "learning_rate": 1.434e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.00433, "rewards/chosen": -0.03521729, "rewards/rejected": -0.0255127, "rewards/accuracies": 0.0, "rewards/margins": -0.00970459, "logps/rejected": -0.25488281, "logps/chosen": -0.35205078, "logits/rejected": -0.31665039, "logits/chosen": -0.42138672, "nll_loss": 0.3527832, "log_odds_ratio": -0.87792969, "log_odds_chosen": -0.328125, "epoch": 0.08665105, "global_step/max_steps": "37/1281", "percentage": "2.89%", "elapsed_time": "2h 22m 9s", "remaining_time": "3d 7h 39m 22s"}
+{"loss": 0.50921631, "grad_norm": 0.1270193, "learning_rate": 1.473e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004361, "rewards/chosen": -0.03393555, "rewards/rejected": -0.02868652, "rewards/accuracies": 0.25, "rewards/margins": -0.00524902, "logps/rejected": -0.28710938, "logps/chosen": -0.33935547, "logits/rejected": -0.35791016, "logits/chosen": -0.47851562, "nll_loss": 0.33984375, "log_odds_ratio": -0.82128906, "log_odds_chosen": -0.21630859, "epoch": 0.08899297, "global_step/max_steps": "38/1281", "percentage": "2.97%", "elapsed_time": "2h 24m 58s", "remaining_time": "3d 7h 2m 0s"}
+{"loss": 0.47821045, "grad_norm": 0.26142126, "learning_rate": 1.512e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004365, "rewards/chosen": -0.04025269, "rewards/rejected": -0.15631104, "rewards/accuracies": 0.25, "rewards/margins": 0.11587524, "logps/rejected": -1.56689453, "logps/chosen": -0.40258789, "logits/rejected": -0.16293335, "logits/chosen": -0.41589355, "nll_loss": 0.40185547, "log_odds_ratio": -0.75195312, "log_odds_chosen": 1.35888672, "epoch": 0.09133489, "global_step/max_steps": "39/1281", "percentage": "3.04%", "elapsed_time": "2h 28m 39s", "remaining_time": "3d 6h 54m 3s"}
+{"loss": 0.50769043, "grad_norm": 0.14049903, "learning_rate": 1.55e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004395, "rewards/chosen": -0.05560303, "rewards/rejected": -0.027771, "rewards/accuracies": 0.25, "rewards/margins": -0.02780151, "logps/rejected": -0.27783203, "logps/chosen": -0.55664062, "logits/rejected": -0.26611328, "logits/chosen": -0.61376953, "nll_loss": 0.5546875, "log_odds_ratio": -1.17773438, "log_odds_chosen": -0.75634766, "epoch": 0.09367681, "global_step/max_steps": "40/1281", "percentage": "3.12%", "elapsed_time": "2h 31m 25s", "remaining_time": "3d 6h 17m 58s"}
+{"eval_loss": 0.54541248, "eval_runtime": 642.0806, "eval_samples_per_second": 0.657, "eval_steps_per_second": 0.083, "eval_rewards/chosen": -0.04489654, "eval_rewards/rejected": -0.09570197, "eval_rewards/accuracies": 0.16981132, "eval_rewards/margins": 0.05081004, "eval_logps/rejected": -0.95734447, "eval_logps/chosen": -0.44903448, "eval_logits/rejected": -0.26981685, "eval_logits/chosen": -0.51291418, "eval_nll_loss": 0.44921875, "eval_log_odds_ratio": -0.98677033, "eval_log_odds_chosen": 0.21937647, "epoch": 0.09367681, "global_step/max_steps": "40/1281", "percentage": "3.12%", "elapsed_time": "2h 42m 7s", "remaining_time": "3d 11h 49m 58s"}
+{"loss": 0.55899048, "grad_norm": 0.17105363, "learning_rate": 1.589e-05, "memory(GiB)": 133.6, "train_speed(iter/s)": 0.004123, "rewards/chosen": -0.03289795, "rewards/rejected": -1.04510498, "rewards/accuracies": 0.25, "rewards/margins": 1.01303101, "logps/rejected": -10.45092773, "logps/chosen": -0.32885742, "logits/rejected": -0.27050781, "logits/chosen": -0.44433594, "nll_loss": 0.32739258, "log_odds_ratio": -0.75488281, "log_odds_chosen": 10.17626953, "epoch": 0.09601874, "global_step/max_steps": "41/1281", "percentage": "3.20%", "elapsed_time": "2h 45m 28s", "remaining_time": "3d 11h 24m 50s"}