Model save

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +5 -5
model.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +362 -462
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -27,14 +27,14 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/2495479412-/huggingface/runs/ll8pde88)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
 ### Framework versions
-- TRL: 0.16.0.dev0
 - Transformers: 4.49.0.dev0
 - Pytorch: 2.5.1
 - Datasets: 3.3.0

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/2495479412-/huggingface/runs/jq7at7mf)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
 ### Framework versions
+- TRL: 0.15.1
 - Transformers: 4.49.0.dev0
 - Pytorch: 2.5.1
 - Datasets: 3.3.0

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.036479350634126606,
-    "train_runtime": 34004.8654,
-    "train_samples": 1300,
-    "train_samples_per_second": 1.529,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.011576007895314433,
+    "train_runtime": 33226.465,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.602,
+    "train_steps_per_second": 0.005
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e51f376edd035aeedab94a3ff434d2f503da5f1e58c828fe0ffe97e3728bb6f
 size 3554214752

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5202ee4d11bf12fa59e49685898173c59ed7b46ea6aea39ad2e5e1bd0277c10
 size 3554214752

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.036479350634126606,
-    "train_runtime": 34004.8654,
-    "train_samples": 1300,
-    "train_samples_per_second": 1.529,
-    "train_steps_per_second": 0.006
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.011576007895314433,
+    "train_runtime": 33226.465,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.602,
+    "train_steps_per_second": 0.005
 }

trainer_state.json CHANGED Viewed

@@ -1,575 +1,475 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 33.390243902439025,
-  "eval_steps": 100,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 393.713187789917,
-      "epoch": 0.975609756097561,
-      "grad_norm": 0.2263876348733902,
-      "kl": 0.00019991397857666016,
-      "learning_rate": 5e-06,
       "loss": 0.0,
-      "reward": 0.3574329398572445,
-      "reward_std": 0.317268418520689,
-      "rewards/accuracy_reward_word": 0.3574329435825348,
-      "rewards/format_reward": 0.0,
       "step": 5
     },
     {
-      "completion_length": 359.7960117224491,
-      "epoch": 1.7804878048780488,
-      "grad_norm": 0.4675009250640869,
-      "kl": 0.029177347819010418,
-      "learning_rate": 1e-05,
-      "loss": 0.001,
-      "reward": 0.4508711948539271,
-      "reward_std": 0.29290521957657556,
-      "rewards/accuracy_reward_word": 0.45087120072408154,
-      "rewards/format_reward": 0.0,
       "step": 10
     },
     {
-      "completion_length": 302.4170865145597,
-      "epoch": 2.5853658536585367,
-      "grad_norm": 1.2330620288848877,
-      "kl": 0.06524658203125,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 0.0022,
-      "reward": 0.5415759321415063,
-      "reward_std": 0.24065017248644974,
-      "rewards/accuracy_reward_word": 0.5415759276260029,
-      "rewards/format_reward": 0.0,
       "step": 15
     },
     {
-      "completion_length": 272.7953320127545,
-      "epoch": 3.3902439024390243,
-      "grad_norm": 0.30344322323799133,
-      "kl": 0.09641335227272728,
-      "learning_rate": 2e-05,
-      "loss": 0.0032,
-      "reward": 0.5741085495912668,
-      "reward_std": 0.2243843080871033,
-      "rewards/accuracy_reward_word": 0.5741085464304144,
-      "rewards/format_reward": 0.0,
       "step": 20
     },
     {
-      "completion_length": 281.6178417783795,
-      "epoch": 4.195121951219512,
-      "grad_norm": 0.3025609254837036,
-      "kl": 0.16150272253787878,
-      "learning_rate": 1.9961946980917457e-05,
-      "loss": 0.0053,
-      "reward": 0.5691162316185056,
-      "reward_std": 0.24541335485198282,
-      "rewards/accuracy_reward_word": 0.569116218975096,
-      "rewards/format_reward": 0.0,
       "step": 25
     },
     {
-      "completion_length": 292.8073728156812,
-      "epoch": 5.0,
-      "grad_norm": 0.8864567279815674,
-      "kl": 0.36754261363636365,
-      "learning_rate": 1.9848077530122083e-05,
-      "loss": 0.0122,
-      "reward": 0.6015709214138262,
-      "reward_std": 0.24950947499636447,
-      "rewards/accuracy_reward_word": 0.6015709196076249,
-      "rewards/format_reward": 0.0,
       "step": 30
     },
     {
-      "completion_length": 175.47266426086426,
-      "epoch": 5.975609756097561,
-      "grad_norm": 0.7226300835609436,
-      "kl": 0.44776611328125,
-      "learning_rate": 1.9659258262890683e-05,
-      "loss": 0.0179,
-      "reward": 0.6118914943188429,
-      "reward_std": 0.1827767850831151,
-      "rewards/accuracy_reward_word": 0.6118914864957332,
-      "rewards/format_reward": 0.0,
       "step": 35
     },
     {
-      "completion_length": 131.66680838844994,
-      "epoch": 6.780487804878049,
-      "grad_norm": 18.362396240234375,
-      "kl": 0.5860558712121212,
-      "learning_rate": 1.9396926207859085e-05,
-      "loss": 0.0194,
-      "reward": 0.6025556867772882,
-      "reward_std": 0.16030028168902252,
-      "rewards/accuracy_reward_word": 0.6025556894865903,
-      "rewards/format_reward": 0.0,
       "step": 40
     },
     {
-      "completion_length": 166.34443363998875,
-      "epoch": 7.585365853658536,
-      "grad_norm": 0.8004411458969116,
-      "kl": 0.518850615530303,
-      "learning_rate": 1.9063077870366504e-05,
-      "loss": 0.0171,
-      "reward": 0.6216023144396868,
-      "reward_std": 0.20047903162511913,
-      "rewards/accuracy_reward_word": 0.6216023090210828,
-      "rewards/format_reward": 0.0,
       "step": 45
     },
     {
-      "completion_length": 264.6024202289003,
-      "epoch": 8.390243902439025,
-      "grad_norm": 0.4066580832004547,
-      "kl": 0.6091086647727273,
-      "learning_rate": 1.866025403784439e-05,
-      "loss": 0.0201,
-      "reward": 0.6114482121034102,
-      "reward_std": 0.2318851254654653,
-      "rewards/accuracy_reward_word": 0.6114482130065109,
-      "rewards/format_reward": 0.0,
       "step": 50
     },
     {
-      "completion_length": 190.6026874889027,
-      "epoch": 9.195121951219512,
-      "grad_norm": 0.17414061725139618,
-      "kl": 0.6156486742424242,
-      "learning_rate": 1.819152044288992e-05,
-      "loss": 0.0203,
-      "reward": 0.6352746134454553,
-      "reward_std": 0.17895382462125836,
-      "rewards/accuracy_reward_word": 0.6352746274435159,
-      "rewards/format_reward": 0.0,
       "step": 55
     },
     {
-      "completion_length": 203.3459234526663,
-      "epoch": 10.0,
-      "grad_norm": 0.20065073668956757,
-      "kl": 0.6055279356060606,
-      "learning_rate": 1.766044443118978e-05,
-      "loss": 0.02,
-      "reward": 0.6350559790929159,
-      "reward_std": 0.17616610262881627,
-      "rewards/accuracy_reward_word": 0.6350559863177213,
-      "rewards/format_reward": 0.0,
       "step": 60
     },
     {
-      "completion_length": 185.47132530212403,
-      "epoch": 10.975609756097562,
-      "grad_norm": 0.14110271632671356,
-      "kl": 0.5395751953125,
-      "learning_rate": 1.7071067811865477e-05,
-      "loss": 0.0216,
-      "reward": 0.6301242753863334,
-      "reward_std": 0.16279728673398494,
-      "rewards/accuracy_reward_word": 0.6301242724061012,
-      "rewards/format_reward": 0.0,
       "step": 65
     },
     {
-      "completion_length": 151.86269656094638,
-      "epoch": 11.78048780487805,
-      "grad_norm": 0.15463927388191223,
-      "kl": 0.5140269886363636,
-      "learning_rate": 1.6427876096865394e-05,
-      "loss": 0.017,
-      "reward": 0.6122245905977307,
-      "reward_std": 0.13943401035485845,
-      "rewards/accuracy_reward_word": 0.61222458969463,
-      "rewards/format_reward": 0.0,
       "step": 70
     },
     {
-      "completion_length": 178.9215455488725,
-      "epoch": 12.585365853658537,
-      "grad_norm": 0.18595437705516815,
-      "kl": 0.42743844696969696,
-      "learning_rate": 1.573576436351046e-05,
-      "loss": 0.0141,
-      "reward": 0.6210114558537801,
-      "reward_std": 0.14690511865597783,
-      "rewards/accuracy_reward_word": 0.6210114535960284,
-      "rewards/format_reward": 0.0,
       "step": 75
     },
     {
-      "completion_length": 198.75474432742956,
-      "epoch": 13.390243902439025,
-      "grad_norm": 0.14770109951496124,
-      "kl": 0.3772194602272727,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 0.0125,
-      "reward": 0.6053550211769162,
-      "reward_std": 0.15184391656834068,
-      "rewards/accuracy_reward_word": 0.6053550184676142,
-      "rewards/format_reward": 0.0,
       "step": 80
     },
     {
-      "completion_length": 184.9996028090968,
-      "epoch": 14.195121951219512,
-      "grad_norm": 0.13854625821113586,
-      "kl": 0.3505267518939394,
-      "learning_rate": 1.4226182617406996e-05,
-      "loss": 0.0116,
-      "reward": 0.6068314526117209,
-      "reward_std": 0.1331417437529925,
-      "rewards/accuracy_reward_word": 0.6068314548694727,
-      "rewards/format_reward": 0.0,
       "step": 85
     },
     {
-      "completion_length": 178.54586884469697,
-      "epoch": 15.0,
-      "grad_norm": 0.5907576680183411,
-      "kl": 0.4736032196969697,
-      "learning_rate": 1.342020143325669e-05,
-      "loss": 0.0157,
-      "reward": 0.606158793424115,
-      "reward_std": 0.13893395368800018,
-      "rewards/accuracy_reward_word": 0.6061588015520212,
-      "rewards/format_reward": 0.0,
       "step": 90
     },
     {
-      "completion_length": 171.66697311401367,
-      "epoch": 15.975609756097562,
-      "grad_norm": 53.438209533691406,
-      "kl": 13.038330078125,
-      "learning_rate": 1.2588190451025209e-05,
-      "loss": 0.5218,
-      "reward": 0.5597633935511113,
-      "reward_std": 0.10934587656520307,
-      "rewards/accuracy_reward_word": 0.5597633916884661,
-      "rewards/format_reward": 0.0,
       "step": 95
     },
     {
-      "completion_length": 176.56074940074575,
-      "epoch": 16.78048780487805,
-      "grad_norm": 0.5583186745643616,
-      "kl": 0.4050662878787879,
-      "learning_rate": 1.1736481776669307e-05,
-      "loss": 0.0134,
-      "reward": 0.5518235546169858,
-      "reward_std": 0.10686868465872425,
-      "rewards/accuracy_reward_word": 0.55182356003559,
-      "rewards/format_reward": 0.0,
-      "step": 100
-    },
-    {
-      "epoch": 16.78048780487805,
-      "eval_completion_length": 190.2759769984654,
-      "eval_kl": 0.32310267857142855,
-      "eval_loss": 0.014612293802201748,
-      "eval_reward": 0.5988541117736271,
-      "eval_reward_std": 0.07925501785108022,
-      "eval_rewards/accuracy_reward_word": 0.5988540819713047,
-      "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 96.8362,
-      "eval_samples_per_second": 2.065,
-      "eval_steps_per_second": 0.01,
       "step": 100
     },
     {
-      "completion_length": 218.19211023504084,
-      "epoch": 17.585365853658537,
-      "grad_norm": 54.766273498535156,
-      "kl": 8.253255208333334,
-      "learning_rate": 1.0871557427476585e-05,
-      "loss": 0.2714,
-      "reward": 0.5985936960487654,
-      "reward_std": 0.14751893265003507,
-      "rewards/accuracy_reward_word": 0.5985937005642689,
-      "rewards/format_reward": 0.0,
       "step": 105
     },
     {
-      "completion_length": 254.85891122529,
-      "epoch": 18.390243902439025,
-      "grad_norm": 3.6129367351531982,
-      "kl": 5.241092566287879,
-      "learning_rate": 1e-05,
-      "loss": 0.1729,
-      "reward": 0.629414488420342,
-      "reward_std": 0.18181673561533293,
-      "rewards/accuracy_reward_word": 0.6294144843563889,
-      "rewards/format_reward": 0.0,
       "step": 110
     },
     {
-      "completion_length": 263.85566780783915,
-      "epoch": 19.195121951219512,
-      "grad_norm": 1.826474905014038,
-      "kl": 0.8953006628787878,
-      "learning_rate": 9.128442572523418e-06,
-      "loss": 0.0296,
-      "reward": 0.6560273572350993,
-      "reward_std": 0.2060928950932893,
-      "rewards/accuracy_reward_word": 0.6560273635568041,
-      "rewards/format_reward": 0.0,
       "step": 115
     },
     {
-      "completion_length": 203.282883384011,
-      "epoch": 20.0,
-      "grad_norm": 0.5897179841995239,
-      "kl": 1.3379794034090908,
-      "learning_rate": 8.263518223330698e-06,
-      "loss": 0.0442,
-      "reward": 0.6160052671576991,
-      "reward_std": 0.1589522831367724,
-      "rewards/accuracy_reward_word": 0.6160052716732025,
-      "rewards/format_reward": 0.0,
       "step": 120
     },
     {
-      "completion_length": 161.04855613708497,
-      "epoch": 20.975609756097562,
-      "grad_norm": 0.2893044650554657,
-      "kl": 0.331640625,
-      "learning_rate": 7.411809548974792e-06,
-      "loss": 0.0133,
-      "reward": 0.5946122907102108,
-      "reward_std": 0.12153792111203074,
-      "rewards/accuracy_reward_word": 0.5946122877299785,
-      "rewards/format_reward": 0.0,
       "step": 125
     },
     {
-      "completion_length": 154.29532727328214,
-      "epoch": 21.78048780487805,
-      "grad_norm": 0.17429320514202118,
-      "kl": 0.28111683238636365,
-      "learning_rate": 6.579798566743314e-06,
-      "loss": 0.0093,
-      "reward": 0.577382534290805,
-      "reward_std": 0.11978449254776492,
-      "rewards/accuracy_reward_word": 0.5773825306784023,
-      "rewards/format_reward": 0.0,
       "step": 130
     },
     {
-      "completion_length": 159.07292406486744,
-      "epoch": 22.585365853658537,
-      "grad_norm": 0.32492542266845703,
-      "kl": 0.2540838068181818,
-      "learning_rate": 5.773817382593008e-06,
-      "loss": 0.0084,
-      "reward": 0.5901522681568608,
-      "reward_std": 0.11932384177590862,
-      "rewards/accuracy_reward_word": 0.5901522708661628,
-      "rewards/format_reward": 0.0,
       "step": 135
     },
     {
-      "completion_length": 175.563588922674,
-      "epoch": 23.390243902439025,
-      "grad_norm": 1.4657223224639893,
-      "kl": 0.2944040009469697,
-      "learning_rate": 5.000000000000003e-06,
-      "loss": 0.0098,
-      "reward": 0.5877998123566309,
-      "reward_std": 0.12781856005842035,
-      "rewards/accuracy_reward_word": 0.5877998132597316,
-      "rewards/format_reward": 0.0,
       "step": 140
     },
     {
-      "completion_length": 196.80899186567828,
-      "epoch": 24.195121951219512,
-      "grad_norm": 0.38781723380088806,
-      "kl": 0.3389707623106061,
-      "learning_rate": 4.264235636489542e-06,
-      "loss": 0.0112,
-      "reward": 0.6222013411196795,
-      "reward_std": 0.1575910769628756,
-      "rewards/accuracy_reward_word": 0.6222013402165789,
-      "rewards/format_reward": 0.0,
       "step": 145
     },
     {
-      "completion_length": 212.34213649865353,
-      "epoch": 25.0,
-      "grad_norm": 0.2279985398054123,
-      "kl": 0.3564157196969697,
-      "learning_rate": 3.5721239031346067e-06,
-      "loss": 0.0118,
-      "reward": 0.6341576734275529,
-      "reward_std": 0.16485171076474767,
-      "rewards/accuracy_reward_word": 0.6341576770399556,
-      "rewards/format_reward": 0.0,
       "step": 150
     },
     {
-      "completion_length": 198.5949857711792,
-      "epoch": 25.975609756097562,
-      "grad_norm": 0.14645038545131683,
-      "kl": 0.32952880859375,
-      "learning_rate": 2.9289321881345257e-06,
-      "loss": 0.0132,
-      "reward": 0.6285704858601093,
-      "reward_std": 0.16049452810548245,
-      "rewards/accuracy_reward_word": 0.6285704836249352,
-      "rewards/format_reward": 0.0,
       "step": 155
     },
     {
-      "completion_length": 189.9249274513938,
-      "epoch": 26.78048780487805,
-      "grad_norm": 0.13024762272834778,
-      "kl": 0.3255800189393939,
-      "learning_rate": 2.339555568810221e-06,
-      "loss": 0.0108,
-      "reward": 0.6150937617728205,
-      "reward_std": 0.14573924322471474,
-      "rewards/accuracy_reward_word": 0.6150937717069279,
-      "rewards/format_reward": 0.0,
       "step": 160
     },
     {
-      "completion_length": 174.02354685465494,
-      "epoch": 27.585365853658537,
-      "grad_norm": 0.13969573378562927,
-      "kl": 0.3170572916666667,
-      "learning_rate": 1.808479557110081e-06,
-      "loss": 0.0105,
-      "reward": 0.6073169595364368,
-      "reward_std": 0.12986301354160815,
-      "rewards/accuracy_reward_word": 0.607316970373645,
-      "rewards/format_reward": 0.0,
-      "step": 165
-    },
-    {
-      "completion_length": 181.3133195819277,
-      "epoch": 28.390243902439025,
-      "grad_norm": 0.21579568088054657,
-      "kl": 0.3319720643939394,
-      "learning_rate": 1.339745962155613e-06,
-      "loss": 0.011,
-      "reward": 0.6149095554243434,
-      "reward_std": 0.13368092341856522,
-      "rewards/accuracy_reward_word": 0.6149095631006992,
-      "rewards/format_reward": 0.0,
-      "step": 170
-    },
-    {
-      "completion_length": 179.86851408987334,
-      "epoch": 29.195121951219512,
-      "grad_norm": 0.1424599587917328,
-      "kl": 0.32353811553030304,
-      "learning_rate": 9.369221296335007e-07,
-      "loss": 0.0107,
-      "reward": 0.6067391426274271,
-      "reward_std": 0.14061830226670613,
-      "rewards/accuracy_reward_word": 0.6067391435305277,
-      "rewards/format_reward": 0.0,
-      "step": 175
-    },
-    {
-      "completion_length": 177.73133919455788,
-      "epoch": 30.0,
-      "grad_norm": 0.12455170601606369,
-      "kl": 0.32202888257575757,
-      "learning_rate": 6.030737921409169e-07,
-      "loss": 0.0107,
-      "reward": 0.6030513856447104,
-      "reward_std": 0.13355868055739187,
-      "rewards/accuracy_reward_word": 0.6030513928695158,
-      "rewards/format_reward": 0.0,
-      "step": 180
-    },
-    {
-      "completion_length": 178.40078887939453,
-      "epoch": 30.975609756097562,
-      "grad_norm": 0.14259420335292816,
-      "kl": 0.315283203125,
-      "learning_rate": 3.4074173710931804e-07,
-      "loss": 0.0127,
-      "reward": 0.6099405620247126,
-      "reward_std": 0.13809194271452724,
-      "rewards/accuracy_reward_word": 0.6099405620247126,
-      "rewards/format_reward": 0.0,
-      "step": 185
-    },
-    {
-      "completion_length": 174.6302841648911,
-      "epoch": 31.78048780487805,
-      "grad_norm": 0.1332584172487259,
-      "kl": 0.3048354640151515,
-      "learning_rate": 1.519224698779198e-07,
-      "loss": 0.0101,
-      "reward": 0.5993030166084116,
-      "reward_std": 0.1328924118795178,
-      "rewards/accuracy_reward_word": 0.5993030138991096,
-      "rewards/format_reward": 0.0,
-      "step": 190
-    },
-    {
-      "completion_length": 184.39110634543678,
-      "epoch": 32.58536585365854,
-      "grad_norm": 0.13871651887893677,
-      "kl": 0.31865530303030304,
-      "learning_rate": 3.805301908254455e-08,
-      "loss": 0.0106,
-      "reward": 0.6105609360066327,
-      "reward_std": 0.14098199039246095,
-      "rewards/accuracy_reward_word": 0.610560937812834,
-      "rewards/format_reward": 0.0,
-      "step": 195
-    },
-    {
-      "completion_length": 184.56710722952178,
-      "epoch": 33.390243902439025,
-      "grad_norm": 0.2092735767364502,
-      "kl": 0.3228574810606061,
-      "learning_rate": 0.0,
-      "loss": 0.0107,
-      "reward": 0.6148976295283346,
-      "reward_std": 0.1421807540975737,
-      "rewards/accuracy_reward_word": 0.614897631334536,
-      "rewards/format_reward": 0.0,
-      "step": 200
-    },
-    {
-      "epoch": 33.390243902439025,
-      "eval_completion_length": 183.40406145368303,
-      "eval_kl": 0.3189174107142857,
-      "eval_loss": 0.014444979839026928,
-      "eval_reward": 0.6251552956444877,
-      "eval_reward_std": 0.1085951988186155,
-      "eval_rewards/accuracy_reward_word": 0.6251552700996399,
-      "eval_rewards/format_reward": 0.0,
-      "eval_runtime": 95.3621,
-      "eval_samples_per_second": 2.097,
-      "eval_steps_per_second": 0.01,
-      "step": 200
-    },
-    {
-      "epoch": 33.390243902439025,
-      "step": 200,
       "total_flos": 0.0,
-      "train_loss": 0.036479350634126606,
-      "train_runtime": 34004.8654,
-      "train_samples_per_second": 1.529,
-      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 5,
-  "max_steps": 200,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 40,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.895104895104897,
+  "eval_steps": 1000,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 364.37423477172854,
+      "epoch": 0.5594405594405595,
+      "grad_norm": 0.27259644865989685,
+      "kl": 0.00020606517791748046,
+      "learning_rate": 6.25e-06,
       "loss": 0.0,
+      "reward": 1.2981241554021836,
+      "reward_std": 0.34615046456456183,
+      "rewards/accuracy_reward_word": 0.32314828839153054,
+      "rewards/format_reward": 0.9845982514321804,
+      "rewards/repetition_penalty_reward": -0.009622399129875702,
       "step": 5
     },
     {
+      "completion_length": 300.59944620999426,
+      "epoch": 1.2237762237762237,
+      "grad_norm": 0.6720463037490845,
+      "kl": 0.054093274203213776,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0024,
+      "reward": 1.4319009455767544,
+      "reward_std": 0.3311943354254419,
+      "rewards/accuracy_reward_word": 0.44601600854234263,
+      "rewards/format_reward": 0.992999211631038,
+      "rewards/repetition_penalty_reward": -0.007114298457467653,
       "step": 10
     },
     {
+      "completion_length": 217.79476432800294,
+      "epoch": 1.7832167832167833,
+      "grad_norm": 0.29593613743782043,
+      "kl": 0.110693359375,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.0044,
+      "reward": 1.5967296287417412,
+      "reward_std": 0.3098897160962224,
+      "rewards/accuracy_reward_word": 0.6012545950710774,
+      "rewards/format_reward": 0.9985491126775742,
+      "rewards/repetition_penalty_reward": -0.003074125228158664,
       "step": 15
     },
     {
+      "completion_length": 200.27791127291593,
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.26520445942878723,
+      "kl": 0.1642123135653409,
+      "learning_rate": 1.9961946980917457e-05,
+      "loss": 0.0072,
+      "reward": 1.6224368851293216,
+      "reward_std": 0.27555874311788514,
+      "rewards/accuracy_reward_word": 0.6239803387698802,
+      "rewards/format_reward": 0.998985393480821,
+      "rewards/repetition_penalty_reward": -0.000528900803601573,
       "step": 20
     },
     {
+      "completion_length": 270.1645825125954,
+      "epoch": 3.111888111888112,
+      "grad_norm": 0.34845927357673645,
+      "kl": 0.24596058238636365,
+      "learning_rate": 1.9807852804032306e-05,
+      "loss": 0.0108,
+      "reward": 1.5945834151723168,
+      "reward_std": 0.3396115639162334,
+      "rewards/accuracy_reward_word": 0.6209050552411512,
+      "rewards/format_reward": 0.9739245474338531,
+      "rewards/repetition_penalty_reward": -0.0002461845716342478,
       "step": 25
     },
     {
+      "completion_length": 235.43092441558838,
+      "epoch": 3.6713286713286712,
+      "grad_norm": 3.628526449203491,
+      "kl": 1.1632080078125,
+      "learning_rate": 1.953716950748227e-05,
+      "loss": 0.0466,
+      "reward": 1.3556241348385811,
+      "reward_std": 0.18557674251496792,
+      "rewards/accuracy_reward_word": 0.36838247990235684,
+      "rewards/format_reward": 0.9909598484635354,
+      "rewards/repetition_penalty_reward": -0.003718209845078491,
       "step": 30
     },
     {
+      "completion_length": 246.95547086542302,
+      "epoch": 4.335664335664336,
+      "grad_norm": 1.1314058303833008,
+      "kl": 0.3246515447443182,
+      "learning_rate": 1.9153114791194475e-05,
+      "loss": 0.0143,
+      "reward": 1.3994574384255842,
+      "reward_std": 0.20727728540077806,
+      "rewards/accuracy_reward_word": 0.41514577995985746,
+      "rewards/format_reward": 0.9877232407981699,
+      "rewards/repetition_penalty_reward": -0.003411588459336847,
       "step": 35
     },
     {
+      "completion_length": 295.24443359375,
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.7106680274009705,
+      "kl": 0.45169677734375,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 0.0181,
+      "reward": 1.5822205603122712,
+      "reward_std": 0.3901990856975317,
+      "rewards/accuracy_reward_word": 0.6376858472824096,
+      "rewards/format_reward": 0.9446428999304771,
+      "rewards/repetition_penalty_reward": -0.0001081747655689469,
       "step": 40
     },
     {
+      "completion_length": 227.82925120267,
+      "epoch": 5.559440559440559,
+      "grad_norm": 0.8820157051086426,
+      "kl": 0.4667746803977273,
+      "learning_rate": 1.806444604267483e-05,
+      "loss": 0.0205,
+      "reward": 1.4798817797140642,
+      "reward_std": 0.2851217135533013,
+      "rewards/accuracy_reward_word": 0.5120031014931473,
+      "rewards/format_reward": 0.9679383540695364,
+      "rewards/repetition_penalty_reward": -5.967220460495975e-05,
       "step": 45
     },
     {
+      "completion_length": 215.02862150018865,
+      "epoch": 6.223776223776224,
+      "grad_norm": 0.19495409727096558,
+      "kl": 0.41028941761363635,
+      "learning_rate": 1.737277336810124e-05,
+      "loss": 0.0181,
+      "reward": 1.5078922672705217,
+      "reward_std": 0.27444807008247485,
+      "rewards/accuracy_reward_word": 0.5324522018093955,
+      "rewards/format_reward": 0.9754464673725042,
+      "rewards/repetition_penalty_reward": -6.40446375076532e-06,
       "step": 50
     },
     {
+      "completion_length": 253.25693054199218,
+      "epoch": 6.783216783216783,
+      "grad_norm": 0.161370187997818,
+      "kl": 0.3687744140625,
+      "learning_rate": 1.659345815100069e-05,
+      "loss": 0.0148,
+      "reward": 1.617374736070633,
+      "reward_std": 0.3065785804763436,
+      "rewards/accuracy_reward_word": 0.6409355964511633,
+      "rewards/format_reward": 0.9764509290456772,
+      "rewards/repetition_penalty_reward": -1.1780754721257836e-05,
       "step": 55
     },
     {
+      "completion_length": 275.0440474423495,
+      "epoch": 7.4475524475524475,
+      "grad_norm": 0.2272227257490158,
+      "kl": 0.35566850142045453,
+      "learning_rate": 1.573576436351046e-05,
+      "loss": 0.0156,
+      "reward": 1.5927915437655016,
+      "reward_std": 0.30714009304276924,
+      "rewards/accuracy_reward_word": 0.6195999278940938,
+      "rewards/format_reward": 0.97321432557973,
+      "rewards/repetition_penalty_reward": -2.271822495458764e-05,
       "step": 60
     },
     {
+      "completion_length": 262.15382610667837,
+      "epoch": 8.111888111888112,
+      "grad_norm": 0.19355681538581848,
+      "kl": 0.3338068181818182,
+      "learning_rate": 1.4809887689193878e-05,
+      "loss": 0.0147,
+      "reward": 1.4948042712428353,
+      "reward_std": 0.2743698521940546,
+      "rewards/accuracy_reward_word": 0.5210835107348182,
+      "rewards/format_reward": 0.9737216295166449,
+      "rewards/repetition_penalty_reward": -8.746641965858131e-07,
       "step": 65
     },
     {
+      "completion_length": 250.4502347946167,
+      "epoch": 8.671328671328672,
+      "grad_norm": 0.1308055967092514,
+      "kl": 0.31865234375,
+      "learning_rate": 1.3826834323650899e-05,
+      "loss": 0.0127,
+      "reward": 1.4026295721530915,
+      "reward_std": 0.23001151392236352,
+      "rewards/accuracy_reward_word": 0.4245518417446874,
+      "rewards/format_reward": 0.9781250409781933,
+      "rewards/repetition_penalty_reward": -4.732433080789633e-05,
       "step": 70
     },
     {
+      "completion_length": 257.2775072617964,
+      "epoch": 9.335664335664335,
+      "grad_norm": 0.1448088437318802,
+      "kl": 0.2882302024147727,
+      "learning_rate": 1.2798290140309924e-05,
+      "loss": 0.0127,
+      "reward": 1.4172937978397717,
+      "reward_std": 0.23249881604517048,
+      "rewards/accuracy_reward_word": 0.4396151855418628,
+      "rewards/format_reward": 0.9776786098426039,
+      "rewards/repetition_penalty_reward": 0.0,
       "step": 75
     },
     {
+      "completion_length": 259.0001234054565,
+      "epoch": 9.895104895104895,
+      "grad_norm": 0.1194038838148117,
+      "kl": 0.26318359375,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0105,
+      "reward": 1.4497434869408607,
+      "reward_std": 0.25042697712779044,
+      "rewards/accuracy_reward_word": 0.47421625480055807,
+      "rewards/format_reward": 0.9755580753087998,
+      "rewards/repetition_penalty_reward": -3.085259668296203e-05,
       "step": 80
     },
     {
+      "completion_length": 251.73012508045542,
+      "epoch": 10.55944055944056,
+      "grad_norm": 0.12483782321214676,
+      "kl": 0.25578169389204547,
+      "learning_rate": 1.0654031292301432e-05,
+      "loss": 0.0113,
+      "reward": 1.477828394282948,
+      "reward_std": 0.24647284172136674,
+      "rewards/accuracy_reward_word": 0.49977607000619173,
+      "rewards/format_reward": 0.978084458546205,
+      "rewards/repetition_penalty_reward": -3.212933171942661e-05,
       "step": 85
     },
     {
+      "completion_length": 243.65271100130948,
+      "epoch": 11.223776223776223,
+      "grad_norm": 0.4139878749847412,
+      "kl": 0.2525967684659091,
+      "learning_rate": 9.563806126346643e-06,
+      "loss": 0.0111,
+      "reward": 1.4612440195950596,
+      "reward_std": 0.23823331762105227,
+      "rewards/accuracy_reward_word": 0.4819643903862346,
+      "rewards/format_reward": 0.9793019870465453,
+      "rewards/repetition_penalty_reward": -2.236067350416058e-05,
       "step": 90
     },
     {
+      "completion_length": 246.18003330230712,
+      "epoch": 11.783216783216783,
+      "grad_norm": 0.11199598014354706,
+      "kl": 0.23426513671875,
+      "learning_rate": 8.478766138100834e-06,
+      "loss": 0.0094,
+      "reward": 1.4039153650403022,
+      "reward_std": 0.20266931243240832,
+      "rewards/accuracy_reward_word": 0.4193565859692171,
+      "rewards/format_reward": 0.9845982529222965,
+      "rewards/repetition_penalty_reward": -3.9484114859078544e-05,
       "step": 95
     },
     {
+      "completion_length": 256.24219929088247,
+      "epoch": 12.447552447552448,
+      "grad_norm": 0.23437026143074036,
+      "kl": 0.24050071022727273,
+      "learning_rate": 7.411809548974792e-06,
+      "loss": 0.0106,
+      "reward": 1.3849081302231008,
+      "reward_std": 0.20749073509465565,
+      "rewards/accuracy_reward_word": 0.4026952323249795,
+      "rewards/format_reward": 0.9822443513707682,
+      "rewards/repetition_penalty_reward": -3.145250816900939e-05,
       "step": 100
     },
     {
+      "completion_length": 257.46277410333806,
+      "epoch": 13.111888111888112,
+      "grad_norm": 0.11270800977945328,
+      "kl": 0.21811745383522727,
+      "learning_rate": 6.375619617162985e-06,
+      "loss": 0.0096,
+      "reward": 1.4131186618046327,
+      "reward_std": 0.2085759434002367,
+      "rewards/accuracy_reward_word": 0.4291051478040489,
+      "rewards/format_reward": 0.9840706532651727,
+      "rewards/repetition_penalty_reward": -5.714496695542369e-05,
       "step": 105
     },
     {
+      "completion_length": 260.4148557662964,
+      "epoch": 13.671328671328672,
+      "grad_norm": 0.1118827760219574,
+      "kl": 0.21689453125,
+      "learning_rate": 5.382513867649663e-06,
+      "loss": 0.0087,
+      "reward": 1.413018099963665,
+      "reward_std": 0.20751294190995395,
+      "rewards/accuracy_reward_word": 0.4284829759038985,
+      "rewards/format_reward": 0.9845982521772385,
+      "rewards/repetition_penalty_reward": -6.31413837254513e-05,
       "step": 110
     },
     {
+      "completion_length": 255.0886882435192,
+      "epoch": 14.335664335664335,
+      "grad_norm": 0.1052035540342331,
+      "kl": 0.21266867897727273,
+      "learning_rate": 4.444297669803981e-06,
+      "loss": 0.0094,
+      "reward": 1.3777457651766865,
+      "reward_std": 0.19213764581151985,
+      "rewards/accuracy_reward_word": 0.3917047695934095,
+      "rewards/format_reward": 0.9860998696901582,
+      "rewards/repetition_penalty_reward": -5.887894752215123e-05,
       "step": 115
     },
     {
+      "completion_length": 250.88360347747803,
+      "epoch": 14.895104895104895,
+      "grad_norm": 0.1148873046040535,
+      "kl": 0.20421142578125,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 0.0082,
+      "reward": 1.4046544060111046,
+      "reward_std": 0.194459034409374,
+      "rewards/accuracy_reward_word": 0.41711079380474986,
+      "rewards/format_reward": 0.9876116372644901,
+      "rewards/repetition_penalty_reward": -6.803718715673313e-05,
       "step": 120
     },
     {
+      "completion_length": 249.46257175098765,
+      "epoch": 15.55944055944056,
+      "grad_norm": 0.11614679545164108,
+      "kl": 0.20160466974431818,
+      "learning_rate": 2.776360379402445e-06,
+      "loss": 0.0089,
+      "reward": 1.4239109510725194,
+      "reward_std": 0.20904017239809036,
+      "rewards/accuracy_reward_word": 0.4381290450692177,
+      "rewards/format_reward": 0.985795489766381,
+      "rewards/repetition_penalty_reward": -1.3588532800151205e-05,
       "step": 125
     },
     {
+      "completion_length": 252.77699990706012,
+      "epoch": 16.223776223776223,
+      "grad_norm": 0.11460437625646591,
+      "kl": 0.20647638494318182,
+      "learning_rate": 2.0664665970876496e-06,
+      "loss": 0.0091,
+      "reward": 1.4404897730458865,
+      "reward_std": 0.22268841487609528,
+      "rewards/accuracy_reward_word": 0.45830493445762177,
+      "rewards/format_reward": 0.9822443588213488,
+      "rewards/repetition_penalty_reward": -5.952174582158808e-05,
       "step": 130
     },
     {
+      "completion_length": 256.87255535125735,
+      "epoch": 16.783216783216783,
+      "grad_norm": 0.10793906450271606,
+      "kl": 0.20732421875,
+      "learning_rate": 1.4508812932705364e-06,
+      "loss": 0.0083,
+      "reward": 1.478071430325508,
+      "reward_std": 0.22782372254878283,
+      "rewards/accuracy_reward_word": 0.49404887384735047,
+      "rewards/format_reward": 0.9840402141213417,
+      "rewards/repetition_penalty_reward": -1.7666907024249667e-05,
       "step": 135
     },
     {
+      "completion_length": 254.8349351015958,
+      "epoch": 17.447552447552447,
+      "grad_norm": 0.13680703938007355,
+      "kl": 0.19947398792613635,
+      "learning_rate": 9.369221296335007e-07,
+      "loss": 0.0088,
+      "reward": 1.4661599763415076,
+      "reward_std": 0.22828074849464677,
+      "rewards/accuracy_reward_word": 0.4821980211206458,
+      "rewards/format_reward": 0.9839691946452315,
+      "rewards/repetition_penalty_reward": -7.247217581607401e-06,
       "step": 140
     },
     {
+      "completion_length": 254.28024777499112,
+      "epoch": 18.111888111888113,
+      "grad_norm": 0.12113064527511597,
+      "kl": 0.2043124112215909,
+      "learning_rate": 5.306987050489442e-07,
+      "loss": 0.009,
+      "reward": 1.4483650543472983,
+      "reward_std": 0.222187442493371,
+      "rewards/accuracy_reward_word": 0.4643406889147379,
+      "rewards/format_reward": 0.9840706539424983,
+      "rewards/repetition_penalty_reward": -4.6301358824249206e-05,
       "step": 145
     },
     {
+      "completion_length": 254.92579154968263,
+      "epoch": 18.67132867132867,
+      "grad_norm": 0.12059218436479568,
+      "kl": 0.2029052734375,
+      "learning_rate": 2.370399288006664e-07,
+      "loss": 0.0081,
+      "reward": 1.4487672820687294,
+      "reward_std": 0.228369791386649,
+      "rewards/accuracy_reward_word": 0.46667207330465316,
+      "rewards/format_reward": 0.9821428969502449,
+      "rewards/repetition_penalty_reward": -4.7683547745691615e-05,
       "step": 150
     },
     {
+      "completion_length": 255.3859702023593,
+      "epoch": 19.335664335664337,
+      "grad_norm": 0.12672924995422363,
+      "kl": 0.20241477272727273,
+      "learning_rate": 5.943661777680354e-08,
+      "loss": 0.0089,
+      "reward": 1.4418584392829374,
+      "reward_std": 0.22563406520269133,
+      "rewards/accuracy_reward_word": 0.45739410241896455,
+      "rewards/format_reward": 0.9844764979048208,
+      "rewards/repetition_penalty_reward": -1.2175325537100434e-05,
       "step": 155
     },
     {
+      "completion_length": 250.57400856018066,
+      "epoch": 19.895104895104897,
+      "grad_norm": 0.12355446815490723,
+      "kl": 0.19569091796875,
+      "learning_rate": 0.0,
+      "loss": 0.0078,
+      "reward": 1.4596911922097207,
+      "reward_std": 0.21876802388578653,
+      "rewards/accuracy_reward_word": 0.4751062370836735,
+      "rewards/format_reward": 0.9845982559025288,
+      "rewards/repetition_penalty_reward": -1.3301288072398166e-05,
       "step": 160
     },
     {
+      "epoch": 19.895104895104897,
+      "step": 160,
       "total_flos": 0.0,
+      "train_loss": 0.011576007895314433,
+      "train_runtime": 33226.465,
+      "train_samples_per_second": 0.602,
+      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 5,
+  "max_steps": 160,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:515f14bdee751293bb315b8e548550983d747382833c2d5a27a5780db6fe0b7e
-size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0b151708dbfb039fab3363622568c9f229a742f720cf88aa4b879c5da30f5f8
+size 7608