Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

adapter_config.json +2 -2
adapter_model.safetensors +2 -2
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +179 -179
training_args.bin +2 -2

adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
-    "o_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
     "k_proj",
     "v_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d0543ae6c11fab0472ae1c3965dfb2c0d4f76bf25073705dda75301212159cd
-size 405942856

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebc085ca55181132e4e631578112d3022be2801a6172ecd0a1200c6119b1c011
+size 12591456

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31d777418b4fe20f7b3114e65415f3dba051eae3e937841cccb69c756e9cd186
 size 25219898

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8e1eda41d1c581fa2206543d71ebe88eaa51fac4149f55cb2adc88b7131c770
 size 25219898

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63fecec8d46cd2642ce3c4267e396be5d4f1873c560e7c604417611b1535bdd3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd0393816af5e506720af7a25500bfd823405c1f828d9e947cee94a8ab4c238a
 size 14244

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 40,
-  "best_metric": 0.003174182726070285,
-  "best_model_checkpoint": "outputs/{BASE_MODEL}/{args.task}_sft-pretrained_n100_mcl_256/checkpoint-40",
   "epoch": 3.0,
   "eval_steps": 5,
   "global_step": 75,
@@ -11,345 +11,345 @@
   "log_history": [
     {
       "epoch": 0.2,
-      "grad_norm": 0.039206475019454956,
       "learning_rate": 9.466666666666666e-07,
-      "loss": 0.0331,
       "step": 5
     },
     {
       "epoch": 0.2,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 249.4625,
-      "eval_kl": 2.9596686363220216e-05,
-      "eval_loss": 0.01392994076013565,
-      "eval_num_tokens": 31072.0,
-      "eval_reward": 0.075,
-      "eval_reward_std": 0.12287135720252991,
-      "eval_rewards/equation_reward_func": 0.025,
       "eval_rewards/format_reward_func": 0.05,
-      "eval_runtime": 287.2484,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 5
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.02188793569803238,
       "learning_rate": 8.799999999999999e-07,
-      "loss": 0.0184,
       "step": 10
     },
     {
       "epoch": 0.4,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 244.675,
-      "eval_kl": 3.2660365104675296e-05,
-      "eval_loss": 0.03559673950076103,
-      "eval_num_tokens": 62173.0,
       "eval_reward": 0.1,
-      "eval_reward_std": 0.15773502588272095,
-      "eval_rewards/equation_reward_func": 0.1,
-      "eval_rewards/format_reward_func": 0.0,
-      "eval_runtime": 286.2155,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 10
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.0426708348095417,
       "learning_rate": 8.133333333333333e-07,
-      "loss": 0.0235,
       "step": 15
     },
     {
       "epoch": 0.6,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 246.7,
-      "eval_kl": 3.2341480255126954e-05,
-      "eval_loss": 0.027126455679535866,
-      "eval_num_tokens": 93005.0,
-      "eval_reward": 0.15,
-      "eval_reward_std": 0.19082483053207397,
-      "eval_rewards/equation_reward_func": 0.075,
-      "eval_rewards/format_reward_func": 0.075,
-      "eval_runtime": 286.1471,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 15
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.019130932167172432,
       "learning_rate": 7.466666666666667e-07,
-      "loss": 0.0308,
       "step": 20
     },
     {
       "epoch": 0.8,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 244.8125,
-      "eval_kl": 3.119707107543945e-05,
-      "eval_loss": 0.027214299887418747,
-      "eval_num_tokens": 124029.0,
       "eval_reward": 0.1125,
-      "eval_reward_std": 0.18273502588272095,
-      "eval_rewards/equation_reward_func": 0.075,
-      "eval_rewards/format_reward_func": 0.0375,
-      "eval_runtime": 286.884,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 20
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.03768523037433624,
       "learning_rate": 6.800000000000001e-07,
-      "loss": 0.0548,
       "step": 25
     },
     {
       "epoch": 1.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 239.9875,
-      "eval_kl": 3.15934419631958e-05,
-      "eval_loss": 0.04795133322477341,
-      "eval_num_tokens": 154460.0,
-      "eval_reward": 0.1875,
-      "eval_reward_std": 0.2996102273464203,
-      "eval_rewards/equation_reward_func": 0.0875,
-      "eval_rewards/format_reward_func": 0.1,
-      "eval_runtime": 286.3028,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 25
     },
     {
       "epoch": 1.2,
-      "grad_norm": 0.021382536739110947,
       "learning_rate": 6.133333333333332e-07,
-      "loss": 0.0264,
       "step": 30
     },
     {
       "epoch": 1.2,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 241.1125,
-      "eval_kl": 3.0347704887390135e-05,
-      "eval_loss": 0.02830352820456028,
-      "eval_num_tokens": 185490.0,
-      "eval_reward": 0.0875,
-      "eval_reward_std": 0.15386751294136047,
-      "eval_rewards/equation_reward_func": 0.05,
       "eval_rewards/format_reward_func": 0.0375,
-      "eval_runtime": 286.3313,
-      "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 30
     },
     {
       "epoch": 1.4,
-      "grad_norm": 0.03168244659900665,
       "learning_rate": 5.466666666666666e-07,
-      "loss": 0.0253,
       "step": 35
     },
     {
       "epoch": 1.4,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 250.0125,
-      "eval_kl": 3.032684326171875e-05,
-      "eval_loss": 0.019817089661955833,
-      "eval_num_tokens": 216713.0,
-      "eval_reward": 0.075,
-      "eval_reward_std": 0.12886751294136048,
-      "eval_rewards/equation_reward_func": 0.05,
-      "eval_rewards/format_reward_func": 0.025,
-      "eval_runtime": 286.7823,
       "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 35
     },
     {
       "epoch": 1.6,
-      "grad_norm": 3.9236266502484796e-07,
       "learning_rate": 4.8e-07,
-      "loss": 0.0085,
       "step": 40
     },
     {
       "epoch": 1.6,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 245.225,
-      "eval_kl": 3.27765941619873e-05,
-      "eval_loss": 0.003174182726070285,
-      "eval_num_tokens": 247603.0,
-      "eval_reward": 0.0625,
-      "eval_reward_std": 0.10386751294136047,
-      "eval_rewards/equation_reward_func": 0.0375,
-      "eval_rewards/format_reward_func": 0.025,
-      "eval_runtime": 286.336,
       "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 40
     },
     {
       "epoch": 1.8,
-      "grad_norm": 0.03481123968958855,
       "learning_rate": 4.1333333333333333e-07,
-      "loss": 0.0441,
       "step": 45
     },
     {
       "epoch": 1.8,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 247.3,
-      "eval_kl": 2.6440620422363283e-05,
-      "eval_loss": 0.030359486117959023,
-      "eval_num_tokens": 278403.0,
-      "eval_reward": 0.1375,
-      "eval_reward_std": 0.22673887014389038,
-      "eval_rewards/equation_reward_func": 0.1,
-      "eval_rewards/format_reward_func": 0.0375,
-      "eval_runtime": 286.4232,
       "eval_samples_per_second": 0.07,
-      "eval_steps_per_second": 0.017,
       "step": 45
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.03657938167452812,
       "learning_rate": 3.4666666666666665e-07,
-      "loss": 0.0572,
       "step": 50
     },
     {
       "epoch": 2.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 248.95,
-      "eval_kl": 2.9081106185913085e-05,
-      "eval_loss": 0.015535709448158741,
-      "eval_num_tokens": 309080.0,
-      "eval_reward": 0.1,
-      "eval_reward_std": 0.15,
-      "eval_rewards/equation_reward_func": 0.0625,
       "eval_rewards/format_reward_func": 0.0375,
-      "eval_runtime": 284.5486,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 50
     },
     {
       "epoch": 2.2,
-      "grad_norm": 0.024848679080605507,
       "learning_rate": 2.8e-07,
-      "loss": 0.0289,
       "step": 55
     },
     {
       "epoch": 2.2,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 246.8875,
-      "eval_kl": 3.223121166229248e-05,
-      "eval_loss": 0.023179035633802414,
-      "eval_num_tokens": 340282.0,
-      "eval_reward": 0.1375,
-      "eval_reward_std": 0.22074271440505983,
-      "eval_rewards/equation_reward_func": 0.05,
-      "eval_rewards/format_reward_func": 0.0875,
-      "eval_runtime": 284.2027,
-      "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 55
     },
     {
       "epoch": 2.4,
-      "grad_norm": 0.0,
       "learning_rate": 2.1333333333333334e-07,
-      "loss": 0.0567,
       "step": 60
     },
     {
       "epoch": 2.4,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 248.3875,
-      "eval_kl": 3.6197900772094724e-05,
-      "eval_loss": 0.018750805407762527,
-      "eval_num_tokens": 371169.0,
-      "eval_reward": 0.0875,
-      "eval_reward_std": 0.175,
-      "eval_rewards/equation_reward_func": 0.0375,
-      "eval_rewards/format_reward_func": 0.05,
-      "eval_runtime": 284.2169,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 60
     },
     {
       "epoch": 2.6,
-      "grad_norm": 0.028844181448221207,
       "learning_rate": 1.4666666666666666e-07,
-      "loss": 0.0199,
       "step": 65
     },
     {
       "epoch": 2.6,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 247.4375,
-      "eval_kl": 3.5449862480163574e-05,
-      "eval_loss": 0.04226290062069893,
-      "eval_num_tokens": 402032.0,
-      "eval_reward": 0.1,
-      "eval_reward_std": 0.15173887014389037,
-      "eval_rewards/equation_reward_func": 0.05,
-      "eval_rewards/format_reward_func": 0.05,
-      "eval_runtime": 284.2641,
-      "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 65
     },
     {
       "epoch": 2.8,
-      "grad_norm": 0.0,
       "learning_rate": 8e-08,
-      "loss": 0.0277,
       "step": 70
     },
     {
       "epoch": 2.8,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 241.95,
-      "eval_kl": 3.163218498229981e-05,
-      "eval_loss": 0.05129896476864815,
-      "eval_num_tokens": 433087.0,
-      "eval_reward": 0.1,
-      "eval_reward_std": 0.17886751294136047,
-      "eval_rewards/equation_reward_func": 0.05,
-      "eval_rewards/format_reward_func": 0.05,
-      "eval_runtime": 284.2163,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 70
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.022495441138744354,
       "learning_rate": 1.3333333333333334e-08,
-      "loss": 0.037,
       "step": 75
     },
     {
       "epoch": 3.0,
       "eval_clip_ratio": 0.0,
-      "eval_completion_length": 246.875,
-      "eval_kl": 3.185570240020752e-05,
-      "eval_loss": 0.030237644910812378,
-      "eval_num_tokens": 464241.0,
-      "eval_reward": 0.0875,
-      "eval_reward_std": 0.14787135720252992,
       "eval_rewards/equation_reward_func": 0.0625,
-      "eval_rewards/format_reward_func": 0.025,
-      "eval_runtime": 284.2765,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 75

 {
+  "best_global_step": 30,
+  "best_metric": 0.009350189939141273,
+  "best_model_checkpoint": "outputs/microsoft/Phi-3.5-mini-instruct/countdown_n100_mcl_256_pretrained/checkpoint-30",
   "epoch": 3.0,
   "eval_steps": 5,
   "global_step": 75,
   "log_history": [
     {
       "epoch": 0.2,
+      "grad_norm": 0.04710305854678154,
       "learning_rate": 9.466666666666666e-07,
+      "loss": 0.0581,
       "step": 5
     },
     {
       "epoch": 0.2,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 249.7375,
+      "eval_kl": 2.7620792388916014e-05,
+      "eval_loss": 0.011466369964182377,
+      "eval_num_tokens": 30743.0,
+      "eval_reward": 0.0875,
+      "eval_reward_std": 0.14787135720252992,
+      "eval_rewards/equation_reward_func": 0.0375,
       "eval_rewards/format_reward_func": 0.05,
+      "eval_runtime": 283.5242,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 5
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.0248898696154356,
       "learning_rate": 8.799999999999999e-07,
+      "loss": 0.0305,
       "step": 10
     },
     {
       "epoch": 0.4,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 248.3125,
+      "eval_kl": 3.051459789276123e-05,
+      "eval_loss": 0.010714234784245491,
+      "eval_num_tokens": 61654.0,
       "eval_reward": 0.1,
+      "eval_reward_std": 0.11969234347343445,
+      "eval_rewards/equation_reward_func": 0.075,
+      "eval_rewards/format_reward_func": 0.025,
+      "eval_runtime": 279.7789,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 10
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.03560088202357292,
       "learning_rate": 8.133333333333333e-07,
+      "loss": 0.0333,
       "step": 15
     },
     {
       "epoch": 0.6,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 248.8125,
+      "eval_kl": 3.6323070526123046e-05,
+      "eval_loss": 0.016332309693098068,
+      "eval_num_tokens": 92513.0,
+      "eval_reward": 0.1,
+      "eval_reward_std": 0.15773502588272095,
+      "eval_rewards/equation_reward_func": 0.0375,
+      "eval_rewards/format_reward_func": 0.0625,
+      "eval_runtime": 282.7334,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 15
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.02903689257800579,
       "learning_rate": 7.466666666666667e-07,
+      "loss": 0.0363,
       "step": 20
     },
     {
       "epoch": 0.8,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 241.4375,
+      "eval_kl": 3.466010093688965e-05,
+      "eval_loss": 0.03578554838895798,
+      "eval_num_tokens": 123451.0,
       "eval_reward": 0.1125,
+      "eval_reward_std": 0.1978713572025299,
+      "eval_rewards/equation_reward_func": 0.0625,
+      "eval_rewards/format_reward_func": 0.05,
+      "eval_runtime": 282.549,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 20
     },
     {
       "epoch": 1.0,
+      "grad_norm": 5.04811282553419e-07,
       "learning_rate": 6.800000000000001e-07,
+      "loss": 0.0011,
       "step": 25
     },
     {
       "epoch": 1.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 247.55,
+      "eval_kl": 3.0243396759033202e-05,
+      "eval_loss": 0.023990554735064507,
+      "eval_num_tokens": 154568.0,
+      "eval_reward": 0.1,
+      "eval_reward_std": 0.17886751294136047,
+      "eval_rewards/equation_reward_func": 0.05,
+      "eval_rewards/format_reward_func": 0.05,
+      "eval_runtime": 282.4574,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 25
     },
     {
       "epoch": 1.2,
+      "grad_norm": 0.0,
       "learning_rate": 6.133333333333332e-07,
+      "loss": 0.0337,
       "step": 30
     },
     {
       "epoch": 1.2,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 249.3875,
+      "eval_kl": 2.872645854949951e-05,
+      "eval_loss": 0.009350189939141273,
+      "eval_num_tokens": 185750.0,
+      "eval_reward": 0.1,
+      "eval_reward_std": 0.15,
+      "eval_rewards/equation_reward_func": 0.0625,
       "eval_rewards/format_reward_func": 0.0375,
+      "eval_runtime": 283.2443,
+      "eval_samples_per_second": 0.071,
+      "eval_steps_per_second": 0.018,
       "step": 30
     },
     {
       "epoch": 1.4,
+      "grad_norm": 0.025708282366394997,
       "learning_rate": 5.466666666666666e-07,
+      "loss": 0.0273,
       "step": 35
     },
     {
       "epoch": 1.4,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 242.05,
+      "eval_kl": 3.2845139503479e-05,
+      "eval_loss": 0.038312580436468124,
+      "eval_num_tokens": 217087.0,
+      "eval_reward": 0.1375,
+      "eval_reward_std": 0.1978713572025299,
+      "eval_rewards/equation_reward_func": 0.0625,
+      "eval_rewards/format_reward_func": 0.075,
+      "eval_runtime": 283.9676,
       "eval_samples_per_second": 0.07,
+      "eval_steps_per_second": 0.018,
       "step": 35
     },
     {
       "epoch": 1.6,
+      "grad_norm": 0.04088641330599785,
       "learning_rate": 4.8e-07,
+      "loss": 0.0318,
       "step": 40
     },
     {
       "epoch": 1.6,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 247.9375,
+      "eval_kl": 3.358125686645508e-05,
+      "eval_loss": 0.028362590819597244,
+      "eval_num_tokens": 247949.0,
+      "eval_reward": 0.1375,
+      "eval_reward_std": 0.1886961877346039,
+      "eval_rewards/equation_reward_func": 0.0875,
+      "eval_rewards/format_reward_func": 0.05,
+      "eval_runtime": 285.356,
       "eval_samples_per_second": 0.07,
+      "eval_steps_per_second": 0.018,
       "step": 40
     },
     {
       "epoch": 1.8,
+      "grad_norm": 0.024730732664465904,
       "learning_rate": 4.1333333333333333e-07,
+      "loss": 0.0578,
       "step": 45
     },
     {
       "epoch": 1.8,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 246.9625,
+      "eval_kl": 2.7140974998474122e-05,
+      "eval_loss": 0.043169133365154266,
+      "eval_num_tokens": 278710.0,
+      "eval_reward": 0.125,
+      "eval_reward_std": 0.2,
+      "eval_rewards/equation_reward_func": 0.075,
+      "eval_rewards/format_reward_func": 0.05,
+      "eval_runtime": 285.2657,
       "eval_samples_per_second": 0.07,
+      "eval_steps_per_second": 0.018,
       "step": 45
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.03765915334224701,
       "learning_rate": 3.4666666666666665e-07,
+      "loss": 0.0234,
       "step": 50
     },
     {
       "epoch": 2.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 247.05,
+      "eval_kl": 3.2660365104675296e-05,
+      "eval_loss": 0.026807209476828575,
+      "eval_num_tokens": 309954.0,
+      "eval_reward": 0.125,
+      "eval_reward_std": 0.20773502588272094,
+      "eval_rewards/equation_reward_func": 0.0875,
       "eval_rewards/format_reward_func": 0.0375,
+      "eval_runtime": 284.404,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 50
     },
     {
       "epoch": 2.2,
+      "grad_norm": 0.01991177722811699,
       "learning_rate": 2.8e-07,
+      "loss": 0.0691,
       "step": 55
     },
     {
       "epoch": 2.2,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 242.6375,
+      "eval_kl": 3.68952751159668e-05,
+      "eval_loss": 0.04483898729085922,
+      "eval_num_tokens": 340605.0,
+      "eval_reward": 0.1625,
+      "eval_reward_std": 0.25560638308525085,
+      "eval_rewards/equation_reward_func": 0.1,
+      "eval_rewards/format_reward_func": 0.0625,
+      "eval_runtime": 283.6459,
+      "eval_samples_per_second": 0.071,
       "eval_steps_per_second": 0.018,
       "step": 55
     },
     {
       "epoch": 2.4,
+      "grad_norm": 0.0200728178024292,
       "learning_rate": 2.1333333333333334e-07,
+      "loss": 0.0518,
       "step": 60
     },
     {
       "epoch": 2.4,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 250.45,
+      "eval_kl": 3.1629204750061034e-05,
+      "eval_loss": 0.009741068817675114,
+      "eval_num_tokens": 371457.0,
+      "eval_reward": 0.075,
+      "eval_reward_std": 0.12886751294136048,
+      "eval_rewards/equation_reward_func": 0.05,
+      "eval_rewards/format_reward_func": 0.025,
+      "eval_runtime": 283.7186,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 60
     },
     {
       "epoch": 2.6,
+      "grad_norm": 0.021919438615441322,
       "learning_rate": 1.4666666666666666e-07,
+      "loss": 0.0167,
       "step": 65
     },
     {
       "epoch": 2.6,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 250.35,
+      "eval_kl": 2.8392672538757326e-05,
+      "eval_loss": 0.016574550420045853,
+      "eval_num_tokens": 402684.0,
+      "eval_reward": 0.1125,
+      "eval_reward_std": 0.14469234347343446,
+      "eval_rewards/equation_reward_func": 0.075,
+      "eval_rewards/format_reward_func": 0.0375,
+      "eval_runtime": 283.4564,
+      "eval_samples_per_second": 0.071,
       "eval_steps_per_second": 0.018,
       "step": 65
     },
     {
       "epoch": 2.8,
+      "grad_norm": 0.03317731246352196,
       "learning_rate": 8e-08,
+      "loss": 0.0358,
       "step": 70
     },
     {
       "epoch": 2.8,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 246.825,
+      "eval_kl": 3.1587481498718264e-05,
+      "eval_loss": 0.04395188018679619,
+      "eval_num_tokens": 433755.0,
+      "eval_reward": 0.2,
+      "eval_reward_std": 0.3154700517654419,
+      "eval_rewards/equation_reward_func": 0.0625,
+      "eval_rewards/format_reward_func": 0.1375,
+      "eval_runtime": 284.1288,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 70
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.04194802790880203,
       "learning_rate": 1.3333333333333334e-08,
+      "loss": 0.0372,
       "step": 75
     },
     {
       "epoch": 3.0,
       "eval_clip_ratio": 0.0,
+      "eval_completion_length": 247.825,
+      "eval_kl": 3.3229589462280273e-05,
+      "eval_loss": 0.034269753843545914,
+      "eval_num_tokens": 464648.0,
+      "eval_reward": 0.1,
+      "eval_reward_std": 0.15,
       "eval_rewards/equation_reward_func": 0.0625,
+      "eval_rewards/format_reward_func": 0.0375,
+      "eval_runtime": 283.7321,
       "eval_samples_per_second": 0.07,
       "eval_steps_per_second": 0.018,
       "step": 75

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:633f04d4d98924999118658effbac31e2ac83252474889cdafe3a83c1ffa82c4
-size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e10b521573cac25922d2ee9076e71c9a2aa5ac01265f1f3bac4705ac267a9aa
+size 6264