Upload task output 1

Browse files

Files changed (5) hide show

README.md +1 -1
adapter_config.json +6 -6
adapter_model.safetensors +1 -1
trainer_state.json +75 -75
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: Qwen/Qwen3-4B
 library_name: peft
 pipeline_tag: text-generation
 tags:

 ---
+base_model: openlm-research/open_llama_3b
 library_name: peft
 pipeline_tag: text-generation
 tags:

adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
-  "base_model_name_or_path": "Qwen/Qwen3-4B",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "down_proj",
     "k_proj",
-    "gate_proj",
-    "up_proj",
-    "o_proj",
-    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "alpha_pattern": {},
   "arrow_config": null,
   "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
   "bias": "none",
   "corda_config": null,
   "ensure_weight_tying": false,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
+    "up_proj",
     "down_proj",
+    "q_proj",
+    "v_proj",
     "k_proj",
+    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a50e8b89a6399e0f116c78638dfba0019f9719dcf17ea3e4688d6fafb79ed0ec
 size 203456160

 version https://git-lfs.github.com/spec/v1
+oid sha256:71c440c80ede39ed5f8bb23f30218abc37099b8e728db58e9de3c835e3af4eeb
 size 203456160

trainer_state.json CHANGED Viewed

@@ -35,7 +35,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 1,
-      "step_time": 20.163676705000398
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -63,7 +63,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 2,
-      "step_time": 22.362987949985836
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -91,7 +91,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 3,
-      "step_time": 19.506274071005464
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -119,7 +119,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 4,
-      "step_time": 20.597769440006232
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -147,7 +147,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 5,
-      "step_time": 19.509877896991384
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -175,7 +175,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 6,
-      "step_time": 22.303637470999092
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -203,7 +203,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 7,
-      "step_time": 21.887395144010952
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -231,7 +231,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 8,
-      "step_time": 19.28527039799519
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -259,7 +259,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 9,
-      "step_time": 22.71891580100055
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -287,7 +287,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 10,
-      "step_time": 22.25483033200726
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -315,7 +315,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 11,
-      "step_time": 19.253934067986847
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -343,7 +343,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 12,
-      "step_time": 21.867263803986134
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -371,7 +371,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 13,
-      "step_time": 23.14227707999089
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -399,7 +399,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 14,
-      "step_time": 19.94518949700432
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -427,7 +427,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 15,
-      "step_time": 22.22382894000475
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -455,7 +455,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 16,
-      "step_time": 22.018562041987025
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -483,7 +483,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 17,
-      "step_time": 19.51297070399596
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -511,7 +511,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 18,
-      "step_time": 22.028209694988618
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -539,7 +539,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 19,
-      "step_time": 22.048571847008134
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -567,7 +567,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 20,
-      "step_time": 22.758304221002618
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -595,7 +595,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 21,
-      "step_time": 19.671875301013642
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -623,7 +623,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 22,
-      "step_time": 23.124933028993837
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -651,7 +651,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 23,
-      "step_time": 22.448714583006222
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -679,7 +679,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 24,
-      "step_time": 19.356710502994247
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -707,7 +707,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 25,
-      "step_time": 22.57160071598628
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -735,7 +735,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 26,
-      "step_time": 21.988813521005795
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -763,7 +763,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 27,
-      "step_time": 20.382539455007645
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -791,7 +791,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 28,
-      "step_time": 22.337577592013986
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -819,7 +819,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 29,
-      "step_time": 19.32650230699801
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -847,7 +847,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 30,
-      "step_time": 19.65242459801084
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -875,7 +875,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 31,
-      "step_time": 19.795237326987262
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -903,7 +903,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 32,
-      "step_time": 23.164430122997146
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -931,7 +931,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 33,
-      "step_time": 19.669757636002032
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -959,7 +959,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 34,
-      "step_time": 22.35915388200374
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -987,7 +987,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 35,
-      "step_time": 21.746646188010345
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1015,7 +1015,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 36,
-      "step_time": 20.59833544599678
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1043,7 +1043,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 37,
-      "step_time": 19.615884350998385
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1071,7 +1071,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 38,
-      "step_time": 19.57846778199746
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1099,7 +1099,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 39,
-      "step_time": 19.47087104698585
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1127,7 +1127,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 40,
-      "step_time": 19.335427225996682
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1155,7 +1155,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 41,
-      "step_time": 23.396767112004454
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1183,7 +1183,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 42,
-      "step_time": 19.57603736199235
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1211,7 +1211,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 43,
-      "step_time": 19.554181985011382
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1239,7 +1239,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 44,
-      "step_time": 19.349005468007817
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1267,7 +1267,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 45,
-      "step_time": 22.727461100002984
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1295,7 +1295,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 46,
-      "step_time": 20.33228819798387
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1323,7 +1323,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 47,
-      "step_time": 19.80965869199281
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1351,7 +1351,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 48,
-      "step_time": 22.324468039005296
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1379,7 +1379,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 49,
-      "step_time": 19.60882888899505
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1407,7 +1407,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 50,
-      "step_time": 22.923746538996056
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1435,7 +1435,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 51,
-      "step_time": 22.990994864012464
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1463,7 +1463,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 52,
-      "step_time": 19.864189005005755
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1491,7 +1491,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 53,
-      "step_time": 19.978898688008485
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1519,7 +1519,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 54,
-      "step_time": 19.302379137989192
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1547,7 +1547,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 55,
-      "step_time": 20.470470863983792
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1575,7 +1575,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 56,
-      "step_time": 22.26121293801407
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1603,7 +1603,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 57,
-      "step_time": 19.37005365499499
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1631,7 +1631,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 58,
-      "step_time": 20.212254795012996
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1659,7 +1659,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 59,
-      "step_time": 22.4186906150062
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1687,7 +1687,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 60,
-      "step_time": 20.418159313005162
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1715,7 +1715,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 61,
-      "step_time": 20.16101988900482
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1743,7 +1743,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 62,
-      "step_time": 21.949011387994688
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1771,7 +1771,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 63,
-      "step_time": 22.00667965998582
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1799,7 +1799,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 64,
-      "step_time": 22.618203107005684
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1827,7 +1827,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 65,
-      "step_time": 22.467545491999772
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1855,7 +1855,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 66,
-      "step_time": 19.404011901009653
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1883,7 +1883,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 67,
-      "step_time": 19.91166835000331
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1911,7 +1911,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 68,
-      "step_time": 22.706522302993108
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1939,7 +1939,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 69,
-      "step_time": 23.428568691997498
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1967,7 +1967,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 70,
-      "step_time": 19.817468445995473
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -1995,7 +1995,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 71,
-      "step_time": 19.85283366099611
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -2023,7 +2023,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 72,
-      "step_time": 19.637089049007045
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -2051,7 +2051,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 73,
-      "step_time": 22.924901701990166
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -2079,7 +2079,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 74,
-      "step_time": 23.01028485299321
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -2107,7 +2107,7 @@
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 75,
-      "step_time": 19.789993641017645
     }
   ],
   "logging_steps": 1.0,

       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 1,
+      "step_time": 20.038708471984137
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 2,
+      "step_time": 22.31387728100526
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 3,
+      "step_time": 19.508486614991853
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 4,
+      "step_time": 20.417726718005724
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 5,
+      "step_time": 19.458035143004963
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 6,
+      "step_time": 22.11808781498985
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 7,
+      "step_time": 21.699966289990698
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 8,
+      "step_time": 19.435475739024696
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 9,
+      "step_time": 23.149850735993823
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 10,
+      "step_time": 21.312995460008096
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 11,
+      "step_time": 18.84161558598862
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 12,
+      "step_time": 21.481500715010043
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 13,
+      "step_time": 22.648648835995118
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 14,
+      "step_time": 19.483697141011362
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 15,
+      "step_time": 22.048389301991847
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 16,
+      "step_time": 21.76690764699015
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 17,
+      "step_time": 19.46455569099635
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 18,
+      "step_time": 22.669331256991427
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 19,
+      "step_time": 22.320524194008613
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 20,
+      "step_time": 22.302162043000862
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 21,
+      "step_time": 19.36471923001227
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 22,
+      "step_time": 22.757351590000326
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 23,
+      "step_time": 22.50556095898355
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 24,
+      "step_time": 19.709908160984924
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 25,
+      "step_time": 22.27659140600008
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 26,
+      "step_time": 21.666986704993178
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 27,
+      "step_time": 19.754789013990376
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 28,
+      "step_time": 22.38940100500622
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 29,
+      "step_time": 19.54482721599925
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 30,
+      "step_time": 19.39816167599929
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 31,
+      "step_time": 19.455606768009602
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 32,
+      "step_time": 22.964359290992434
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 33,
+      "step_time": 19.29167694800708
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 34,
+      "step_time": 21.556990506993316
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 35,
+      "step_time": 21.540133035996405
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 36,
+      "step_time": 20.61158860699652
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 37,
+      "step_time": 19.463059345995134
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 38,
+      "step_time": 19.32687450600497
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 39,
+      "step_time": 19.368901928013656
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 40,
+      "step_time": 19.347783612996864
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 41,
+      "step_time": 22.78021706399886
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 42,
+      "step_time": 19.530366815997695
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 43,
+      "step_time": 19.35092342599819
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 44,
+      "step_time": 19.47554490200855
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 45,
+      "step_time": 22.798208642001555
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 46,
+      "step_time": 19.88411584899586
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 47,
+      "step_time": 19.48703931599448
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 48,
+      "step_time": 22.090118679989246
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 49,
+      "step_time": 19.470153064998158
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 50,
+      "step_time": 22.60661829500168
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 51,
+      "step_time": 22.327632517990423
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 52,
+      "step_time": 19.20923549200961
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 53,
+      "step_time": 19.398160734999692
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 54,
+      "step_time": 19.338012945008813
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 55,
+      "step_time": 20.151991571001417
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 56,
+      "step_time": 22.507306526997127
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 57,
+      "step_time": 19.39536341799976
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 58,
+      "step_time": 19.44620426499023
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 59,
+      "step_time": 22.402232911990723
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 60,
+      "step_time": 19.969688828998187
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 61,
+      "step_time": 19.51650980200793
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 62,
+      "step_time": 21.935334763016726
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 63,
+      "step_time": 22.139962298009777
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 64,
+      "step_time": 21.979154282984382
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 65,
+      "step_time": 22.214402237004833
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 66,
+      "step_time": 19.304359686997486
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 67,
+      "step_time": 19.36013725100929
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 68,
+      "step_time": 21.965071903985518
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 69,
+      "step_time": 23.3430329200055
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 70,
+      "step_time": 19.697308761002205
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 71,
+      "step_time": 19.443207848002203
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 72,
+      "step_time": 20.01639660699584
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 73,
+      "step_time": 23.112452601002587
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 74,
+      "step_time": 23.19768616399233
     },
     {
       "clip_ratio/high_max": 0.0,
       "rewards/rollout_reward_func/mean": 0.0,
       "rewards/rollout_reward_func/std": 0.0,
       "step": 75,
+      "step_time": 19.854602511004487
     }
   ],
   "logging_steps": 1.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8d5567b1de128707b3851170b5e2c2ad0a2a8c83b32d343f3af280646938660
 size 7889

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1c9d78e6601bc52704e4c410160ac3431adbbc8e01e0bcc154083b11a67105e
 size 7889