koreankiwi99 commited on Jun 5, 2025

Commit

1de6541

verified ·

1 Parent(s): 524c300

Upload folder using huggingface_hub

Browse files

Files changed (27) hide show

.gitattributes +2 -0
added_tokens.json +28 -0
checkpoint-1350/added_tokens.json +28 -0
checkpoint-1350/config.json +30 -0
checkpoint-1350/generation_config.json +6 -0
checkpoint-1350/merges.txt +0 -0
checkpoint-1350/model.safetensors +3 -0
checkpoint-1350/optimizer.pt +3 -0
checkpoint-1350/rng_state.pth +3 -0
checkpoint-1350/scaler.pt +3 -0
checkpoint-1350/scheduler.pt +3 -0
checkpoint-1350/special_tokens_map.json +25 -0
checkpoint-1350/tokenizer.json +3 -0
checkpoint-1350/tokenizer_config.json +240 -0
checkpoint-1350/trainer_state.json +2059 -0
checkpoint-1350/training_args.bin +3 -0
checkpoint-1350/vocab.json +0 -0
config.json +30 -0
dpo_config.json +18 -0
generation_config.json +6 -0
merges.txt +0 -0
model.safetensors +3 -0
runs/Jun05_14-17-48_47dafa9566a9/events.out.tfevents.1749133094.47dafa9566a9.1112.0 +3 -0
special_tokens_map.json +25 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-1350/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-1350/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-1350/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.3",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

checkpoint-1350/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.52.3"
+}

checkpoint-1350/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1350/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a793c47676550a51ebca3f46d38c9caf6f35ccebbc241c469e660d591a568bc0
+size 2384234968

checkpoint-1350/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:337a963dbd5ae1571ab463f145ea25d41b3736353cde0dfc162c5a3ae3185370
+size 4768662910

checkpoint-1350/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1350/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67b478be7422409187c8570cd62ff2d6c1f23d07dbe65a32454f0d210b437c34
+size 988

checkpoint-1350/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd836cfabec29ee2868162191588ec230736f86630fa4f89c3fb14d0bf6fcc3
+size 1064

checkpoint-1350/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>"
+}

checkpoint-1350/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

checkpoint-1350/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-1350/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2059 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007410151908114116,
+      "grad_norm": 62.764404296875,
+      "learning_rate": 4.974074074074075e-06,
+      "logits/chosen": -1.1614253520965576,
+      "logits/rejected": -1.096572995185852,
+      "logps/chosen": -74.20314025878906,
+      "logps/rejected": -76.51347351074219,
+      "loss": 0.6586,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.20016133785247803,
+      "rewards/margins": 0.0967479944229126,
+      "rewards/rejected": -0.2969093322753906,
+      "step": 10
+    },
+    {
+      "epoch": 0.014820303816228233,
+      "grad_norm": 79.51490020751953,
+      "learning_rate": 4.940740740740741e-06,
+      "logits/chosen": -1.5121562480926514,
+      "logits/rejected": -1.5445247888565063,
+      "logps/chosen": -85.74129486083984,
+      "logps/rejected": -93.8956527709961,
+      "loss": 0.6982,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -1.1762564182281494,
+      "rewards/margins": 0.23413367569446564,
+      "rewards/rejected": -1.4103901386260986,
+      "step": 20
+    },
+    {
+      "epoch": 0.02223045572434235,
+      "grad_norm": 53.0880012512207,
+      "learning_rate": 4.907407407407408e-06,
+      "logits/chosen": -1.6576855182647705,
+      "logits/rejected": -1.526139259338379,
+      "logps/chosen": -86.98616027832031,
+      "logps/rejected": -96.59648132324219,
+      "loss": 0.5807,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.2037205696105957,
+      "rewards/margins": 0.6045142412185669,
+      "rewards/rejected": -1.8082348108291626,
+      "step": 30
+    },
+    {
+      "epoch": 0.029640607632456465,
+      "grad_norm": 70.3161849975586,
+      "learning_rate": 4.870370370370371e-06,
+      "logits/chosen": -1.95455801486969,
+      "logits/rejected": -1.9040778875350952,
+      "logps/chosen": -86.21485900878906,
+      "logps/rejected": -90.55685424804688,
+      "loss": 0.7098,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.4126113653182983,
+      "rewards/margins": 0.5408647656440735,
+      "rewards/rejected": -1.9534763097763062,
+      "step": 40
+    },
+    {
+      "epoch": 0.037050759540570584,
+      "grad_norm": 86.17560577392578,
+      "learning_rate": 4.833333333333333e-06,
+      "logits/chosen": -1.7684093713760376,
+      "logits/rejected": -1.6274621486663818,
+      "logps/chosen": -97.04888916015625,
+      "logps/rejected": -95.69999694824219,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.532711386680603,
+      "rewards/margins": 0.37558549642562866,
+      "rewards/rejected": -1.9082969427108765,
+      "step": 50
+    },
+    {
+      "epoch": 0.0444609114486847,
+      "grad_norm": 64.5966796875,
+      "learning_rate": 4.800000000000001e-06,
+      "logits/chosen": -1.7628320455551147,
+      "logits/rejected": -1.7703828811645508,
+      "logps/chosen": -90.20537567138672,
+      "logps/rejected": -97.63748168945312,
+      "loss": 0.6683,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.3552738428115845,
+      "rewards/margins": 0.38691654801368713,
+      "rewards/rejected": -1.7421903610229492,
+      "step": 60
+    },
+    {
+      "epoch": 0.051871063356798815,
+      "grad_norm": 85.56486511230469,
+      "learning_rate": 4.762962962962963e-06,
+      "logits/chosen": -1.415287733078003,
+      "logits/rejected": -1.4015685319900513,
+      "logps/chosen": -91.52272033691406,
+      "logps/rejected": -100.97013092041016,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.1221778392791748,
+      "rewards/margins": 0.47898730635643005,
+      "rewards/rejected": -1.6011650562286377,
+      "step": 70
+    },
+    {
+      "epoch": 0.05928121526491293,
+      "grad_norm": 47.64088439941406,
+      "learning_rate": 4.725925925925926e-06,
+      "logits/chosen": -1.169304609298706,
+      "logits/rejected": -1.170772910118103,
+      "logps/chosen": -80.82547760009766,
+      "logps/rejected": -93.60406494140625,
+      "loss": 0.5665,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.8211374282836914,
+      "rewards/margins": 0.6154714822769165,
+      "rewards/rejected": -1.4366087913513184,
+      "step": 80
+    },
+    {
+      "epoch": 0.06669136717302705,
+      "grad_norm": 56.08961486816406,
+      "learning_rate": 4.6888888888888895e-06,
+      "logits/chosen": -1.2894606590270996,
+      "logits/rejected": -1.1954705715179443,
+      "logps/chosen": -84.70814514160156,
+      "logps/rejected": -93.02404022216797,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.0803619623184204,
+      "rewards/margins": 0.41851162910461426,
+      "rewards/rejected": -1.4988737106323242,
+      "step": 90
+    },
+    {
+      "epoch": 0.07410151908114117,
+      "grad_norm": 51.74102020263672,
+      "learning_rate": 4.651851851851853e-06,
+      "logits/chosen": -1.5028270483016968,
+      "logits/rejected": -1.3893922567367554,
+      "logps/chosen": -88.91434478759766,
+      "logps/rejected": -91.33464813232422,
+      "loss": 0.6143,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.174202561378479,
+      "rewards/margins": 0.4613053798675537,
+      "rewards/rejected": -1.6355078220367432,
+      "step": 100
+    },
+    {
+      "epoch": 0.08151167098925528,
+      "grad_norm": 50.91643524169922,
+      "learning_rate": 4.614814814814815e-06,
+      "logits/chosen": -1.6547952890396118,
+      "logits/rejected": -1.4582024812698364,
+      "logps/chosen": -90.47889709472656,
+      "logps/rejected": -104.38134765625,
+      "loss": 0.5684,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.2481868267059326,
+      "rewards/margins": 0.8181821703910828,
+      "rewards/rejected": -2.066368818283081,
+      "step": 110
+    },
+    {
+      "epoch": 0.0889218228973694,
+      "grad_norm": 94.5538330078125,
+      "learning_rate": 4.5777777777777785e-06,
+      "logits/chosen": -1.5053731203079224,
+      "logits/rejected": -1.3366467952728271,
+      "logps/chosen": -88.6790542602539,
+      "logps/rejected": -104.670166015625,
+      "loss": 0.5921,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.5242931842803955,
+      "rewards/margins": 0.9062445759773254,
+      "rewards/rejected": -2.430537700653076,
+      "step": 120
+    },
+    {
+      "epoch": 0.09633197480548351,
+      "grad_norm": 33.83641815185547,
+      "learning_rate": 4.540740740740741e-06,
+      "logits/chosen": -1.409499168395996,
+      "logits/rejected": -1.2274638414382935,
+      "logps/chosen": -85.58585357666016,
+      "logps/rejected": -108.52848815917969,
+      "loss": 0.4394,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.420691967010498,
+      "rewards/margins": 1.632450819015503,
+      "rewards/rejected": -3.053142786026001,
+      "step": 130
+    },
+    {
+      "epoch": 0.10374212671359763,
+      "grad_norm": 220.59970092773438,
+      "learning_rate": 4.503703703703704e-06,
+      "logits/chosen": -1.4208014011383057,
+      "logits/rejected": -1.2115123271942139,
+      "logps/chosen": -98.5712890625,
+      "logps/rejected": -114.5568618774414,
+      "loss": 0.5026,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.161109209060669,
+      "rewards/margins": 1.499983787536621,
+      "rewards/rejected": -3.661093235015869,
+      "step": 140
+    },
+    {
+      "epoch": 0.11115227862171174,
+      "grad_norm": 53.83354949951172,
+      "learning_rate": 4.4666666666666665e-06,
+      "logits/chosen": -1.5498363971710205,
+      "logits/rejected": -1.485797643661499,
+      "logps/chosen": -97.19245147705078,
+      "logps/rejected": -110.35697174072266,
+      "loss": 0.5838,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.9847490787506104,
+      "rewards/margins": 1.1178936958312988,
+      "rewards/rejected": -3.102642774581909,
+      "step": 150
+    },
+    {
+      "epoch": 0.11856243052982586,
+      "grad_norm": 89.90550231933594,
+      "learning_rate": 4.42962962962963e-06,
+      "logits/chosen": -1.5130503177642822,
+      "logits/rejected": -1.3890920877456665,
+      "logps/chosen": -93.79810333251953,
+      "logps/rejected": -108.19990539550781,
+      "loss": 0.6064,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.9345242977142334,
+      "rewards/margins": 1.380746841430664,
+      "rewards/rejected": -3.3152713775634766,
+      "step": 160
+    },
+    {
+      "epoch": 0.12597258243794,
+      "grad_norm": 52.394100189208984,
+      "learning_rate": 4.392592592592593e-06,
+      "logits/chosen": -1.5120335817337036,
+      "logits/rejected": -1.4776674509048462,
+      "logps/chosen": -93.30475616455078,
+      "logps/rejected": -110.5815200805664,
+      "loss": 0.5675,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.8305046558380127,
+      "rewards/margins": 1.1410784721374512,
+      "rewards/rejected": -2.9715828895568848,
+      "step": 170
+    },
+    {
+      "epoch": 0.1333827343460541,
+      "grad_norm": 55.45066833496094,
+      "learning_rate": 4.3555555555555555e-06,
+      "logits/chosen": -1.941173791885376,
+      "logits/rejected": -1.788526177406311,
+      "logps/chosen": -86.53892517089844,
+      "logps/rejected": -108.03669738769531,
+      "loss": 0.4828,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.8137779235839844,
+      "rewards/margins": 1.234937310218811,
+      "rewards/rejected": -3.048715114593506,
+      "step": 180
+    },
+    {
+      "epoch": 0.14079288625416822,
+      "grad_norm": 50.05571746826172,
+      "learning_rate": 4.318518518518519e-06,
+      "logits/chosen": -1.8429396152496338,
+      "logits/rejected": -1.8329576253890991,
+      "logps/chosen": -94.84736633300781,
+      "logps/rejected": -114.12214660644531,
+      "loss": 0.5133,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.004016160964966,
+      "rewards/margins": 1.0727269649505615,
+      "rewards/rejected": -3.0767431259155273,
+      "step": 190
+    },
+    {
+      "epoch": 0.14820303816228234,
+      "grad_norm": 70.21109008789062,
+      "learning_rate": 4.281481481481482e-06,
+      "logits/chosen": -2.149946451187134,
+      "logits/rejected": -2.0653207302093506,
+      "logps/chosen": -96.63078308105469,
+      "logps/rejected": -110.8408432006836,
+      "loss": 0.5697,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -2.3063206672668457,
+      "rewards/margins": 0.9903339147567749,
+      "rewards/rejected": -3.296654462814331,
+      "step": 200
+    },
+    {
+      "epoch": 0.15561319007039645,
+      "grad_norm": 44.284324645996094,
+      "learning_rate": 4.244444444444445e-06,
+      "logits/chosen": -2.2816834449768066,
+      "logits/rejected": -2.0756924152374268,
+      "logps/chosen": -101.39938354492188,
+      "logps/rejected": -104.1975326538086,
+      "loss": 0.7565,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": -2.6701712608337402,
+      "rewards/margins": 0.539871096611023,
+      "rewards/rejected": -3.2100422382354736,
+      "step": 210
+    },
+    {
+      "epoch": 0.16302334197851057,
+      "grad_norm": 49.169559478759766,
+      "learning_rate": 4.207407407407408e-06,
+      "logits/chosen": -2.303546667098999,
+      "logits/rejected": -2.1084389686584473,
+      "logps/chosen": -93.49501037597656,
+      "logps/rejected": -111.30097961425781,
+      "loss": 0.5543,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.9729340076446533,
+      "rewards/margins": 1.0684603452682495,
+      "rewards/rejected": -3.0413944721221924,
+      "step": 220
+    },
+    {
+      "epoch": 0.17043349388662468,
+      "grad_norm": 47.69071578979492,
+      "learning_rate": 4.170370370370371e-06,
+      "logits/chosen": -2.608030319213867,
+      "logits/rejected": -2.3824543952941895,
+      "logps/chosen": -89.42241668701172,
+      "logps/rejected": -109.88175964355469,
+      "loss": 0.5986,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.9395774602890015,
+      "rewards/margins": 0.9270322918891907,
+      "rewards/rejected": -2.866609573364258,
+      "step": 230
+    },
+    {
+      "epoch": 0.1778436457947388,
+      "grad_norm": 51.891334533691406,
+      "learning_rate": 4.133333333333333e-06,
+      "logits/chosen": -2.294018268585205,
+      "logits/rejected": -2.186135768890381,
+      "logps/chosen": -91.37318420410156,
+      "logps/rejected": -103.55364990234375,
+      "loss": 0.5908,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.9577686786651611,
+      "rewards/margins": 0.8284266591072083,
+      "rewards/rejected": -2.7861952781677246,
+      "step": 240
+    },
+    {
+      "epoch": 0.1852537977028529,
+      "grad_norm": 60.76057434082031,
+      "learning_rate": 4.0962962962962965e-06,
+      "logits/chosen": -2.3174843788146973,
+      "logits/rejected": -2.1223363876342773,
+      "logps/chosen": -94.4203109741211,
+      "logps/rejected": -108.79350280761719,
+      "loss": 0.5691,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.9872305393218994,
+      "rewards/margins": 1.057706356048584,
+      "rewards/rejected": -3.0449366569519043,
+      "step": 250
+    },
+    {
+      "epoch": 0.19266394961096703,
+      "grad_norm": 63.53352737426758,
+      "learning_rate": 4.05925925925926e-06,
+      "logits/chosen": -2.0859274864196777,
+      "logits/rejected": -1.9589965343475342,
+      "logps/chosen": -94.96440124511719,
+      "logps/rejected": -102.25624084472656,
+      "loss": 0.7933,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.9980733394622803,
+      "rewards/margins": 0.4961894154548645,
+      "rewards/rejected": -2.4942626953125,
+      "step": 260
+    },
+    {
+      "epoch": 0.20007410151908114,
+      "grad_norm": 97.90867614746094,
+      "learning_rate": 4.022222222222222e-06,
+      "logits/chosen": -1.9325847625732422,
+      "logits/rejected": -1.7728859186172485,
+      "logps/chosen": -94.22940826416016,
+      "logps/rejected": -105.72850036621094,
+      "loss": 0.5711,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.8600021600723267,
+      "rewards/margins": 0.9546739459037781,
+      "rewards/rejected": -2.81467604637146,
+      "step": 270
+    },
+    {
+      "epoch": 0.20748425342719526,
+      "grad_norm": 50.39332962036133,
+      "learning_rate": 3.9851851851851855e-06,
+      "logits/chosen": -1.6392498016357422,
+      "logits/rejected": -1.746097207069397,
+      "logps/chosen": -90.52095794677734,
+      "logps/rejected": -107.78398132324219,
+      "loss": 0.4994,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.6299854516983032,
+      "rewards/margins": 1.126053810119629,
+      "rewards/rejected": -2.7560391426086426,
+      "step": 280
+    },
+    {
+      "epoch": 0.21489440533530937,
+      "grad_norm": 82.5980453491211,
+      "learning_rate": 3.948148148148149e-06,
+      "logits/chosen": -1.9976590871810913,
+      "logits/rejected": -1.591271996498108,
+      "logps/chosen": -97.7765121459961,
+      "logps/rejected": -106.0452880859375,
+      "loss": 0.5625,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.6871846914291382,
+      "rewards/margins": 1.2763103246688843,
+      "rewards/rejected": -2.9634947776794434,
+      "step": 290
+    },
+    {
+      "epoch": 0.2223045572434235,
+      "grad_norm": 47.00569152832031,
+      "learning_rate": 3.911111111111112e-06,
+      "logits/chosen": -1.844430923461914,
+      "logits/rejected": -1.5602703094482422,
+      "logps/chosen": -95.04554748535156,
+      "logps/rejected": -110.90150451660156,
+      "loss": 0.5173,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.7995688915252686,
+      "rewards/margins": 1.4488320350646973,
+      "rewards/rejected": -3.248400926589966,
+      "step": 300
+    },
+    {
+      "epoch": 0.2297147091515376,
+      "grad_norm": 80.46615600585938,
+      "learning_rate": 3.874074074074074e-06,
+      "logits/chosen": -1.9769401550292969,
+      "logits/rejected": -1.816585898399353,
+      "logps/chosen": -99.07120513916016,
+      "logps/rejected": -114.0129623413086,
+      "loss": 0.5575,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.19231915473938,
+      "rewards/margins": 1.2036749124526978,
+      "rewards/rejected": -3.395993709564209,
+      "step": 310
+    },
+    {
+      "epoch": 0.23712486105965172,
+      "grad_norm": 59.91643142700195,
+      "learning_rate": 3.837037037037038e-06,
+      "logits/chosen": -2.00789213180542,
+      "logits/rejected": -1.9294627904891968,
+      "logps/chosen": -100.81642150878906,
+      "logps/rejected": -114.23243713378906,
+      "loss": 0.6409,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.405135154724121,
+      "rewards/margins": 0.944028377532959,
+      "rewards/rejected": -3.34916353225708,
+      "step": 320
+    },
+    {
+      "epoch": 0.24453501296776584,
+      "grad_norm": 71.39558410644531,
+      "learning_rate": 3.8000000000000005e-06,
+      "logits/chosen": -2.077759265899658,
+      "logits/rejected": -1.8107578754425049,
+      "logps/chosen": -99.47129821777344,
+      "logps/rejected": -104.8876953125,
+      "loss": 0.6597,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -2.003695011138916,
+      "rewards/margins": 0.9091768264770508,
+      "rewards/rejected": -2.912871837615967,
+      "step": 330
+    },
+    {
+      "epoch": 0.25194516487588,
+      "grad_norm": 37.14337921142578,
+      "learning_rate": 3.7629629629629633e-06,
+      "logits/chosen": -2.1400954723358154,
+      "logits/rejected": -2.0752546787261963,
+      "logps/chosen": -97.14881134033203,
+      "logps/rejected": -105.8427505493164,
+      "loss": 0.6113,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.9141082763671875,
+      "rewards/margins": 0.7792128324508667,
+      "rewards/rejected": -2.6933212280273438,
+      "step": 340
+    },
+    {
+      "epoch": 0.2593553167839941,
+      "grad_norm": 56.138423919677734,
+      "learning_rate": 3.725925925925926e-06,
+      "logits/chosen": -2.091094970703125,
+      "logits/rejected": -2.0105533599853516,
+      "logps/chosen": -92.09162139892578,
+      "logps/rejected": -110.2835922241211,
+      "loss": 0.492,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.6331777572631836,
+      "rewards/margins": 1.2891775369644165,
+      "rewards/rejected": -2.9223551750183105,
+      "step": 350
+    },
+    {
+      "epoch": 0.2667654686921082,
+      "grad_norm": 52.79886245727539,
+      "learning_rate": 3.688888888888889e-06,
+      "logits/chosen": -2.2325026988983154,
+      "logits/rejected": -2.1436426639556885,
+      "logps/chosen": -89.82434844970703,
+      "logps/rejected": -112.33735656738281,
+      "loss": 0.4911,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5006159543991089,
+      "rewards/margins": 1.1897337436676025,
+      "rewards/rejected": -2.69035005569458,
+      "step": 360
+    },
+    {
+      "epoch": 0.2741756206002223,
+      "grad_norm": 150.0937042236328,
+      "learning_rate": 3.651851851851852e-06,
+      "logits/chosen": -1.8895237445831299,
+      "logits/rejected": -1.8900665044784546,
+      "logps/chosen": -103.93204498291016,
+      "logps/rejected": -112.97098541259766,
+      "loss": 0.5877,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.1075615882873535,
+      "rewards/margins": 1.1100621223449707,
+      "rewards/rejected": -3.2176239490509033,
+      "step": 370
+    },
+    {
+      "epoch": 0.28158577250833644,
+      "grad_norm": 42.55241012573242,
+      "learning_rate": 3.614814814814815e-06,
+      "logits/chosen": -1.945433259010315,
+      "logits/rejected": -1.7756521701812744,
+      "logps/chosen": -106.47743225097656,
+      "logps/rejected": -114.155517578125,
+      "loss": 0.6501,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.3606436252593994,
+      "rewards/margins": 1.0331517457962036,
+      "rewards/rejected": -3.3937950134277344,
+      "step": 380
+    },
+    {
+      "epoch": 0.28899592441645056,
+      "grad_norm": 52.49542236328125,
+      "learning_rate": 3.577777777777778e-06,
+      "logits/chosen": -1.8807388544082642,
+      "logits/rejected": -1.8252395391464233,
+      "logps/chosen": -102.06422424316406,
+      "logps/rejected": -112.83709716796875,
+      "loss": 0.6055,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.23865008354187,
+      "rewards/margins": 0.9633029103279114,
+      "rewards/rejected": -3.201953172683716,
+      "step": 390
+    },
+    {
+      "epoch": 0.29640607632456467,
+      "grad_norm": 88.17601013183594,
+      "learning_rate": 3.540740740740741e-06,
+      "logits/chosen": -1.6389392614364624,
+      "logits/rejected": -1.5933473110198975,
+      "logps/chosen": -99.57685852050781,
+      "logps/rejected": -115.68553161621094,
+      "loss": 0.5417,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.9246084690093994,
+      "rewards/margins": 1.4971764087677002,
+      "rewards/rejected": -3.4217846393585205,
+      "step": 400
+    },
+    {
+      "epoch": 0.3038162282326788,
+      "grad_norm": 62.808006286621094,
+      "learning_rate": 3.503703703703704e-06,
+      "logits/chosen": -1.5727903842926025,
+      "logits/rejected": -1.5283151865005493,
+      "logps/chosen": -93.6846694946289,
+      "logps/rejected": -106.69166564941406,
+      "loss": 0.5396,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.084920883178711,
+      "rewards/margins": 1.2174980640411377,
+      "rewards/rejected": -3.3024184703826904,
+      "step": 410
+    },
+    {
+      "epoch": 0.3112263801407929,
+      "grad_norm": 29.901016235351562,
+      "learning_rate": 3.4666666666666672e-06,
+      "logits/chosen": -1.862898826599121,
+      "logits/rejected": -1.6489702463150024,
+      "logps/chosen": -97.56269836425781,
+      "logps/rejected": -110.67304992675781,
+      "loss": 0.5257,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.035705089569092,
+      "rewards/margins": 1.2200233936309814,
+      "rewards/rejected": -3.255728244781494,
+      "step": 420
+    },
+    {
+      "epoch": 0.318636532048907,
+      "grad_norm": 44.00906753540039,
+      "learning_rate": 3.42962962962963e-06,
+      "logits/chosen": -1.9901949167251587,
+      "logits/rejected": -1.7650057077407837,
+      "logps/chosen": -95.73258209228516,
+      "logps/rejected": -118.86299133300781,
+      "loss": 0.4368,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.874515175819397,
+      "rewards/margins": 1.841843605041504,
+      "rewards/rejected": -3.7163589000701904,
+      "step": 430
+    },
+    {
+      "epoch": 0.32604668395702113,
+      "grad_norm": 124.45765686035156,
+      "learning_rate": 3.392592592592593e-06,
+      "logits/chosen": -1.9858062267303467,
+      "logits/rejected": -1.8073575496673584,
+      "logps/chosen": -106.0125732421875,
+      "logps/rejected": -122.56363677978516,
+      "loss": 0.5898,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.860097646713257,
+      "rewards/margins": 1.184191346168518,
+      "rewards/rejected": -4.044289588928223,
+      "step": 440
+    },
+    {
+      "epoch": 0.33345683586513525,
+      "grad_norm": 156.9593963623047,
+      "learning_rate": 3.3555555555555557e-06,
+      "logits/chosen": -1.7876373529434204,
+      "logits/rejected": -1.6721996068954468,
+      "logps/chosen": -106.1432113647461,
+      "logps/rejected": -121.39786529541016,
+      "loss": 0.5335,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.1309943199157715,
+      "rewards/margins": 1.0686304569244385,
+      "rewards/rejected": -4.199625015258789,
+      "step": 450
+    },
+    {
+      "epoch": 0.34086698777324936,
+      "grad_norm": 91.00648498535156,
+      "learning_rate": 3.3185185185185185e-06,
+      "logits/chosen": -2.0905487537384033,
+      "logits/rejected": -2.0243828296661377,
+      "logps/chosen": -99.6212387084961,
+      "logps/rejected": -112.38456726074219,
+      "loss": 0.4929,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.6742300987243652,
+      "rewards/margins": 1.208742380142212,
+      "rewards/rejected": -3.882972240447998,
+      "step": 460
+    },
+    {
+      "epoch": 0.3482771396813635,
+      "grad_norm": 73.95698547363281,
+      "learning_rate": 3.281481481481482e-06,
+      "logits/chosen": -2.102916717529297,
+      "logits/rejected": -1.9817787408828735,
+      "logps/chosen": -107.4316177368164,
+      "logps/rejected": -120.3554916381836,
+      "loss": 0.607,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -3.0798966884613037,
+      "rewards/margins": 1.1342341899871826,
+      "rewards/rejected": -4.2141313552856445,
+      "step": 470
+    },
+    {
+      "epoch": 0.3556872915894776,
+      "grad_norm": 115.34271240234375,
+      "learning_rate": 3.2444444444444446e-06,
+      "logits/chosen": -1.920265793800354,
+      "logits/rejected": -1.776262879371643,
+      "logps/chosen": -107.17350006103516,
+      "logps/rejected": -119.41255950927734,
+      "loss": 0.5724,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.024296283721924,
+      "rewards/margins": 1.301172137260437,
+      "rewards/rejected": -4.325467586517334,
+      "step": 480
+    },
+    {
+      "epoch": 0.3630974434975917,
+      "grad_norm": 124.22569274902344,
+      "learning_rate": 3.2074074074074075e-06,
+      "logits/chosen": -2.066603660583496,
+      "logits/rejected": -1.9234092235565186,
+      "logps/chosen": -107.19173431396484,
+      "logps/rejected": -125.5118637084961,
+      "loss": 0.5957,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -3.1629674434661865,
+      "rewards/margins": 1.20828115940094,
+      "rewards/rejected": -4.371248722076416,
+      "step": 490
+    },
+    {
+      "epoch": 0.3705075954057058,
+      "grad_norm": 93.52369689941406,
+      "learning_rate": 3.1703703703703707e-06,
+      "logits/chosen": -2.049516201019287,
+      "logits/rejected": -1.80709707736969,
+      "logps/chosen": -108.04731750488281,
+      "logps/rejected": -131.86807250976562,
+      "loss": 0.4991,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.871161699295044,
+      "rewards/margins": 1.387619972229004,
+      "rewards/rejected": -4.258781909942627,
+      "step": 500
+    },
+    {
+      "epoch": 0.37791774731381994,
+      "grad_norm": 55.953941345214844,
+      "learning_rate": 3.133333333333334e-06,
+      "logits/chosen": -2.3617918491363525,
+      "logits/rejected": -2.0952062606811523,
+      "logps/chosen": -95.71025085449219,
+      "logps/rejected": -117.8790512084961,
+      "loss": 0.4238,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.4553141593933105,
+      "rewards/margins": 1.845973253250122,
+      "rewards/rejected": -4.301287651062012,
+      "step": 510
+    },
+    {
+      "epoch": 0.38532789922193406,
+      "grad_norm": 87.4388427734375,
+      "learning_rate": 3.096296296296297e-06,
+      "logits/chosen": -2.3576157093048096,
+      "logits/rejected": -2.3086090087890625,
+      "logps/chosen": -103.87492370605469,
+      "logps/rejected": -129.99880981445312,
+      "loss": 0.4485,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.7980117797851562,
+      "rewards/margins": 1.933409333229065,
+      "rewards/rejected": -4.731420993804932,
+      "step": 520
+    },
+    {
+      "epoch": 0.39273805113004817,
+      "grad_norm": 139.21774291992188,
+      "learning_rate": 3.0592592592592596e-06,
+      "logits/chosen": -2.3830113410949707,
+      "logits/rejected": -2.236015796661377,
+      "logps/chosen": -105.96150970458984,
+      "logps/rejected": -123.8498306274414,
+      "loss": 0.4772,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.7964818477630615,
+      "rewards/margins": 1.444065809249878,
+      "rewards/rejected": -4.2405476570129395,
+      "step": 530
+    },
+    {
+      "epoch": 0.4001482030381623,
+      "grad_norm": 60.24081802368164,
+      "learning_rate": 3.0222222222222225e-06,
+      "logits/chosen": -2.510646104812622,
+      "logits/rejected": -2.3236303329467773,
+      "logps/chosen": -106.36656188964844,
+      "logps/rejected": -126.50679016113281,
+      "loss": 0.5079,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -3.144716739654541,
+      "rewards/margins": 1.5049692392349243,
+      "rewards/rejected": -4.649685859680176,
+      "step": 540
+    },
+    {
+      "epoch": 0.4075583549462764,
+      "grad_norm": 44.708290100097656,
+      "learning_rate": 2.9851851851851853e-06,
+      "logits/chosen": -2.6934173107147217,
+      "logits/rejected": -2.5574169158935547,
+      "logps/chosen": -106.81391906738281,
+      "logps/rejected": -124.56950378417969,
+      "loss": 0.546,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.2360634803771973,
+      "rewards/margins": 1.5249487161636353,
+      "rewards/rejected": -4.761012077331543,
+      "step": 550
+    },
+    {
+      "epoch": 0.4149685068543905,
+      "grad_norm": 100.06108856201172,
+      "learning_rate": 2.948148148148148e-06,
+      "logits/chosen": -2.540220260620117,
+      "logits/rejected": -2.5645575523376465,
+      "logps/chosen": -105.29388427734375,
+      "logps/rejected": -127.27003479003906,
+      "loss": 0.4493,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.06217885017395,
+      "rewards/margins": 1.8223583698272705,
+      "rewards/rejected": -4.884537696838379,
+      "step": 560
+    },
+    {
+      "epoch": 0.42237865876250463,
+      "grad_norm": 68.57003784179688,
+      "learning_rate": 2.9111111111111114e-06,
+      "logits/chosen": -2.6107475757598877,
+      "logits/rejected": -2.4408977031707764,
+      "logps/chosen": -102.4161605834961,
+      "logps/rejected": -123.5961685180664,
+      "loss": 0.4529,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.7161800861358643,
+      "rewards/margins": 1.7760255336761475,
+      "rewards/rejected": -4.492205619812012,
+      "step": 570
+    },
+    {
+      "epoch": 0.42978881067061875,
+      "grad_norm": 83.09320068359375,
+      "learning_rate": 2.874074074074074e-06,
+      "logits/chosen": -2.5648531913757324,
+      "logits/rejected": -2.4905104637145996,
+      "logps/chosen": -93.52774810791016,
+      "logps/rejected": -117.04872131347656,
+      "loss": 0.5508,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.38288950920105,
+      "rewards/margins": 1.4900834560394287,
+      "rewards/rejected": -3.8729729652404785,
+      "step": 580
+    },
+    {
+      "epoch": 0.43719896257873286,
+      "grad_norm": 114.40435791015625,
+      "learning_rate": 2.837037037037037e-06,
+      "logits/chosen": -2.6075551509857178,
+      "logits/rejected": -2.3488199710845947,
+      "logps/chosen": -108.3016128540039,
+      "logps/rejected": -127.59623718261719,
+      "loss": 0.532,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -3.0478949546813965,
+      "rewards/margins": 1.5749890804290771,
+      "rewards/rejected": -4.6228837966918945,
+      "step": 590
+    },
+    {
+      "epoch": 0.444609114486847,
+      "grad_norm": 48.23006057739258,
+      "learning_rate": 2.8000000000000003e-06,
+      "logits/chosen": -2.520981788635254,
+      "logits/rejected": -2.405494213104248,
+      "logps/chosen": -111.14179992675781,
+      "logps/rejected": -126.3864974975586,
+      "loss": 0.5698,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -3.072885036468506,
+      "rewards/margins": 1.396822214126587,
+      "rewards/rejected": -4.469707012176514,
+      "step": 600
+    },
+    {
+      "epoch": 0.4520192663949611,
+      "grad_norm": 52.764652252197266,
+      "learning_rate": 2.7629629629629636e-06,
+      "logits/chosen": -2.569906711578369,
+      "logits/rejected": -2.4188952445983887,
+      "logps/chosen": -109.3153305053711,
+      "logps/rejected": -122.66573333740234,
+      "loss": 0.6618,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.8832812309265137,
+      "rewards/margins": 1.2652729749679565,
+      "rewards/rejected": -4.14855432510376,
+      "step": 610
+    },
+    {
+      "epoch": 0.4594294183030752,
+      "grad_norm": 56.053504943847656,
+      "learning_rate": 2.7259259259259264e-06,
+      "logits/chosen": -2.3336873054504395,
+      "logits/rejected": -2.220808267593384,
+      "logps/chosen": -97.85954284667969,
+      "logps/rejected": -117.603759765625,
+      "loss": 0.5057,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.430934190750122,
+      "rewards/margins": 1.6638364791870117,
+      "rewards/rejected": -4.094770908355713,
+      "step": 620
+    },
+    {
+      "epoch": 0.4668395702111893,
+      "grad_norm": 55.09632110595703,
+      "learning_rate": 2.6888888888888892e-06,
+      "logits/chosen": -2.3458609580993652,
+      "logits/rejected": -2.090057611465454,
+      "logps/chosen": -99.01778411865234,
+      "logps/rejected": -116.4244155883789,
+      "loss": 0.5289,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.8742129802703857,
+      "rewards/margins": 1.1919338703155518,
+      "rewards/rejected": -4.066147327423096,
+      "step": 630
+    },
+    {
+      "epoch": 0.47424972211930344,
+      "grad_norm": 46.486846923828125,
+      "learning_rate": 2.651851851851852e-06,
+      "logits/chosen": -2.6187617778778076,
+      "logits/rejected": -2.299057722091675,
+      "logps/chosen": -106.09327697753906,
+      "logps/rejected": -121.18121337890625,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.976048469543457,
+      "rewards/margins": 1.5380513668060303,
+      "rewards/rejected": -4.514100074768066,
+      "step": 640
+    },
+    {
+      "epoch": 0.48165987402741756,
+      "grad_norm": 66.68344116210938,
+      "learning_rate": 2.614814814814815e-06,
+      "logits/chosen": -2.4219138622283936,
+      "logits/rejected": -2.2749531269073486,
+      "logps/chosen": -101.74494934082031,
+      "logps/rejected": -117.6960678100586,
+      "loss": 0.548,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -3.033750534057617,
+      "rewards/margins": 1.507805347442627,
+      "rewards/rejected": -4.541555881500244,
+      "step": 650
+    },
+    {
+      "epoch": 0.48907002593553167,
+      "grad_norm": 63.8469123840332,
+      "learning_rate": 2.577777777777778e-06,
+      "logits/chosen": -2.4797866344451904,
+      "logits/rejected": -2.3341572284698486,
+      "logps/chosen": -106.57930755615234,
+      "logps/rejected": -124.18519592285156,
+      "loss": 0.5449,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.2545254230499268,
+      "rewards/margins": 1.5712066888809204,
+      "rewards/rejected": -4.825732231140137,
+      "step": 660
+    },
+    {
+      "epoch": 0.4964801778436458,
+      "grad_norm": 36.812870025634766,
+      "learning_rate": 2.540740740740741e-06,
+      "logits/chosen": -2.4504082202911377,
+      "logits/rejected": -2.317399501800537,
+      "logps/chosen": -101.97000122070312,
+      "logps/rejected": -122.93861389160156,
+      "loss": 0.4462,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.8019375801086426,
+      "rewards/margins": 1.7157955169677734,
+      "rewards/rejected": -4.517733573913574,
+      "step": 670
+    },
+    {
+      "epoch": 0.50389032975176,
+      "grad_norm": 87.01313781738281,
+      "learning_rate": 2.503703703703704e-06,
+      "logits/chosen": -2.5619702339172363,
+      "logits/rejected": -2.2939906120300293,
+      "logps/chosen": -104.42756652832031,
+      "logps/rejected": -122.24269104003906,
+      "loss": 0.5498,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.752537250518799,
+      "rewards/margins": 1.4413821697235107,
+      "rewards/rejected": -4.1939191818237305,
+      "step": 680
+    },
+    {
+      "epoch": 0.5113004816598741,
+      "grad_norm": 33.50537872314453,
+      "learning_rate": 2.466666666666667e-06,
+      "logits/chosen": -2.397477626800537,
+      "logits/rejected": -2.298727035522461,
+      "logps/chosen": -101.79267883300781,
+      "logps/rejected": -121.082763671875,
+      "loss": 0.4498,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.776843309402466,
+      "rewards/margins": 1.5951542854309082,
+      "rewards/rejected": -4.371997833251953,
+      "step": 690
+    },
+    {
+      "epoch": 0.5187106335679882,
+      "grad_norm": 28.241764068603516,
+      "learning_rate": 2.42962962962963e-06,
+      "logits/chosen": -2.191267251968384,
+      "logits/rejected": -2.1144583225250244,
+      "logps/chosen": -105.1906967163086,
+      "logps/rejected": -119.65342712402344,
+      "loss": 0.3694,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.89141583442688,
+      "rewards/margins": 1.8759052753448486,
+      "rewards/rejected": -4.7673211097717285,
+      "step": 700
+    },
+    {
+      "epoch": 0.5261207854761023,
+      "grad_norm": 93.26385498046875,
+      "learning_rate": 2.3925925925925927e-06,
+      "logits/chosen": -2.700456142425537,
+      "logits/rejected": -2.5114896297454834,
+      "logps/chosen": -102.400146484375,
+      "logps/rejected": -129.38079833984375,
+      "loss": 0.456,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.760223627090454,
+      "rewards/margins": 2.1241064071655273,
+      "rewards/rejected": -4.8843302726745605,
+      "step": 710
+    },
+    {
+      "epoch": 0.5335309373842164,
+      "grad_norm": 43.060646057128906,
+      "learning_rate": 2.3555555555555555e-06,
+      "logits/chosen": -2.715698719024658,
+      "logits/rejected": -2.641836643218994,
+      "logps/chosen": -111.295166015625,
+      "logps/rejected": -129.7608184814453,
+      "loss": 0.5273,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.2993626594543457,
+      "rewards/margins": 1.6410433053970337,
+      "rewards/rejected": -4.940405368804932,
+      "step": 720
+    },
+    {
+      "epoch": 0.5409410892923305,
+      "grad_norm": 92.00672912597656,
+      "learning_rate": 2.318518518518519e-06,
+      "logits/chosen": -2.390772819519043,
+      "logits/rejected": -2.2357537746429443,
+      "logps/chosen": -106.68476867675781,
+      "logps/rejected": -131.3654327392578,
+      "loss": 0.5709,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -3.0549259185791016,
+      "rewards/margins": 1.6485790014266968,
+      "rewards/rejected": -4.703505039215088,
+      "step": 730
+    },
+    {
+      "epoch": 0.5483512412004447,
+      "grad_norm": 57.26805114746094,
+      "learning_rate": 2.2814814814814816e-06,
+      "logits/chosen": -2.196866035461426,
+      "logits/rejected": -2.0569887161254883,
+      "logps/chosen": -100.42630004882812,
+      "logps/rejected": -125.41304779052734,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.8341736793518066,
+      "rewards/margins": 1.9348560571670532,
+      "rewards/rejected": -4.76902961730957,
+      "step": 740
+    },
+    {
+      "epoch": 0.5557613931085588,
+      "grad_norm": 58.62699508666992,
+      "learning_rate": 2.2444444444444445e-06,
+      "logits/chosen": -2.461791753768921,
+      "logits/rejected": -2.336097240447998,
+      "logps/chosen": -113.08296966552734,
+      "logps/rejected": -132.7778778076172,
+      "loss": 0.5236,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.270090103149414,
+      "rewards/margins": 1.6124324798583984,
+      "rewards/rejected": -4.882522106170654,
+      "step": 750
+    },
+    {
+      "epoch": 0.5631715450166729,
+      "grad_norm": 41.212913513183594,
+      "learning_rate": 2.2074074074074077e-06,
+      "logits/chosen": -2.4121994972229004,
+      "logits/rejected": -2.247474193572998,
+      "logps/chosen": -105.69578552246094,
+      "logps/rejected": -122.80550384521484,
+      "loss": 0.3995,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.9703726768493652,
+      "rewards/margins": 1.6150137186050415,
+      "rewards/rejected": -4.585386276245117,
+      "step": 760
+    },
+    {
+      "epoch": 0.570581696924787,
+      "grad_norm": 75.84191131591797,
+      "learning_rate": 2.1703703703703705e-06,
+      "logits/chosen": -2.296901226043701,
+      "logits/rejected": -2.2925124168395996,
+      "logps/chosen": -110.8564224243164,
+      "logps/rejected": -127.59207916259766,
+      "loss": 0.5596,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.3091530799865723,
+      "rewards/margins": 1.2775094509124756,
+      "rewards/rejected": -4.5866618156433105,
+      "step": 770
+    },
+    {
+      "epoch": 0.5779918488329011,
+      "grad_norm": 89.46887969970703,
+      "learning_rate": 2.133333333333334e-06,
+      "logits/chosen": -2.6353976726531982,
+      "logits/rejected": -2.512312173843384,
+      "logps/chosen": -102.060791015625,
+      "logps/rejected": -132.6158447265625,
+      "loss": 0.3622,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.7914113998413086,
+      "rewards/margins": 2.160378932952881,
+      "rewards/rejected": -4.951790809631348,
+      "step": 780
+    },
+    {
+      "epoch": 0.5854020007410152,
+      "grad_norm": 69.98067474365234,
+      "learning_rate": 2.0962962962962966e-06,
+      "logits/chosen": -2.48567533493042,
+      "logits/rejected": -2.188729763031006,
+      "logps/chosen": -97.02547454833984,
+      "logps/rejected": -121.714111328125,
+      "loss": 0.4915,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.587202548980713,
+      "rewards/margins": 1.8987194299697876,
+      "rewards/rejected": -4.485922336578369,
+      "step": 790
+    },
+    {
+      "epoch": 0.5928121526491293,
+      "grad_norm": 22.259716033935547,
+      "learning_rate": 2.0592592592592595e-06,
+      "logits/chosen": -2.56459641456604,
+      "logits/rejected": -2.396904945373535,
+      "logps/chosen": -99.90885925292969,
+      "logps/rejected": -127.66976165771484,
+      "loss": 0.3965,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.7819571495056152,
+      "rewards/margins": 1.9999752044677734,
+      "rewards/rejected": -4.781932830810547,
+      "step": 800
+    },
+    {
+      "epoch": 0.6002223045572435,
+      "grad_norm": 83.96212005615234,
+      "learning_rate": 2.0222222222222223e-06,
+      "logits/chosen": -2.694140672683716,
+      "logits/rejected": -2.4873809814453125,
+      "logps/chosen": -99.41667175292969,
+      "logps/rejected": -127.27046203613281,
+      "loss": 0.3876,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.891671657562256,
+      "rewards/margins": 2.2859904766082764,
+      "rewards/rejected": -5.177661895751953,
+      "step": 810
+    },
+    {
+      "epoch": 0.6076324564653576,
+      "grad_norm": 67.90824127197266,
+      "learning_rate": 1.985185185185185e-06,
+      "logits/chosen": -2.767648220062256,
+      "logits/rejected": -2.585026264190674,
+      "logps/chosen": -104.31745910644531,
+      "logps/rejected": -125.73681640625,
+      "loss": 0.5279,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.1707539558410645,
+      "rewards/margins": 1.6347720623016357,
+      "rewards/rejected": -4.8055267333984375,
+      "step": 820
+    },
+    {
+      "epoch": 0.6150426083734717,
+      "grad_norm": 33.568599700927734,
+      "learning_rate": 1.9481481481481484e-06,
+      "logits/chosen": -2.702396869659424,
+      "logits/rejected": -2.4589433670043945,
+      "logps/chosen": -103.00837707519531,
+      "logps/rejected": -135.2923583984375,
+      "loss": 0.3985,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -3.202925443649292,
+      "rewards/margins": 2.087952136993408,
+      "rewards/rejected": -5.290877342224121,
+      "step": 830
+    },
+    {
+      "epoch": 0.6224527602815858,
+      "grad_norm": 140.95526123046875,
+      "learning_rate": 1.9111111111111112e-06,
+      "logits/chosen": -2.784031629562378,
+      "logits/rejected": -2.869075298309326,
+      "logps/chosen": -113.4225845336914,
+      "logps/rejected": -129.70352172851562,
+      "loss": 0.5025,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.5999884605407715,
+      "rewards/margins": 1.6119463443756104,
+      "rewards/rejected": -5.211935520172119,
+      "step": 840
+    },
+    {
+      "epoch": 0.6298629121896999,
+      "grad_norm": 52.54026412963867,
+      "learning_rate": 1.8740740740740743e-06,
+      "logits/chosen": -2.8133158683776855,
+      "logits/rejected": -2.6122548580169678,
+      "logps/chosen": -111.7987289428711,
+      "logps/rejected": -136.263671875,
+      "loss": 0.4448,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.69873046875,
+      "rewards/margins": 1.8727216720581055,
+      "rewards/rejected": -5.5714521408081055,
+      "step": 850
+    },
+    {
+      "epoch": 0.637273064097814,
+      "grad_norm": 92.39305114746094,
+      "learning_rate": 1.8407407407407409e-06,
+      "logits/chosen": -2.6346824169158936,
+      "logits/rejected": -2.5525918006896973,
+      "logps/chosen": -126.9793930053711,
+      "logps/rejected": -136.64266967773438,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -4.109932899475098,
+      "rewards/margins": 1.4245363473892212,
+      "rewards/rejected": -5.534468650817871,
+      "step": 860
+    },
+    {
+      "epoch": 0.6446832160059282,
+      "grad_norm": 123.8089370727539,
+      "learning_rate": 1.803703703703704e-06,
+      "logits/chosen": -2.7528748512268066,
+      "logits/rejected": -2.5514931678771973,
+      "logps/chosen": -108.72850036621094,
+      "logps/rejected": -127.7916488647461,
+      "loss": 0.5106,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.318143367767334,
+      "rewards/margins": 2.0562808513641357,
+      "rewards/rejected": -5.374424934387207,
+      "step": 870
+    },
+    {
+      "epoch": 0.6520933679140423,
+      "grad_norm": 42.69985580444336,
+      "learning_rate": 1.7666666666666668e-06,
+      "logits/chosen": -2.861846923828125,
+      "logits/rejected": -2.5939736366271973,
+      "logps/chosen": -106.8058090209961,
+      "logps/rejected": -130.95132446289062,
+      "loss": 0.3698,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.020836353302002,
+      "rewards/margins": 2.2084438800811768,
+      "rewards/rejected": -5.2292799949646,
+      "step": 880
+    },
+    {
+      "epoch": 0.6595035198221564,
+      "grad_norm": 100.36827850341797,
+      "learning_rate": 1.7296296296296298e-06,
+      "logits/chosen": -2.8901448249816895,
+      "logits/rejected": -2.638826608657837,
+      "logps/chosen": -113.2393798828125,
+      "logps/rejected": -136.57003784179688,
+      "loss": 0.506,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.743712902069092,
+      "rewards/margins": 1.8884308338165283,
+      "rewards/rejected": -5.632143974304199,
+      "step": 890
+    },
+    {
+      "epoch": 0.6669136717302705,
+      "grad_norm": 47.63283157348633,
+      "learning_rate": 1.6925925925925926e-06,
+      "logits/chosen": -2.751713991165161,
+      "logits/rejected": -2.6139540672302246,
+      "logps/chosen": -117.19677734375,
+      "logps/rejected": -131.9976806640625,
+      "loss": 0.6344,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.642165422439575,
+      "rewards/margins": 1.7322568893432617,
+      "rewards/rejected": -5.374422550201416,
+      "step": 900
+    },
+    {
+      "epoch": 0.6743238236383846,
+      "grad_norm": 112.51361083984375,
+      "learning_rate": 1.6555555555555559e-06,
+      "logits/chosen": -2.636543035507202,
+      "logits/rejected": -2.5468497276306152,
+      "logps/chosen": -112.26319885253906,
+      "logps/rejected": -135.6024932861328,
+      "loss": 0.4688,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.398538589477539,
+      "rewards/margins": 1.8205482959747314,
+      "rewards/rejected": -5.21908712387085,
+      "step": 910
+    },
+    {
+      "epoch": 0.6817339755464987,
+      "grad_norm": 63.83774185180664,
+      "learning_rate": 1.6185185185185187e-06,
+      "logits/chosen": -2.567595958709717,
+      "logits/rejected": -2.4459292888641357,
+      "logps/chosen": -113.2123031616211,
+      "logps/rejected": -133.6845245361328,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.6509101390838623,
+      "rewards/margins": 1.547790765762329,
+      "rewards/rejected": -5.19870138168335,
+      "step": 920
+    },
+    {
+      "epoch": 0.6891441274546128,
+      "grad_norm": 97.52435302734375,
+      "learning_rate": 1.5814814814814816e-06,
+      "logits/chosen": -2.5026490688323975,
+      "logits/rejected": -2.3349032402038574,
+      "logps/chosen": -110.58065032958984,
+      "logps/rejected": -134.26712036132812,
+      "loss": 0.4725,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.394016981124878,
+      "rewards/margins": 1.8871221542358398,
+      "rewards/rejected": -5.281139373779297,
+      "step": 930
+    },
+    {
+      "epoch": 0.696554279362727,
+      "grad_norm": 44.30360412597656,
+      "learning_rate": 1.5444444444444446e-06,
+      "logits/chosen": -2.691323757171631,
+      "logits/rejected": -2.4929356575012207,
+      "logps/chosen": -98.93566131591797,
+      "logps/rejected": -121.6566162109375,
+      "loss": 0.3602,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.962592601776123,
+      "rewards/margins": 2.068859100341797,
+      "rewards/rejected": -5.03145170211792,
+      "step": 940
+    },
+    {
+      "epoch": 0.7039644312708411,
+      "grad_norm": 38.775630950927734,
+      "learning_rate": 1.5074074074074074e-06,
+      "logits/chosen": -2.431483745574951,
+      "logits/rejected": -2.3471839427948,
+      "logps/chosen": -107.6336441040039,
+      "logps/rejected": -129.42567443847656,
+      "loss": 0.4332,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -3.1802752017974854,
+      "rewards/margins": 1.8515145778656006,
+      "rewards/rejected": -5.031789779663086,
+      "step": 950
+    },
+    {
+      "epoch": 0.7113745831789552,
+      "grad_norm": 94.63509368896484,
+      "learning_rate": 1.4703703703703707e-06,
+      "logits/chosen": -2.6569230556488037,
+      "logits/rejected": -2.5298376083374023,
+      "logps/chosen": -112.77482604980469,
+      "logps/rejected": -136.20745849609375,
+      "loss": 0.5287,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.546157121658325,
+      "rewards/margins": 2.0040981769561768,
+      "rewards/rejected": -5.55025577545166,
+      "step": 960
+    },
+    {
+      "epoch": 0.7187847350870693,
+      "grad_norm": 63.06848907470703,
+      "learning_rate": 1.4333333333333335e-06,
+      "logits/chosen": -2.6780967712402344,
+      "logits/rejected": -2.4963746070861816,
+      "logps/chosen": -102.239990234375,
+      "logps/rejected": -125.75809478759766,
+      "loss": 0.558,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -3.2254154682159424,
+      "rewards/margins": 1.714345932006836,
+      "rewards/rejected": -4.939761161804199,
+      "step": 970
+    },
+    {
+      "epoch": 0.7261948869951834,
+      "grad_norm": 113.9366683959961,
+      "learning_rate": 1.3962962962962963e-06,
+      "logits/chosen": -2.5560450553894043,
+      "logits/rejected": -2.4831178188323975,
+      "logps/chosen": -114.14649963378906,
+      "logps/rejected": -129.1222381591797,
+      "loss": 0.6047,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -3.847761869430542,
+      "rewards/margins": 1.4522716999053955,
+      "rewards/rejected": -5.3000335693359375,
+      "step": 980
+    },
+    {
+      "epoch": 0.7336050389032975,
+      "grad_norm": 122.37875366210938,
+      "learning_rate": 1.3592592592592594e-06,
+      "logits/chosen": -2.778879165649414,
+      "logits/rejected": -2.591799736022949,
+      "logps/chosen": -103.28349304199219,
+      "logps/rejected": -119.67398834228516,
+      "loss": 0.4954,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.8379952907562256,
+      "rewards/margins": 1.7630186080932617,
+      "rewards/rejected": -4.601014137268066,
+      "step": 990
+    },
+    {
+      "epoch": 0.7410151908114117,
+      "grad_norm": 104.96907043457031,
+      "learning_rate": 1.3222222222222222e-06,
+      "logits/chosen": -2.5238616466522217,
+      "logits/rejected": -2.4784162044525146,
+      "logps/chosen": -107.37699890136719,
+      "logps/rejected": -130.21548461914062,
+      "loss": 0.5063,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.024723529815674,
+      "rewards/margins": 1.954242467880249,
+      "rewards/rejected": -4.978966236114502,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7484253427195258,
+      "grad_norm": 44.657108306884766,
+      "learning_rate": 1.2851851851851855e-06,
+      "logits/chosen": -2.546823024749756,
+      "logits/rejected": -2.4334805011749268,
+      "logps/chosen": -106.6165771484375,
+      "logps/rejected": -125.7170639038086,
+      "loss": 0.3697,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.4411277770996094,
+      "rewards/margins": 2.227128505706787,
+      "rewards/rejected": -4.668255805969238,
+      "step": 1010
+    },
+    {
+      "epoch": 0.7558354946276399,
+      "grad_norm": 90.46170806884766,
+      "learning_rate": 1.248148148148148e-06,
+      "logits/chosen": -2.828085422515869,
+      "logits/rejected": -2.6428349018096924,
+      "logps/chosen": -105.6900405883789,
+      "logps/rejected": -133.78445434570312,
+      "loss": 0.3561,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.77301025390625,
+      "rewards/margins": 2.5772953033447266,
+      "rewards/rejected": -5.350305080413818,
+      "step": 1020
+    },
+    {
+      "epoch": 0.763245646535754,
+      "grad_norm": 21.936511993408203,
+      "learning_rate": 1.2111111111111111e-06,
+      "logits/chosen": -2.6992528438568115,
+      "logits/rejected": -2.567366361618042,
+      "logps/chosen": -103.77992248535156,
+      "logps/rejected": -136.04214477539062,
+      "loss": 0.405,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.2632954120635986,
+      "rewards/margins": 2.4483699798583984,
+      "rewards/rejected": -5.711665630340576,
+      "step": 1030
+    },
+    {
+      "epoch": 0.7706557984438681,
+      "grad_norm": 32.31972122192383,
+      "learning_rate": 1.1740740740740742e-06,
+      "logits/chosen": -2.772641897201538,
+      "logits/rejected": -2.6311516761779785,
+      "logps/chosen": -104.34123229980469,
+      "logps/rejected": -128.68487548828125,
+      "loss": 0.5004,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.079659938812256,
+      "rewards/margins": 1.8224769830703735,
+      "rewards/rejected": -4.90213680267334,
+      "step": 1040
+    },
+    {
+      "epoch": 0.7780659503519822,
+      "grad_norm": 162.9198455810547,
+      "learning_rate": 1.1370370370370372e-06,
+      "logits/chosen": -2.8467555046081543,
+      "logits/rejected": -2.515394926071167,
+      "logps/chosen": -105.55623626708984,
+      "logps/rejected": -125.57078552246094,
+      "loss": 0.5177,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.2788283824920654,
+      "rewards/margins": 1.9488775730133057,
+      "rewards/rejected": -5.227705955505371,
+      "step": 1050
+    },
+    {
+      "epoch": 0.7854761022600963,
+      "grad_norm": 72.62833404541016,
+      "learning_rate": 1.1e-06,
+      "logits/chosen": -2.7466042041778564,
+      "logits/rejected": -2.6573309898376465,
+      "logps/chosen": -108.9305419921875,
+      "logps/rejected": -129.41574096679688,
+      "loss": 0.5488,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -3.1458160877227783,
+      "rewards/margins": 1.7604339122772217,
+      "rewards/rejected": -4.906250476837158,
+      "step": 1060
+    },
+    {
+      "epoch": 0.7928862541682105,
+      "grad_norm": 33.611995697021484,
+      "learning_rate": 1.062962962962963e-06,
+      "logits/chosen": -2.7340753078460693,
+      "logits/rejected": -2.536836862564087,
+      "logps/chosen": -108.49119567871094,
+      "logps/rejected": -133.3302764892578,
+      "loss": 0.4382,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.197749614715576,
+      "rewards/margins": 2.093479633331299,
+      "rewards/rejected": -5.291229724884033,
+      "step": 1070
+    },
+    {
+      "epoch": 0.8002964060763246,
+      "grad_norm": 74.17855834960938,
+      "learning_rate": 1.0259259259259261e-06,
+      "logits/chosen": -2.8403737545013428,
+      "logits/rejected": -2.6320414543151855,
+      "logps/chosen": -114.62956237792969,
+      "logps/rejected": -133.36578369140625,
+      "loss": 0.4072,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.09629487991333,
+      "rewards/margins": 2.1655564308166504,
+      "rewards/rejected": -5.2618513107299805,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8077065579844387,
+      "grad_norm": 54.3246955871582,
+      "learning_rate": 9.88888888888889e-07,
+      "logits/chosen": -2.557582139968872,
+      "logits/rejected": -2.426109552383423,
+      "logps/chosen": -110.915283203125,
+      "logps/rejected": -134.53126525878906,
+      "loss": 0.4985,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.3661487102508545,
+      "rewards/margins": 1.8312829732894897,
+      "rewards/rejected": -5.197432041168213,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8151167098925528,
+      "grad_norm": 33.4342041015625,
+      "learning_rate": 9.51851851851852e-07,
+      "logits/chosen": -2.843123197555542,
+      "logits/rejected": -2.759000301361084,
+      "logps/chosen": -112.1214828491211,
+      "logps/rejected": -135.30357360839844,
+      "loss": 0.4424,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -3.535928249359131,
+      "rewards/margins": 1.8440746068954468,
+      "rewards/rejected": -5.380003452301025,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8225268618006669,
+      "grad_norm": 61.59471130371094,
+      "learning_rate": 9.14814814814815e-07,
+      "logits/chosen": -2.5715582370758057,
+      "logits/rejected": -2.4673850536346436,
+      "logps/chosen": -109.1755142211914,
+      "logps/rejected": -132.7253875732422,
+      "loss": 0.5435,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.2600913047790527,
+      "rewards/margins": 2.2205255031585693,
+      "rewards/rejected": -5.480616569519043,
+      "step": 1110
+    },
+    {
+      "epoch": 0.829937013708781,
+      "grad_norm": 81.85456848144531,
+      "learning_rate": 8.777777777777778e-07,
+      "logits/chosen": -2.6088593006134033,
+      "logits/rejected": -2.4452264308929443,
+      "logps/chosen": -109.85011291503906,
+      "logps/rejected": -135.8500518798828,
+      "loss": 0.3276,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -3.3149032592773438,
+      "rewards/margins": 2.037301778793335,
+      "rewards/rejected": -5.3522047996521,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8373471656168952,
+      "grad_norm": 47.77298355102539,
+      "learning_rate": 8.407407407407408e-07,
+      "logits/chosen": -2.701817035675049,
+      "logits/rejected": -2.6270086765289307,
+      "logps/chosen": -108.1476058959961,
+      "logps/rejected": -127.43824768066406,
+      "loss": 0.5859,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.2532172203063965,
+      "rewards/margins": 1.7242540121078491,
+      "rewards/rejected": -4.977471351623535,
+      "step": 1130
+    },
+    {
+      "epoch": 0.8447573175250093,
+      "grad_norm": 70.82620239257812,
+      "learning_rate": 8.037037037037038e-07,
+      "logits/chosen": -2.738939046859741,
+      "logits/rejected": -2.635751247406006,
+      "logps/chosen": -101.56913757324219,
+      "logps/rejected": -134.12655639648438,
+      "loss": 0.3653,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.848381280899048,
+      "rewards/margins": 2.132460832595825,
+      "rewards/rejected": -4.980842590332031,
+      "step": 1140
+    },
+    {
+      "epoch": 0.8521674694331234,
+      "grad_norm": 44.759246826171875,
+      "learning_rate": 7.666666666666667e-07,
+      "logits/chosen": -2.4769434928894043,
+      "logits/rejected": -2.237217426300049,
+      "logps/chosen": -103.843994140625,
+      "logps/rejected": -129.95098876953125,
+      "loss": 0.3671,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.2238991260528564,
+      "rewards/margins": 2.1413819789886475,
+      "rewards/rejected": -5.365281105041504,
+      "step": 1150
+    },
+    {
+      "epoch": 0.8595776213412375,
+      "grad_norm": 82.56806182861328,
+      "learning_rate": 7.296296296296297e-07,
+      "logits/chosen": -2.6925208568573,
+      "logits/rejected": -2.4951748847961426,
+      "logps/chosen": -108.81231689453125,
+      "logps/rejected": -123.46539306640625,
+      "loss": 0.5316,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.8224823474884033,
+      "rewards/margins": 1.9338245391845703,
+      "rewards/rejected": -4.7563066482543945,
+      "step": 1160
+    },
+    {
+      "epoch": 0.8669877732493516,
+      "grad_norm": 79.25946044921875,
+      "learning_rate": 6.925925925925926e-07,
+      "logits/chosen": -2.795814275741577,
+      "logits/rejected": -2.6198534965515137,
+      "logps/chosen": -114.69990539550781,
+      "logps/rejected": -138.99383544921875,
+      "loss": 0.4481,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.544638156890869,
+      "rewards/margins": 1.8667469024658203,
+      "rewards/rejected": -5.411385536193848,
+      "step": 1170
+    },
+    {
+      "epoch": 0.8743979251574657,
+      "grad_norm": 68.91136932373047,
+      "learning_rate": 6.555555555555556e-07,
+      "logits/chosen": -2.5401740074157715,
+      "logits/rejected": -2.3985536098480225,
+      "logps/chosen": -108.79698181152344,
+      "logps/rejected": -127.04399108886719,
+      "loss": 0.4939,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.1688778400421143,
+      "rewards/margins": 1.6756236553192139,
+      "rewards/rejected": -4.844501495361328,
+      "step": 1180
+    },
+    {
+      "epoch": 0.8818080770655798,
+      "grad_norm": 153.0009765625,
+      "learning_rate": 6.185185185185186e-07,
+      "logits/chosen": -2.725766181945801,
+      "logits/rejected": -2.6588385105133057,
+      "logps/chosen": -115.24592590332031,
+      "logps/rejected": -126.50578308105469,
+      "loss": 0.6857,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -3.7392802238464355,
+      "rewards/margins": 1.0371185541152954,
+      "rewards/rejected": -4.7763991355896,
+      "step": 1190
+    },
+    {
+      "epoch": 0.889218228973694,
+      "grad_norm": 50.05393981933594,
+      "learning_rate": 5.814814814814816e-07,
+      "logits/chosen": -2.800872325897217,
+      "logits/rejected": -2.5388267040252686,
+      "logps/chosen": -108.91355895996094,
+      "logps/rejected": -140.00509643554688,
+      "loss": 0.5076,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.350496292114258,
+      "rewards/margins": 2.106170892715454,
+      "rewards/rejected": -5.456666946411133,
+      "step": 1200
+    },
+    {
+      "epoch": 0.8966283808818081,
+      "grad_norm": 67.96463775634766,
+      "learning_rate": 5.444444444444444e-07,
+      "logits/chosen": -2.7067558765411377,
+      "logits/rejected": -2.599600315093994,
+      "logps/chosen": -107.89814758300781,
+      "logps/rejected": -124.91080474853516,
+      "loss": 0.5518,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.1988513469696045,
+      "rewards/margins": 1.6774219274520874,
+      "rewards/rejected": -4.876273155212402,
+      "step": 1210
+    },
+    {
+      "epoch": 0.9040385327899222,
+      "grad_norm": 51.324058532714844,
+      "learning_rate": 5.074074074074075e-07,
+      "logits/chosen": -2.5362696647644043,
+      "logits/rejected": -2.354970693588257,
+      "logps/chosen": -115.45835876464844,
+      "logps/rejected": -136.94302368164062,
+      "loss": 0.4526,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.65421986579895,
+      "rewards/margins": 2.047398090362549,
+      "rewards/rejected": -5.701618671417236,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9114486846980363,
+      "grad_norm": 72.69883728027344,
+      "learning_rate": 4.703703703703704e-07,
+      "logits/chosen": -2.776798725128174,
+      "logits/rejected": -2.5926573276519775,
+      "logps/chosen": -109.353515625,
+      "logps/rejected": -133.78953552246094,
+      "loss": 0.479,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.6324219703674316,
+      "rewards/margins": 1.8643248081207275,
+      "rewards/rejected": -5.496747016906738,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9188588366061504,
+      "grad_norm": 76.83854675292969,
+      "learning_rate": 4.333333333333334e-07,
+      "logits/chosen": -2.752346992492676,
+      "logits/rejected": -2.629638195037842,
+      "logps/chosen": -105.3023910522461,
+      "logps/rejected": -126.5351791381836,
+      "loss": 0.5053,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.197103977203369,
+      "rewards/margins": 1.733891487121582,
+      "rewards/rejected": -4.930995464324951,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9262689885142645,
+      "grad_norm": 110.72493743896484,
+      "learning_rate": 3.9629629629629634e-07,
+      "logits/chosen": -2.612422227859497,
+      "logits/rejected": -2.4569220542907715,
+      "logps/chosen": -97.88721466064453,
+      "logps/rejected": -128.8172607421875,
+      "loss": 0.4024,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.1734538078308105,
+      "rewards/margins": 2.2661962509155273,
+      "rewards/rejected": -5.439650535583496,
+      "step": 1250
+    },
+    {
+      "epoch": 0.9336791404223787,
+      "grad_norm": 79.09251403808594,
+      "learning_rate": 3.592592592592593e-07,
+      "logits/chosen": -2.5835788249969482,
+      "logits/rejected": -2.425140857696533,
+      "logps/chosen": -118.10221862792969,
+      "logps/rejected": -140.7429656982422,
+      "loss": 0.374,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.600130558013916,
+      "rewards/margins": 2.1908457279205322,
+      "rewards/rejected": -5.790975570678711,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9410892923304928,
+      "grad_norm": 77.63102722167969,
+      "learning_rate": 3.2222222222222227e-07,
+      "logits/chosen": -2.833207607269287,
+      "logits/rejected": -2.741405487060547,
+      "logps/chosen": -105.04319763183594,
+      "logps/rejected": -129.08157348632812,
+      "loss": 0.4978,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.2051002979278564,
+      "rewards/margins": 2.0284972190856934,
+      "rewards/rejected": -5.233597278594971,
+      "step": 1270
+    },
+    {
+      "epoch": 0.9484994442386069,
+      "grad_norm": 45.666744232177734,
+      "learning_rate": 2.851851851851852e-07,
+      "logits/chosen": -2.8316311836242676,
+      "logits/rejected": -2.6417407989501953,
+      "logps/chosen": -113.1464614868164,
+      "logps/rejected": -136.09994506835938,
+      "loss": 0.3906,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.425858736038208,
+      "rewards/margins": 2.1212241649627686,
+      "rewards/rejected": -5.547082424163818,
+      "step": 1280
+    },
+    {
+      "epoch": 0.955909596146721,
+      "grad_norm": 126.80838775634766,
+      "learning_rate": 2.4814814814814814e-07,
+      "logits/chosen": -2.479860782623291,
+      "logits/rejected": -2.4349493980407715,
+      "logps/chosen": -110.22750091552734,
+      "logps/rejected": -130.07176208496094,
+      "loss": 0.5546,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -3.495988368988037,
+      "rewards/margins": 1.9390910863876343,
+      "rewards/rejected": -5.435080051422119,
+      "step": 1290
+    },
+    {
+      "epoch": 0.9633197480548351,
+      "grad_norm": 104.56671142578125,
+      "learning_rate": 2.1111111111111113e-07,
+      "logits/chosen": -2.8810842037200928,
+      "logits/rejected": -2.64825701713562,
+      "logps/chosen": -114.70051574707031,
+      "logps/rejected": -133.77554321289062,
+      "loss": 0.4823,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.2450995445251465,
+      "rewards/margins": 1.894256830215454,
+      "rewards/rejected": -5.13935661315918,
+      "step": 1300
+    },
+    {
+      "epoch": 0.9707298999629492,
+      "grad_norm": 69.64128875732422,
+      "learning_rate": 1.7407407407407407e-07,
+      "logits/chosen": -2.7370734214782715,
+      "logits/rejected": -2.5394835472106934,
+      "logps/chosen": -120.4969711303711,
+      "logps/rejected": -136.19540405273438,
+      "loss": 0.6125,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -3.9360873699188232,
+      "rewards/margins": 1.48752760887146,
+      "rewards/rejected": -5.423615455627441,
+      "step": 1310
+    },
+    {
+      "epoch": 0.9781400518710633,
+      "grad_norm": 72.55949401855469,
+      "learning_rate": 1.3703703703703706e-07,
+      "logits/chosen": -2.5739331245422363,
+      "logits/rejected": -2.3697855472564697,
+      "logps/chosen": -111.98551940917969,
+      "logps/rejected": -126.80464935302734,
+      "loss": 0.4807,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.24163556098938,
+      "rewards/margins": 1.6213098764419556,
+      "rewards/rejected": -4.862946510314941,
+      "step": 1320
+    },
+    {
+      "epoch": 0.9855502037791775,
+      "grad_norm": 74.78096008300781,
+      "learning_rate": 1.0000000000000001e-07,
+      "logits/chosen": -2.6215052604675293,
+      "logits/rejected": -2.4891343116760254,
+      "logps/chosen": -104.3646469116211,
+      "logps/rejected": -129.4760284423828,
+      "loss": 0.377,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.8517489433288574,
+      "rewards/margins": 2.320369005203247,
+      "rewards/rejected": -5.172118186950684,
+      "step": 1330
+    },
+    {
+      "epoch": 0.9929603556872916,
+      "grad_norm": 88.45356750488281,
+      "learning_rate": 6.296296296296297e-08,
+      "logits/chosen": -2.569523334503174,
+      "logits/rejected": -2.4072022438049316,
+      "logps/chosen": -110.60871887207031,
+      "logps/rejected": -127.8760986328125,
+      "loss": 0.5243,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -3.452281951904297,
+      "rewards/margins": 1.5607750415802002,
+      "rewards/rejected": -5.013056755065918,
+      "step": 1340
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 10.505631446838379,
+      "learning_rate": 2.5925925925925926e-08,
+      "logits/chosen": -2.393158435821533,
+      "logits/rejected": -2.35024356842041,
+      "logps/chosen": -112.46697998046875,
+      "logps/rejected": -128.6726837158203,
+      "loss": 0.4409,
+      "rewards/accuracies": 0.7894737124443054,
+      "rewards/chosen": -3.711907148361206,
+      "rewards/margins": 1.5488325357437134,
+      "rewards/rejected": -5.260739803314209,
+      "step": 1350
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1350/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3a7b7968a8ae2ad676d8cb9afe1a793e119b7999c5723f8eae7378c1356c231
+size 6392

checkpoint-1350/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.3",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

dpo_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "beta": 0.1,
+  "learning_rate": 5e-06,
+  "per_device_train_batch_size": 2,
+  "gradient_accumulation_steps": 4,
+  "max_length": 512,
+  "max_prompt_length": 128,
+  "num_train_epochs": 1,
+  "logging_steps": 10,
+  "save_strategy": "epoch",
+  "output_dir": "./koreankiwi99_dpo_model_base_Math-Step-DPO-10K",
+  "remove_unused_columns": false,
+  "fp16": true,
+  "bf16": false,
+  "gradient_checkpointing": false,
+  "max_grad_norm": 1.0,
+  "push_to_hub_model_id": "koreankiwi99/dpo_model_base_Math-Step-DPO-10K"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.52.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a793c47676550a51ebca3f46d38c9caf6f35ccebbc241c469e660d591a568bc0
+size 2384234968

runs/Jun05_14-17-48_47dafa9566a9/events.out.tfevents.1749133094.47dafa9566a9.1112.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d1decf67b86a4524ea49d67ed4a789a9486fb37d14d9d98f8e93acf00754f0a
+size 99192

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff