Instructions to use tanliboy/lambda-gemma-2-9b-dpo with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use tanliboy/lambda-gemma-2-9b-dpo with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="tanliboy/lambda-gemma-2-9b-dpo")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("tanliboy/lambda-gemma-2-9b-dpo")
model = AutoModelForCausalLM.from_pretrained("tanliboy/lambda-gemma-2-9b-dpo")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use tanliboy/lambda-gemma-2-9b-dpo with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "tanliboy/lambda-gemma-2-9b-dpo"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "tanliboy/lambda-gemma-2-9b-dpo",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/tanliboy/lambda-gemma-2-9b-dpo

SGLang

How to use tanliboy/lambda-gemma-2-9b-dpo with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "tanliboy/lambda-gemma-2-9b-dpo" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "tanliboy/lambda-gemma-2-9b-dpo",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "tanliboy/lambda-gemma-2-9b-dpo" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "tanliboy/lambda-gemma-2-9b-dpo",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use tanliboy/lambda-gemma-2-9b-dpo with Docker Model Runner:
```
docker model run hf.co/tanliboy/lambda-gemma-2-9b-dpo
```

tanliboy commited on Jul 25, 2024

Commit

14098af

verified ·

1 Parent(s): 2b7445a

Model save

Browse files

Files changed (11) hide show

README.md +19 -30
all_results.json +5 -18
config.json +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
runs/Jul25_01-23-17_action-graph-trainer/events.out.tfevents.1721871175.action-graph-trainer.762006.0 +3 -0
train_results.json +5 -5
trainer_state.json +628 -1428
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,15 +2,9 @@
 license: gemma
 base_model: tanliboy/zephyr-gemma-2-9b-sft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
-- trl
-- dpo
-- generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-gemma-2-9b-dpo-2
   results: []
@@ -19,20 +13,20 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/tanliboy/huggingface/runs/igf2ndcz)
 # zephyr-gemma-2-9b-dpo-2
-This model is a fine-tuned version of [tanliboy/zephyr-gemma-2-9b-sft](https://huggingface.co/tanliboy/zephyr-gemma-2-9b-sft) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5277
-- Rewards/chosen: -0.6084
-- Rewards/rejected: -1.2304
-- Rewards/accuracies: 0.6880
-- Rewards/margins: 0.6220
-- Logps/rejected: -407.4499
-- Logps/chosen: -375.1572
-- Logits/rejected: -14.2928
-- Logits/chosen: -14.1056
 ## Model description
@@ -51,33 +45,28 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-07
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 64
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6677        | 0.1047 | 100  | 0.6651          | 0.0269         | -0.0301          | 0.6440             | 0.0570          | -287.4193      | -311.6301    | -9.5213         | -9.2788       |
-| 0.5915        | 0.2094 | 200  | 0.5920          | -0.3361        | -0.6472          | 0.6880             | 0.3110          | -349.1276      | -347.9349    | -11.9562        | -11.6561      |
-| 0.5723        | 0.3141 | 300  | 0.5674          | -0.3955        | -0.7898          | 0.6880             | 0.3943          | -363.3917      | -353.8749    | -12.6873        | -12.4526      |
-| 0.5622        | 0.4187 | 400  | 0.5468          | -0.5688        | -1.0827          | 0.6800             | 0.5139          | -392.6759      | -371.2007    | -14.2367        | -13.9401      |
-| 0.5441        | 0.5234 | 500  | 0.5363          | -0.6274        | -1.2091          | 0.6680             | 0.5817          | -405.3189      | -377.0607    | -14.3976        | -14.1308      |
-| 0.5125        | 0.6281 | 600  | 0.5344          | -0.5757        | -1.1705          | 0.6840             | 0.5948          | -401.4605      | -371.8937    | -14.3713        | -14.1120      |
-| 0.5158        | 0.7328 | 700  | 0.5316          | -0.6220        | -1.2328          | 0.6760             | 0.6108          | -407.6867      | -376.5182    | -14.2832        | -14.1010      |
-| 0.5133        | 0.8375 | 800  | 0.5278          | -0.6258        | -1.2452          | 0.6800             | 0.6193          | -408.9254      | -376.9043    | -14.2747        | -14.0908      |
-| 0.5098        | 0.9422 | 900  | 0.5276          | -0.6043        | -1.2270          | 0.6960             | 0.6227          | -407.1073      | -374.7531    | -14.2849        | -14.1010      |
 ### Framework versions

 license: gemma
 base_model: tanliboy/zephyr-gemma-2-9b-sft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-gemma-2-9b-dpo-2
   results: []
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/tanliboy/huggingface/runs/dikk0994)
 # zephyr-gemma-2-9b-dpo-2
+This model is a fine-tuned version of [tanliboy/zephyr-gemma-2-9b-sft](https://huggingface.co/tanliboy/zephyr-gemma-2-9b-sft) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5647
+- Rewards/chosen: -0.6443
+- Rewards/rejected: -1.1499
+- Rewards/accuracies: 0.6920
+- Rewards/margins: 0.5057
+- Logps/rejected: -1434.3335
+- Logps/chosen: -958.5825
+- Logits/rejected: -14.1861
+- Logits/chosen: -14.6684
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-07
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 256
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.2
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6835        | 0.2094 | 50   | 0.6815          | -0.0218        | -0.0436          | 0.6560             | 0.0218          | -328.0053      | -336.0947    | -11.6381        | -11.3403      |
+| 0.6243        | 0.4187 | 100  | 0.6229          | -0.5238        | -0.7528          | 0.6600             | 0.2290          | -1037.2136     | -838.1255    | -15.5098        | -15.6787      |
+| 0.5625        | 0.6281 | 150  | 0.5793          | -0.7186        | -1.1873          | 0.6880             | 0.4688          | -1471.7362     | -1032.8834   | -14.7746        | -15.1797      |
+| 0.5699        | 0.8375 | 200  | 0.5647          | -0.6443        | -1.1499          | 0.6920             | 0.5057          | -1434.3335     | -958.5825    | -14.1861        | -14.6684      |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,9 @@
 {
-    "epoch": 0.9997382884061764,
-    "eval_logits/chosen": -14.105589866638184,
-    "eval_logits/rejected": -14.292818069458008,
-    "eval_logps/chosen": -375.1571960449219,
-    "eval_logps/rejected": -407.44989013671875,
-    "eval_loss": 0.5276930332183838,
-    "eval_rewards/accuracies": 0.6880000233650208,
-    "eval_rewards/chosen": -0.6083627939224243,
-    "eval_rewards/margins": 0.6220458149909973,
-    "eval_rewards/rejected": -1.2304086685180664,
-    "eval_runtime": 148.4787,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 13.47,
-    "eval_steps_per_second": 0.842,
     "total_flos": 0.0,
-    "train_loss": 0.560625178402007,
-    "train_runtime": 12630.0326,
     "train_samples": 61134,
-    "train_samples_per_second": 4.84,
-    "train_steps_per_second": 0.076
 }

 {
+    "epoch": 0.9965977492802931,
     "total_flos": 0.0,
+    "train_loss": 0.6157421479706003,
+    "train_runtime": 11733.4361,
     "train_samples": 61134,
+    "train_samples_per_second": 5.21,
+    "train_steps_per_second": 0.02
 }

config.json CHANGED Viewed

@@ -29,6 +29,6 @@
   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.43.1",
-  "use_cache": true,
   "vocab_size": 256000
 }

   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.43.1",
+  "use_cache": false,
   "vocab_size": 256000
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2dd223dbcdd9b7a159d28e041c3cff016335f745f59a5b3466e5da8919ee4a2
 size 4903351912

 version https://git-lfs.github.com/spec/v1
+oid sha256:233036a8075e3f8bec5c65ee1e3f12c4a2bc723a17f775a61b5623c9c39d2552
 size 4903351912

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96131b3e5e3034f39e10580f4cc68a4df695e0048dde4e9d9d2295951355971b
 size 4947570872

 version https://git-lfs.github.com/spec/v1
+oid sha256:75daea75c054634bd81b8427bd48c44d89567ad0e7eebabb4a3645c63db63bb6
 size 4947570872

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0d6a5edeaaa5ffe3ff5e8750a8600a09ec2bdd555a199dced4e5d4a95cacada
 size 4962221464

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7c2ebf9602671d9dc02fe11665e1c700e053d62b1df61cdb44df2fa1bd3a475
 size 4962221464

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5ef547d1ba1908a19965b389bfc81c663fa70f29eb43c67c0252b607855d663
 size 3670322200

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9060c192a77500562639f82aaec40aa8938d90459195bfac950a0999b1655f9
 size 3670322200

runs/Jul25_01-23-17_action-graph-trainer/events.out.tfevents.1721871175.action-graph-trainer.762006.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2171071bdb920780b0e1dbe0e1266805d4d430111886287382a69a4d9d6480be
+size 42413

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.9997382884061764,
     "total_flos": 0.0,
-    "train_loss": 0.560625178402007,
-    "train_runtime": 12630.0326,
     "train_samples": 61134,
-    "train_samples_per_second": 4.84,
-    "train_steps_per_second": 0.076
 }

 {
+    "epoch": 0.9965977492802931,
     "total_flos": 0.0,
+    "train_loss": 0.6157421479706003,
+    "train_runtime": 11733.4361,
     "train_samples": 61134,
+    "train_samples_per_second": 5.21,
+    "train_steps_per_second": 0.02
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9997382884061764,
-  "eval_steps": 100,
-  "global_step": 955,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0010468463752944255,
-      "grad_norm": 7.355008386193469,
-      "learning_rate": 2.083333333333333e-09,
-      "logits/chosen": -7.783219814300537,
-      "logits/rejected": -8.072843551635742,
-      "logps/chosen": -335.8546142578125,
-      "logps/rejected": -277.73626708984375,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -23,1587 +23,787 @@
       "rewards/rejected": 0.0,
       "step": 1
     },
-    {
-      "epoch": 0.010468463752944255,
-      "grad_norm": 6.230445884319703,
-      "learning_rate": 2.0833333333333335e-08,
-      "logits/chosen": -7.981190204620361,
-      "logits/rejected": -8.130318641662598,
-      "logps/chosen": -306.2852783203125,
-      "logps/rejected": -309.1938781738281,
-      "loss": 0.6928,
-      "rewards/accuracies": 0.4722222089767456,
-      "rewards/chosen": 0.0020241288002580404,
-      "rewards/margins": 0.0018345804419368505,
-      "rewards/rejected": 0.000189548620255664,
-      "step": 10
-    },
     {
       "epoch": 0.02093692750588851,
-      "grad_norm": 6.688413560820125,
-      "learning_rate": 4.166666666666667e-08,
-      "logits/chosen": -8.508150100708008,
-      "logits/rejected": -8.487831115722656,
-      "logps/chosen": -342.08197021484375,
-      "logps/rejected": -300.66973876953125,
-      "loss": 0.6934,
-      "rewards/accuracies": 0.42500001192092896,
-      "rewards/chosen": 0.0012120783794671297,
-      "rewards/margins": -0.0002803016686812043,
-      "rewards/rejected": 0.0014923801645636559,
-      "step": 20
-    },
-    {
-      "epoch": 0.031405391258832765,
-      "grad_norm": 8.288905108120925,
-      "learning_rate": 6.25e-08,
-      "logits/chosen": -7.823553562164307,
-      "logits/rejected": -8.030963897705078,
-      "logps/chosen": -294.57769775390625,
-      "logps/rejected": -290.71209716796875,
       "loss": 0.6931,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.001970288809388876,
-      "rewards/margins": 0.0006792033091187477,
-      "rewards/rejected": 0.0012910853838548064,
-      "step": 30
     },
     {
       "epoch": 0.04187385501177702,
-      "grad_norm": 6.7092850577908285,
-      "learning_rate": 8.333333333333334e-08,
-      "logits/chosen": -8.137880325317383,
-      "logits/rejected": -8.182608604431152,
-      "logps/chosen": -302.7641906738281,
-      "logps/rejected": -278.7587890625,
-      "loss": 0.6925,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.004604184068739414,
-      "rewards/margins": 0.0005916848895139992,
-      "rewards/rejected": 0.004012499004602432,
-      "step": 40
-    },
-    {
-      "epoch": 0.05234231876472128,
-      "grad_norm": 11.714084906492422,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -8.555654525756836,
-      "logits/rejected": -9.059080123901367,
-      "logps/chosen": -318.3633728027344,
-      "logps/rejected": -257.5683288574219,
-      "loss": 0.6916,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.010140976868569851,
-      "rewards/margins": 0.002551380079239607,
-      "rewards/rejected": 0.007589596323668957,
-      "step": 50
     },
     {
       "epoch": 0.06281078251766553,
-      "grad_norm": 6.7230358924676015,
-      "learning_rate": 1.25e-07,
-      "logits/chosen": -8.04963493347168,
-      "logits/rejected": -8.676374435424805,
-      "logps/chosen": -334.97003173828125,
-      "logps/rejected": -284.1954040527344,
-      "loss": 0.6897,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.0205511637032032,
-      "rewards/margins": 0.006578472442924976,
-      "rewards/rejected": 0.013972689397633076,
-      "step": 60
-    },
-    {
-      "epoch": 0.07327924627060979,
-      "grad_norm": 6.439781455829167,
-      "learning_rate": 1.4583333333333332e-07,
-      "logits/chosen": -8.384071350097656,
-      "logits/rejected": -8.226759910583496,
-      "logps/chosen": -240.31106567382812,
-      "logps/rejected": -258.47332763671875,
-      "loss": 0.6867,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.0298004187643528,
-      "rewards/margins": 0.011175071820616722,
-      "rewards/rejected": 0.018625345081090927,
-      "step": 70
     },
     {
       "epoch": 0.08374771002355404,
-      "grad_norm": 6.513071298610303,
-      "learning_rate": 1.6666666666666668e-07,
-      "logits/chosen": -8.502431869506836,
-      "logits/rejected": -9.255155563354492,
-      "logps/chosen": -296.0177307128906,
-      "logps/rejected": -268.50347900390625,
-      "loss": 0.6815,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.04522623121738434,
-      "rewards/margins": 0.025061482563614845,
-      "rewards/rejected": 0.020164750516414642,
-      "step": 80
-    },
-    {
-      "epoch": 0.0942161737764983,
-      "grad_norm": 5.920042917298396,
-      "learning_rate": 1.875e-07,
-      "logits/chosen": -8.7146635055542,
-      "logits/rejected": -8.876623153686523,
-      "logps/chosen": -272.12420654296875,
-      "logps/rejected": -255.40225219726562,
-      "loss": 0.6782,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.06685945391654968,
-      "rewards/margins": 0.04631630331277847,
-      "rewards/rejected": 0.02054314874112606,
-      "step": 90
-    },
-    {
-      "epoch": 0.10468463752944256,
-      "grad_norm": 7.4287436912349065,
-      "learning_rate": 1.9998929970725745e-07,
-      "logits/chosen": -8.944499969482422,
-      "logits/rejected": -8.88210678100586,
-      "logps/chosen": -293.67266845703125,
-      "logps/rejected": -300.55419921875,
-      "loss": 0.6677,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.049799270927906036,
-      "rewards/margins": 0.04667241498827934,
-      "rewards/rejected": 0.003126861061900854,
-      "step": 100
     },
     {
       "epoch": 0.10468463752944256,
-      "eval_logits/chosen": -9.278841972351074,
-      "eval_logits/rejected": -9.52132511138916,
-      "eval_logps/chosen": -311.630126953125,
-      "eval_logps/rejected": -287.41925048828125,
-      "eval_loss": 0.6651390194892883,
-      "eval_rewards/accuracies": 0.6439999938011169,
-      "eval_rewards/chosen": 0.026908237487077713,
-      "eval_rewards/margins": 0.057010453194379807,
-      "eval_rewards/rejected": -0.030102219432592392,
-      "eval_runtime": 151.8713,
-      "eval_samples_per_second": 13.169,
-      "eval_steps_per_second": 0.823,
-      "step": 100
-    },
-    {
-      "epoch": 0.11515310128238682,
-      "grad_norm": 7.059170038910516,
-      "learning_rate": 1.9986894771071702e-07,
-      "logits/chosen": -9.338754653930664,
-      "logits/rejected": -9.311285972595215,
-      "logps/chosen": -288.4460144042969,
-      "logps/rejected": -247.97964477539062,
-      "loss": 0.6636,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.021794503554701805,
-      "rewards/margins": 0.10265706479549408,
-      "rewards/rejected": -0.08086254447698593,
-      "step": 110
-    },
-    {
-      "epoch": 0.12562156503533106,
-      "grad_norm": 8.852936631402919,
-      "learning_rate": 1.996150298485439e-07,
-      "logits/chosen": -10.604690551757812,
-      "logits/rejected": -10.366097450256348,
-      "logps/chosen": -265.26751708984375,
-      "logps/rejected": -300.37530517578125,
-      "loss": 0.6409,
       "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.0008338313782587647,
-      "rewards/margins": 0.0940166562795639,
-      "rewards/rejected": -0.09485048055648804,
-      "step": 120
     },
     {
-      "epoch": 0.1360900287882753,
-      "grad_norm": 15.573650791324633,
-      "learning_rate": 1.9922788571337257e-07,
-      "logits/chosen": -10.188752174377441,
-      "logits/rejected": -10.191640853881836,
-      "logps/chosen": -323.96685791015625,
-      "logps/rejected": -297.19439697265625,
-      "loss": 0.6304,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.006395213305950165,
-      "rewards/margins": 0.13638103008270264,
-      "rewards/rejected": -0.1427762359380722,
-      "step": 130
     },
     {
       "epoch": 0.14655849254121958,
-      "grad_norm": 20.046359115149162,
-      "learning_rate": 1.9870803307616914e-07,
-      "logits/chosen": -10.423749923706055,
-      "logits/rejected": -10.360530853271484,
-      "logps/chosen": -343.8540954589844,
-      "logps/rejected": -346.18634033203125,
-      "loss": 0.6211,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.14697681367397308,
-      "rewards/margins": 0.1654496192932129,
-      "rewards/rejected": -0.3124264180660248,
-      "step": 140
-    },
-    {
-      "epoch": 0.15702695629416383,
-      "grad_norm": 7.638915011188106,
-      "learning_rate": 1.9805616719375848e-07,
-      "logits/chosen": -10.7134370803833,
-      "logits/rejected": -11.019803047180176,
-      "logps/chosen": -330.085205078125,
-      "logps/rejected": -305.45208740234375,
-      "loss": 0.6196,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.15285547077655792,
-      "rewards/margins": 0.1812134087085724,
-      "rewards/rejected": -0.3340689241886139,
-      "step": 150
     },
     {
       "epoch": 0.16749542004710807,
-      "grad_norm": 12.849690942872602,
-      "learning_rate": 1.972731598789799e-07,
-      "logits/chosen": -9.68244743347168,
-      "logits/rejected": -10.297185897827148,
-      "logps/chosen": -327.29144287109375,
-      "logps/rejected": -285.8588562011719,
-      "loss": 0.6086,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.04306762292981148,
-      "rewards/margins": 0.2582402527332306,
-      "rewards/rejected": -0.3013078570365906,
-      "step": 160
-    },
-    {
-      "epoch": 0.17796388380005235,
-      "grad_norm": 32.698955102660705,
-      "learning_rate": 1.9636005833471467e-07,
-      "logits/chosen": -11.027162551879883,
-      "logits/rejected": -11.326080322265625,
-      "logps/chosen": -288.31817626953125,
-      "logps/rejected": -291.74908447265625,
-      "loss": 0.5927,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.3270031809806824,
-      "rewards/margins": 0.15106120705604553,
-      "rewards/rejected": -0.4780643582344055,
-      "step": 170
     },
     {
       "epoch": 0.1884323475529966,
-      "grad_norm": 11.54139813571567,
-      "learning_rate": 1.9531808375334508e-07,
-      "logits/chosen": -10.985331535339355,
-      "logits/rejected": -11.428260803222656,
-      "logps/chosen": -317.88580322265625,
-      "logps/rejected": -319.74444580078125,
-      "loss": 0.5856,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.10588045418262482,
-      "rewards/margins": 0.28938889503479004,
-      "rewards/rejected": -0.39526933431625366,
-      "step": 180
-    },
-    {
-      "epoch": 0.19890081130594087,
-      "grad_norm": 10.803006572264644,
-      "learning_rate": 1.9414862968351785e-07,
-      "logits/chosen": -11.358689308166504,
-      "logits/rejected": -11.146299362182617,
-      "logps/chosen": -284.0877380371094,
-      "logps/rejected": -376.7961120605469,
-      "loss": 0.5878,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.08324204385280609,
-      "rewards/margins": 0.37117457389831543,
-      "rewards/rejected": -0.4544166624546051,
-      "step": 190
     },
     {
       "epoch": 0.2093692750588851,
-      "grad_norm": 11.193966860687885,
-      "learning_rate": 1.9285326016639624e-07,
-      "logits/chosen": -11.543092727661133,
-      "logits/rejected": -11.964883804321289,
-      "logps/chosen": -355.447998046875,
-      "logps/rejected": -314.7781066894531,
-      "loss": 0.5915,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.1552293449640274,
-      "rewards/margins": 0.35743778944015503,
-      "rewards/rejected": -0.512667179107666,
-      "step": 200
     },
     {
       "epoch": 0.2093692750588851,
-      "eval_logits/chosen": -11.656082153320312,
-      "eval_logits/rejected": -11.956182479858398,
-      "eval_logps/chosen": -347.9349060058594,
-      "eval_logps/rejected": -349.1275939941406,
-      "eval_loss": 0.5919647812843323,
-      "eval_rewards/accuracies": 0.6880000233650208,
-      "eval_rewards/chosen": -0.33613964915275574,
-      "eval_rewards/margins": 0.31104618310928345,
-      "eval_rewards/rejected": -0.6471858620643616,
-      "eval_runtime": 150.3287,
-      "eval_samples_per_second": 13.304,
-      "eval_steps_per_second": 0.832,
-      "step": 200
-    },
-    {
-      "epoch": 0.21983773881182936,
-      "grad_norm": 25.282722057255278,
-      "learning_rate": 1.914337076438937e-07,
-      "logits/chosen": -11.216215133666992,
-      "logits/rejected": -11.796686172485352,
-      "logps/chosen": -339.0605163574219,
-      "logps/rejected": -345.29901123046875,
-      "loss": 0.6089,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.44959211349487305,
-      "rewards/margins": 0.2086714208126068,
-      "rewards/rejected": -0.6582635641098022,
-      "step": 210
     },
     {
       "epoch": 0.23030620256477363,
-      "grad_norm": 14.044802000055538,
-      "learning_rate": 1.898918706416864e-07,
-      "logits/chosen": -11.541923522949219,
-      "logits/rejected": -12.298526763916016,
-      "logps/chosen": -361.52947998046875,
-      "logps/rejected": -334.96905517578125,
-      "loss": 0.5912,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.2677989602088928,
-      "rewards/margins": 0.373500794172287,
-      "rewards/rejected": -0.6412997245788574,
-      "step": 220
-    },
-    {
-      "epoch": 0.24077466631771788,
-      "grad_norm": 12.45188359067346,
-      "learning_rate": 1.882298112301034e-07,
-      "logits/chosen": -11.14279556274414,
-      "logits/rejected": -11.60063362121582,
-      "logps/chosen": -281.5401916503906,
-      "logps/rejected": -305.64166259765625,
-      "loss": 0.5863,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.23669323325157166,
-      "rewards/margins": 0.28197115659713745,
-      "rewards/rejected": -0.5186644196510315,
-      "step": 230
     },
     {
       "epoch": 0.2512431300706621,
-      "grad_norm": 17.19152112354873,
-      "learning_rate": 1.8644975226629022e-07,
-      "logits/chosen": -11.584768295288086,
-      "logits/rejected": -11.848301887512207,
-      "logps/chosen": -325.7696838378906,
-      "logps/rejected": -335.9078369140625,
-      "loss": 0.5696,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.2423885315656662,
-      "rewards/margins": 0.3221975266933441,
-      "rewards/rejected": -0.5645860433578491,
-      "step": 240
-    },
-    {
-      "epoch": 0.26171159382360637,
-      "grad_norm": 14.325794995366559,
-      "learning_rate": 1.8455407442133465e-07,
-      "logits/chosen": -11.799114227294922,
-      "logits/rejected": -12.152410507202148,
-      "logps/chosen": -329.87677001953125,
-      "logps/rejected": -324.18115234375,
-      "loss": 0.5655,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.24216821789741516,
-      "rewards/margins": 0.43084821105003357,
-      "rewards/rejected": -0.6730164289474487,
-      "step": 250
     },
     {
       "epoch": 0.2721800575765506,
-      "grad_norm": 12.117583595266726,
-      "learning_rate": 1.8254531299633004e-07,
-      "logits/chosen": -12.106219291687012,
-      "logits/rejected": -12.641697883605957,
-      "logps/chosen": -344.15032958984375,
-      "logps/rejected": -348.90673828125,
-      "loss": 0.562,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.2714720666408539,
-      "rewards/margins": 0.39360731840133667,
-      "rewards/rejected": -0.6650794148445129,
-      "step": 260
-    },
-    {
-      "epoch": 0.2826485213294949,
-      "grad_norm": 17.931356253932698,
-      "learning_rate": 1.8042615453163484e-07,
-      "logits/chosen": -12.003366470336914,
-      "logits/rejected": -12.557150840759277,
-      "logps/chosen": -372.60821533203125,
-      "logps/rejected": -349.703125,
-      "loss": 0.5514,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.45285406708717346,
-      "rewards/margins": 0.3556319773197174,
-      "rewards/rejected": -0.8084859848022461,
-      "step": 270
     },
     {
       "epoch": 0.29311698508243916,
-      "grad_norm": 14.078329477472565,
-      "learning_rate": 1.7819943321386296e-07,
-      "logits/chosen": -12.080374717712402,
-      "logits/rejected": -12.487339973449707,
-      "logps/chosen": -364.81134033203125,
-      "logps/rejected": -383.1141052246094,
-      "loss": 0.5755,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.3204973638057709,
-      "rewards/margins": 0.5626034140586853,
-      "rewards/rejected": -0.883100688457489,
-      "step": 280
-    },
-    {
-      "epoch": 0.3035854488353834,
-      "grad_norm": 16.797223533505605,
-      "learning_rate": 1.7586812708541044e-07,
-      "logits/chosen": -12.28768253326416,
-      "logits/rejected": -13.17219066619873,
-      "logps/chosen": -382.7824401855469,
-      "logps/rejected": -368.29449462890625,
-      "loss": 0.5672,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.40373754501342773,
-      "rewards/margins": 0.4520534873008728,
-      "rewards/rejected": -0.8557910919189453,
-      "step": 290
-    },
-    {
-      "epoch": 0.31405391258832765,
-      "grad_norm": 17.74775759360231,
-      "learning_rate": 1.7343535406158772e-07,
-      "logits/chosen": -12.226592063903809,
-      "logits/rejected": -12.483770370483398,
-      "logps/chosen": -300.1335144042969,
-      "logps/rejected": -350.2237854003906,
-      "loss": 0.5723,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.401310533285141,
-      "rewards/margins": 0.4268767833709717,
-      "rewards/rejected": -0.8281872868537903,
-      "step": 300
     },
     {
       "epoch": 0.31405391258832765,
-      "eval_logits/chosen": -12.452622413635254,
-      "eval_logits/rejected": -12.687331199645996,
-      "eval_logps/chosen": -353.8749084472656,
-      "eval_logps/rejected": -363.39166259765625,
-      "eval_loss": 0.5674170851707458,
-      "eval_rewards/accuracies": 0.6880000233650208,
-      "eval_rewards/chosen": -0.39553993940353394,
-      "eval_rewards/margins": 0.39428621530532837,
-      "eval_rewards/rejected": -0.7898260354995728,
-      "eval_runtime": 150.1759,
-      "eval_samples_per_second": 13.318,
-      "eval_steps_per_second": 0.832,
-      "step": 300
-    },
-    {
-      "epoch": 0.3245223763412719,
-      "grad_norm": 21.123290325111288,
-      "learning_rate": 1.709043677606842e-07,
-      "logits/chosen": -13.11596393585205,
-      "logits/rejected": -13.485511779785156,
-      "logps/chosen": -372.96563720703125,
-      "logps/rejected": -374.05731201171875,
-      "loss": 0.5502,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.4754568040370941,
-      "rewards/margins": 0.5059635043144226,
-      "rewards/rejected": -0.9814203381538391,
-      "step": 310
     },
     {
       "epoch": 0.33499084009421615,
-      "grad_norm": 21.451163083722758,
-      "learning_rate": 1.6827855315254218e-07,
-      "logits/chosen": -12.301114082336426,
-      "logits/rejected": -11.965790748596191,
-      "logps/chosen": -310.0186462402344,
-      "logps/rejected": -385.1772155761719,
-      "loss": 0.5855,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.6075664758682251,
-      "rewards/margins": 0.4841720461845398,
-      "rewards/rejected": -1.0917384624481201,
-      "step": 320
-    },
-    {
-      "epoch": 0.34545930384716045,
-      "grad_norm": 18.33219470868773,
-      "learning_rate": 1.6556142203145976e-07,
-      "logits/chosen": -12.740918159484863,
-      "logits/rejected": -13.098161697387695,
-      "logps/chosen": -339.1952819824219,
-      "logps/rejected": -363.0919189453125,
-      "loss": 0.5684,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.5905572175979614,
-      "rewards/margins": 0.25887611508369446,
-      "rewards/rejected": -0.8494332432746887,
-      "step": 330
     },
     {
       "epoch": 0.3559277676001047,
-      "grad_norm": 11.900265933520593,
-      "learning_rate": 1.6275660831947723e-07,
-      "logits/chosen": -11.391129493713379,
-      "logits/rejected": -11.80584716796875,
-      "logps/chosen": -294.5928955078125,
-      "logps/rejected": -305.561767578125,
-      "loss": 0.579,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.28244853019714355,
-      "rewards/margins": 0.5087226629257202,
-      "rewards/rejected": -0.7911711931228638,
-      "step": 340
-    },
-    {
-      "epoch": 0.36639623135304894,
-      "grad_norm": 20.453314348602326,
-      "learning_rate": 1.598678632063284e-07,
-      "logits/chosen": -12.832880973815918,
-      "logits/rejected": -13.420519828796387,
-      "logps/chosen": -368.6810302734375,
-      "logps/rejected": -389.3878479003906,
-      "loss": 0.5505,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.4756461977958679,
-      "rewards/margins": 0.39826783537864685,
-      "rewards/rejected": -0.8739139437675476,
-      "step": 350
     },
     {
       "epoch": 0.3768646951059932,
-      "grad_norm": 20.124446185453415,
-      "learning_rate": 1.568990501325568e-07,
-      "logits/chosen": -12.703775405883789,
-      "logits/rejected": -12.269942283630371,
-      "logps/chosen": -284.19219970703125,
-      "logps/rejected": -372.7416076660156,
-      "loss": 0.5258,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.4747592806816101,
-      "rewards/margins": 0.43383827805519104,
-      "rewards/rejected": -0.9085975885391235,
-      "step": 360
-    },
-    {
-      "epoch": 0.38733315885893743,
-      "grad_norm": 12.256605456435558,
-      "learning_rate": 1.5385413962250656e-07,
-      "logits/chosen": -13.217790603637695,
-      "logits/rejected": -13.344598770141602,
-      "logps/chosen": -338.6850280761719,
-      "logps/rejected": -376.1455993652344,
-      "loss": 0.545,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.41851702332496643,
-      "rewards/margins": 0.6487592458724976,
-      "rewards/rejected": -1.0672763586044312,
-      "step": 370
-    },
-    {
-      "epoch": 0.39780162261188173,
-      "grad_norm": 23.457846993021622,
-      "learning_rate": 1.507372039740978e-07,
-      "logits/chosen": -13.952138900756836,
-      "logits/rejected": -13.335546493530273,
-      "logps/chosen": -337.4014892578125,
-      "logps/rejected": -424.3997497558594,
-      "loss": 0.5639,
       "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.5712438821792603,
-      "rewards/margins": 0.33642515540122986,
-      "rewards/rejected": -0.907668948173523,
-      "step": 380
     },
     {
-      "epoch": 0.408270086364826,
-      "grad_norm": 34.828863133678425,
-      "learning_rate": 1.475524118124892e-07,
-      "logits/chosen": -12.775480270385742,
-      "logits/rejected": -12.927217483520508,
-      "logps/chosen": -327.45843505859375,
-      "logps/rejected": -354.95562744140625,
-      "loss": 0.5512,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.5806573629379272,
-      "rewards/margins": 0.3768925070762634,
-      "rewards/rejected": -0.9575498700141907,
-      "step": 390
     },
     {
       "epoch": 0.4187385501177702,
-      "grad_norm": 40.31423860042707,
-      "learning_rate": 1.4430402251491138e-07,
-      "logits/chosen": -13.684167861938477,
-      "logits/rejected": -13.840978622436523,
-      "logps/chosen": -374.80859375,
-      "logps/rejected": -402.02685546875,
-      "loss": 0.5622,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.6369796395301819,
-      "rewards/margins": 0.2776455581188202,
-      "rewards/rejected": -0.9146251678466797,
-      "step": 400
     },
     {
       "epoch": 0.4187385501177702,
-      "eval_logits/chosen": -13.940086364746094,
-      "eval_logits/rejected": -14.236658096313477,
-      "eval_logps/chosen": -371.2007141113281,
-      "eval_logps/rejected": -392.6759033203125,
-      "eval_loss": 0.5468377470970154,
-      "eval_rewards/accuracies": 0.6800000071525574,
-      "eval_rewards/chosen": -0.5687984228134155,
-      "eval_rewards/margins": 0.5138704180717468,
-      "eval_rewards/rejected": -1.0826687812805176,
-      "eval_runtime": 149.8563,
-      "eval_samples_per_second": 13.346,
-      "eval_steps_per_second": 0.834,
-      "step": 400
-    },
-    {
-      "epoch": 0.42920701387071447,
-      "grad_norm": 16.540681614535696,
-      "learning_rate": 1.4099638051412743e-07,
-      "logits/chosen": -13.835235595703125,
-      "logits/rejected": -13.860295295715332,
-      "logps/chosen": -377.9153747558594,
-      "logps/rejected": -418.71014404296875,
-      "loss": 0.565,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.5656043291091919,
-      "rewards/margins": 0.5640857815742493,
-      "rewards/rejected": -1.129690170288086,
-      "step": 410
     },
     {
       "epoch": 0.4396754776236587,
-      "grad_norm": 21.686061060497405,
-      "learning_rate": 1.3763390948813896e-07,
-      "logits/chosen": -13.40911865234375,
-      "logits/rejected": -13.989703178405762,
-      "logps/chosen": -390.37274169921875,
-      "logps/rejected": -365.4905090332031,
-      "loss": 0.5514,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.7015476226806641,
-      "rewards/margins": 0.3901844918727875,
-      "rewards/rejected": -1.091732144355774,
-      "step": 420
-    },
-    {
-      "epoch": 0.45014394137660296,
-      "grad_norm": 18.49857147965794,
-      "learning_rate": 1.342211064439091e-07,
-      "logits/chosen": -13.539401054382324,
-      "logits/rejected": -13.536432266235352,
-      "logps/chosen": -348.41888427734375,
-      "logps/rejected": -399.24371337890625,
-      "loss": 0.5585,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.8608742952346802,
-      "rewards/margins": 0.3582659065723419,
-      "rewards/rejected": -1.2191402912139893,
-      "step": 430
     },
     {
       "epoch": 0.46061240512954726,
-      "grad_norm": 28.78489077603455,
-      "learning_rate": 1.3076253570301408e-07,
-      "logits/chosen": -13.883230209350586,
-      "logits/rejected": -13.993196487426758,
-      "logps/chosen": -349.2350769042969,
-      "logps/rejected": -374.9832763671875,
-      "loss": 0.5542,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.7180451154708862,
-      "rewards/margins": 0.41989952325820923,
-      "rewards/rejected": -1.1379445791244507,
-      "step": 440
-    },
-    {
-      "epoch": 0.4710808688824915,
-      "grad_norm": 18.20248083655786,
-      "learning_rate": 1.2726282279726786e-07,
-      "logits/chosen": -14.505528450012207,
-      "logits/rejected": -14.693391799926758,
-      "logps/chosen": -330.843017578125,
-      "logps/rejected": -396.43011474609375,
-      "loss": 0.5424,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.5095499157905579,
-      "rewards/margins": 0.6803628206253052,
-      "rewards/rejected": -1.1899127960205078,
-      "step": 450
     },
     {
       "epoch": 0.48154933263543576,
-      "grad_norm": 16.310384829892065,
-      "learning_rate": 1.2372664828248319e-07,
-      "logits/chosen": -14.17590618133545,
-      "logits/rejected": -14.078557014465332,
-      "logps/chosen": -320.20062255859375,
-      "logps/rejected": -423.71160888671875,
-      "loss": 0.5607,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.4220674932003021,
-      "rewards/margins": 0.6703753471374512,
-      "rewards/rejected": -1.0924427509307861,
-      "step": 460
-    },
-    {
-      "epoch": 0.49201779638838,
-      "grad_norm": 19.430025911116154,
-      "learning_rate": 1.2015874147864312e-07,
-      "logits/chosen": -14.247779846191406,
-      "logits/rejected": -14.570295333862305,
-      "logps/chosen": -338.3775939941406,
-      "logps/rejected": -354.2191467285156,
-      "loss": 0.5134,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.4138456881046295,
-      "rewards/margins": 0.44109171628952026,
-      "rewards/rejected": -0.8549374341964722,
-      "step": 470
     },
     {
       "epoch": 0.5024862601413242,
-      "grad_norm": 17.019933271716724,
-      "learning_rate": 1.1656387414485477e-07,
-      "logits/chosen": -13.82238483428955,
-      "logits/rejected": -13.82000732421875,
-      "logps/chosen": -318.55438232421875,
-      "logps/rejected": -383.9975280761719,
-      "loss": 0.5281,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.5111416578292847,
-      "rewards/margins": 0.5328122973442078,
-      "rewards/rejected": -1.0439538955688477,
-      "step": 480
-    },
-    {
-      "epoch": 0.5129547238942685,
-      "grad_norm": 28.874755648357077,
-      "learning_rate": 1.1294685409754433e-07,
-      "logits/chosen": -12.982122421264648,
-      "logits/rejected": -14.110940933227539,
-      "logps/chosen": -390.028076171875,
-      "logps/rejected": -422.0865173339844,
-      "loss": 0.5217,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.47721004486083984,
-      "rewards/margins": 0.8017258644104004,
-      "rewards/rejected": -1.2789360284805298,
-      "step": 490
-    },
-    {
-      "epoch": 0.5234231876472127,
-      "grad_norm": 14.310282443089868,
-      "learning_rate": 1.093125187804288e-07,
-      "logits/chosen": -13.757654190063477,
-      "logits/rejected": -13.917083740234375,
-      "logps/chosen": -368.4084777832031,
-      "logps/rejected": -402.80621337890625,
-      "loss": 0.5441,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.6358953714370728,
-      "rewards/margins": 0.5089365243911743,
-      "rewards/rejected": -1.144831895828247,
-      "step": 500
     },
     {
       "epoch": 0.5234231876472127,
-      "eval_logits/chosen": -14.130770683288574,
-      "eval_logits/rejected": -14.397551536560059,
-      "eval_logps/chosen": -377.0606689453125,
-      "eval_logps/rejected": -405.3188781738281,
-      "eval_loss": 0.5362752676010132,
-      "eval_rewards/accuracies": 0.6679999828338623,
-      "eval_rewards/chosen": -0.6273974180221558,
-      "eval_rewards/margins": 0.5817012786865234,
-      "eval_rewards/rejected": -1.2090985774993896,
-      "eval_runtime": 149.9028,
-      "eval_samples_per_second": 13.342,
-      "eval_steps_per_second": 0.834,
-      "step": 500
-    },
-    {
-      "epoch": 0.533891651400157,
-      "grad_norm": 20.201758093145344,
-      "learning_rate": 1.0566572879486386e-07,
-      "logits/chosen": -13.861791610717773,
-      "logits/rejected": -14.239435195922852,
-      "logps/chosen": -357.29888916015625,
-      "logps/rejected": -406.57366943359375,
-      "loss": 0.5252,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.498563289642334,
-      "rewards/margins": 0.7506011724472046,
-      "rewards/rejected": -1.249164342880249,
-      "step": 510
     },
     {
       "epoch": 0.5443601151531012,
-      "grad_norm": 29.36802681742468,
-      "learning_rate": 1.0201136139922029e-07,
-      "logits/chosen": -14.109712600708008,
-      "logits/rejected": -14.186027526855469,
-      "logps/chosen": -353.62469482421875,
-      "logps/rejected": -370.9365234375,
-      "loss": 0.551,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.5417202711105347,
-      "rewards/margins": 0.6182612180709839,
-      "rewards/rejected": -1.1599814891815186,
-      "step": 520
-    },
-    {
-      "epoch": 0.5548285789060455,
-      "grad_norm": 20.995271815473735,
-      "learning_rate": 9.835430398598318e-08,
-      "logits/chosen": -14.159637451171875,
-      "logits/rejected": -14.701879501342773,
-      "logps/chosen": -377.4815979003906,
-      "logps/rejected": -436.66632080078125,
-      "loss": 0.5273,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.3921489119529724,
-      "rewards/margins": 0.8064279556274414,
-      "rewards/rejected": -1.1985770463943481,
-      "step": 530
     },
     {
       "epoch": 0.5652970426589898,
-      "grad_norm": 18.50768834323812,
-      "learning_rate": 9.469944754529784e-08,
-      "logits/chosen": -13.86701488494873,
-      "logits/rejected": -14.368024826049805,
-      "logps/chosen": -343.15997314453125,
-      "logps/rejected": -376.8660583496094,
-      "loss": 0.548,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.6364974975585938,
-      "rewards/margins": 0.5513135194778442,
-      "rewards/rejected": -1.187811017036438,
-      "step": 540
-    },
-    {
-      "epoch": 0.575765506411934,
-      "grad_norm": 21.357543363893058,
-      "learning_rate": 9.105168012370371e-08,
-      "logits/chosen": -13.735044479370117,
-      "logits/rejected": -14.701571464538574,
-      "logps/chosen": -379.26495361328125,
-      "logps/rejected": -371.4606628417969,
-      "loss": 0.5351,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.69088214635849,
-      "rewards/margins": 0.4814137816429138,
-      "rewards/rejected": -1.1722959280014038,
-      "step": 550
     },
     {
       "epoch": 0.5862339701648783,
-      "grad_norm": 30.279493020621196,
-      "learning_rate": 8.741588028680564e-08,
-      "logits/chosen": -14.076385498046875,
-      "logits/rejected": -14.322651863098145,
-      "logps/chosen": -354.1212158203125,
-      "logps/rejected": -378.01654052734375,
-      "loss": 0.538,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.604841411113739,
-      "rewards/margins": 0.5136178135871887,
-      "rewards/rejected": -1.1184592247009277,
-      "step": 560
-    },
-    {
-      "epoch": 0.5967024339178225,
-      "grad_norm": 16.735647281024168,
-      "learning_rate": 8.379691059462476e-08,
-      "logits/chosen": -13.99199104309082,
-      "logits/rejected": -14.157026290893555,
-      "logps/chosen": -374.80938720703125,
-      "logps/rejected": -430.4781799316406,
-      "loss": 0.5302,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.6314277648925781,
-      "rewards/margins": 0.5574957132339478,
-      "rewards/rejected": -1.1889234781265259,
-      "step": 570
     },
     {
       "epoch": 0.6071708976707668,
-      "grad_norm": 34.538667245559054,
-      "learning_rate": 8.019961109835518e-08,
-      "logits/chosen": -14.209541320800781,
-      "logits/rejected": -14.323854446411133,
-      "logps/chosen": -338.95855712890625,
-      "logps/rejected": -397.41888427734375,
-      "loss": 0.5399,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.6777793765068054,
-      "rewards/margins": 0.6259523630142212,
-      "rewards/rejected": -1.3037316799163818,
-      "step": 580
-    },
-    {
-      "epoch": 0.6176393614237111,
-      "grad_norm": 26.479615574042146,
-      "learning_rate": 7.662879286722496e-08,
-      "logits/chosen": -13.325056076049805,
-      "logits/rejected": -13.995033264160156,
-      "logps/chosen": -348.37322998046875,
-      "logps/rejected": -410.867431640625,
-      "loss": 0.5221,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.5271872282028198,
-      "rewards/margins": 0.7677302360534668,
-      "rewards/rejected": -1.2949175834655762,
-      "step": 590
     },
     {
       "epoch": 0.6281078251766553,
-      "grad_norm": 17.223129668752573,
-      "learning_rate": 7.308923155411709e-08,
-      "logits/chosen": -14.02897834777832,
-      "logits/rejected": -14.710617065429688,
-      "logps/chosen": -403.61224365234375,
-      "logps/rejected": -422.0875549316406,
-      "loss": 0.5125,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.579394519329071,
-      "rewards/margins": 0.6035684943199158,
-      "rewards/rejected": -1.1829631328582764,
-      "step": 600
     },
     {
       "epoch": 0.6281078251766553,
-      "eval_logits/chosen": -14.112022399902344,
-      "eval_logits/rejected": -14.37132453918457,
-      "eval_logps/chosen": -371.89373779296875,
-      "eval_logps/rejected": -401.46051025390625,
-      "eval_loss": 0.5344283580780029,
-      "eval_rewards/accuracies": 0.6840000152587891,
-      "eval_rewards/chosen": -0.5757284164428711,
-      "eval_rewards/margins": 0.5947864651679993,
-      "eval_rewards/rejected": -1.1705149412155151,
-      "eval_runtime": 150.2044,
-      "eval_samples_per_second": 13.315,
       "eval_steps_per_second": 0.832,
-      "step": 600
-    },
-    {
-      "epoch": 0.6385762889295996,
-      "grad_norm": 15.068671602779133,
-      "learning_rate": 6.958566100855715e-08,
-      "logits/chosen": -13.8591890335083,
-      "logits/rejected": -14.538678169250488,
-      "logps/chosen": -354.1308288574219,
-      "logps/rejected": -361.6885070800781,
-      "loss": 0.535,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.481017529964447,
-      "rewards/margins": 0.7814317941665649,
-      "rewards/rejected": -1.2624493837356567,
-      "step": 610
     },
     {
       "epoch": 0.6490447526825438,
-      "grad_norm": 21.07918728015492,
-      "learning_rate": 6.612276694560927e-08,
-      "logits/chosen": -13.915349006652832,
-      "logits/rejected": -14.466160774230957,
-      "logps/chosen": -403.4571228027344,
-      "logps/rejected": -412.64520263671875,
-      "loss": 0.501,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.5299188494682312,
-      "rewards/margins": 0.7413763999938965,
-      "rewards/rejected": -1.271295189857483,
-      "step": 620
-    },
-    {
-      "epoch": 0.6595132164354881,
-      "grad_norm": 19.103702131187973,
-      "learning_rate": 6.270518067914745e-08,
-      "logits/chosen": -13.852685928344727,
-      "logits/rejected": -14.353567123413086,
-      "logps/chosen": -374.9162902832031,
-      "logps/rejected": -387.75860595703125,
-      "loss": 0.5089,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.5707219243049622,
-      "rewards/margins": 0.6046653389930725,
-      "rewards/rejected": -1.1753873825073242,
-      "step": 630
     },
     {
       "epoch": 0.6699816801884323,
-      "grad_norm": 26.795662212357737,
-      "learning_rate": 5.933747292788368e-08,
-      "logits/chosen": -13.633771896362305,
-      "logits/rejected": -13.929837226867676,
-      "logps/chosen": -328.4835205078125,
-      "logps/rejected": -389.5190734863281,
-      "loss": 0.5141,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.6092640161514282,
-      "rewards/margins": 0.7141542434692383,
-      "rewards/rejected": -1.323418378829956,
-      "step": 640
-    },
-    {
-      "epoch": 0.6804501439413766,
-      "grad_norm": 26.384619321462868,
-      "learning_rate": 5.6024147702436975e-08,
-      "logits/chosen": -13.914807319641113,
-      "logits/rejected": -14.317163467407227,
-      "logps/chosen": -386.0091247558594,
-      "logps/rejected": -435.4970703125,
-      "loss": 0.5178,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.7489283680915833,
-      "rewards/margins": 0.6266080141067505,
-      "rewards/rejected": -1.3755362033843994,
-      "step": 650
     },
     {
       "epoch": 0.6909186076943209,
-      "grad_norm": 32.16033561247209,
-      "learning_rate": 5.276963628161832e-08,
-      "logits/chosen": -13.31103229522705,
-      "logits/rejected": -13.394811630249023,
-      "logps/chosen": -323.6170349121094,
-      "logps/rejected": -388.63958740234375,
-      "loss": 0.5084,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.49584946036338806,
-      "rewards/margins": 0.8416509628295898,
-      "rewards/rejected": -1.3375004529953003,
-      "step": 660
-    },
-    {
-      "epoch": 0.7013870714472651,
-      "grad_norm": 24.949872599196897,
-      "learning_rate": 4.95782912859878e-08,
-      "logits/chosen": -13.573728561401367,
-      "logits/rejected": -13.890779495239258,
-      "logps/chosen": -366.00323486328125,
-      "logps/rejected": -416.9151916503906,
-      "loss": 0.5086,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.6050105094909668,
-      "rewards/margins": 0.8032246828079224,
-      "rewards/rejected": -1.4082351922988892,
-      "step": 670
     },
     {
       "epoch": 0.7118555352002094,
-      "grad_norm": 38.50640287081186,
-      "learning_rate": 4.645438085661084e-08,
-      "logits/chosen": -14.350041389465332,
-      "logits/rejected": -14.588415145874023,
-      "logps/chosen": -355.0298156738281,
-      "logps/rejected": -394.2617492675781,
-      "loss": 0.5374,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.6707770824432373,
-      "rewards/margins": 0.42906999588012695,
-      "rewards/rejected": -1.0998470783233643,
-      "step": 680
-    },
-    {
-      "epoch": 0.7223239989531536,
-      "grad_norm": 24.422507206522518,
-      "learning_rate": 4.340208294679745e-08,
-      "logits/chosen": -13.968500137329102,
-      "logits/rejected": -14.3223876953125,
-      "logps/chosen": -341.5804748535156,
-      "logps/rejected": -367.90045166015625,
-      "loss": 0.5023,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.6214663982391357,
-      "rewards/margins": 0.579698383808136,
-      "rewards/rejected": -1.201164722442627,
-      "step": 690
-    },
-    {
-      "epoch": 0.7327924627060979,
-      "grad_norm": 16.46994924986635,
-      "learning_rate": 4.042547973446017e-08,
-      "logits/chosen": -13.902259826660156,
-      "logits/rejected": -14.259056091308594,
-      "logps/chosen": -358.53607177734375,
-      "logps/rejected": -394.62664794921875,
-      "loss": 0.5158,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.6609233617782593,
-      "rewards/margins": 0.5934489369392395,
-      "rewards/rejected": -1.2543723583221436,
-      "step": 700
     },
     {
       "epoch": 0.7327924627060979,
-      "eval_logits/chosen": -14.100985527038574,
-      "eval_logits/rejected": -14.28322696685791,
-      "eval_logps/chosen": -376.5181579589844,
-      "eval_logps/rejected": -407.68670654296875,
-      "eval_loss": 0.5316002368927002,
-      "eval_rewards/accuracies": 0.6759999990463257,
-      "eval_rewards/chosen": -0.6219725012779236,
-      "eval_rewards/margins": 0.610804557800293,
-      "eval_rewards/rejected": -1.2327771186828613,
-      "eval_runtime": 149.412,
-      "eval_samples_per_second": 13.386,
-      "eval_steps_per_second": 0.837,
-      "step": 700
-    },
-    {
-      "epoch": 0.7432609264590422,
-      "grad_norm": 21.302516106563797,
-      "learning_rate": 3.7528552162562855e-08,
-      "logits/chosen": -14.20964527130127,
-      "logits/rejected": -14.762395858764648,
-      "logps/chosen": -352.42864990234375,
-      "logps/rejected": -357.80755615234375,
-      "loss": 0.5624,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.6552818417549133,
-      "rewards/margins": 0.563475489616394,
-      "rewards/rejected": -1.2187573909759521,
-      "step": 710
     },
     {
       "epoch": 0.7537293902119864,
-      "grad_norm": 21.028434452167787,
-      "learning_rate": 3.471517461496253e-08,
-      "logits/chosen": -13.895108222961426,
-      "logits/rejected": -14.63810920715332,
-      "logps/chosen": -447.4383850097656,
-      "logps/rejected": -481.58978271484375,
-      "loss": 0.5124,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.5006210207939148,
-      "rewards/margins": 0.9197198152542114,
-      "rewards/rejected": -1.420340895652771,
-      "step": 720
-    },
-    {
-      "epoch": 0.7641978539649307,
-      "grad_norm": 14.730020567879517,
-      "learning_rate": 3.198910973476393e-08,
-      "logits/chosen": -13.825230598449707,
-      "logits/rejected": -14.049738883972168,
-      "logps/chosen": -334.89404296875,
-      "logps/rejected": -387.7596740722656,
-      "loss": 0.5295,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.5604512691497803,
-      "rewards/margins": 0.7153105735778809,
-      "rewards/rejected": -1.2757618427276611,
-      "step": 730
     },
     {
       "epoch": 0.7746663177178749,
-      "grad_norm": 24.660611283550825,
-      "learning_rate": 2.935400339211841e-08,
-      "logits/chosen": -13.387316703796387,
-      "logits/rejected": -14.199974060058594,
-      "logps/chosen": -387.7333068847656,
-      "logps/rejected": -383.7166748046875,
-      "loss": 0.5282,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.6691089868545532,
-      "rewards/margins": 0.6580344438552856,
-      "rewards/rejected": -1.3271434307098389,
-      "step": 740
-    },
-    {
-      "epoch": 0.7851347814708192,
-      "grad_norm": 13.767843648079221,
-      "learning_rate": 2.6813379808195357e-08,
-      "logits/chosen": -14.288251876831055,
-      "logits/rejected": -14.359420776367188,
-      "logps/chosen": -339.8260498046875,
-      "logps/rejected": -450.6610412597656,
-      "loss": 0.509,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.5569700598716736,
-      "rewards/margins": 0.9691677093505859,
-      "rewards/rejected": -1.5261377096176147,
-      "step": 750
     },
     {
       "epoch": 0.7956032452237635,
-      "grad_norm": 25.07672836114235,
-      "learning_rate": 2.4370636841848924e-08,
-      "logits/chosen": -13.93481159210205,
-      "logits/rejected": -14.752789497375488,
-      "logps/chosen": -405.8631286621094,
-      "logps/rejected": -400.44769287109375,
-      "loss": 0.5268,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.7553908228874207,
-      "rewards/margins": 0.6457816958427429,
-      "rewards/rejected": -1.401172399520874,
-      "step": 760
-    },
-    {
-      "epoch": 0.8060717089767077,
-      "grad_norm": 23.918260657300134,
-      "learning_rate": 2.202904144528295e-08,
-      "logits/chosen": -14.572360038757324,
-      "logits/rejected": -14.208137512207031,
-      "logps/chosen": -367.49468994140625,
-      "logps/rejected": -460.3101501464844,
-      "loss": 0.5074,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.5758759379386902,
-      "rewards/margins": 0.6287983655929565,
-      "rewards/rejected": -1.204674243927002,
-      "step": 770
     },
     {
       "epoch": 0.816540172729652,
-      "grad_norm": 17.468797083009278,
-      "learning_rate": 1.9791725294791928e-08,
-      "logits/chosen": -13.938896179199219,
-      "logits/rejected": -14.410066604614258,
-      "logps/chosen": -356.8143615722656,
-      "logps/rejected": -365.7565612792969,
-      "loss": 0.5266,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.4405798017978668,
-      "rewards/margins": 0.6074010133743286,
-      "rewards/rejected": -1.047980785369873,
-      "step": 780
-    },
-    {
-      "epoch": 0.8270086364825961,
-      "grad_norm": 25.443458513615624,
-      "learning_rate": 1.766168060242159e-08,
-      "logits/chosen": -14.38599681854248,
-      "logits/rejected": -14.689620971679688,
-      "logps/chosen": -313.2379455566406,
-      "logps/rejected": -354.0423889160156,
-      "loss": 0.5395,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5758354663848877,
-      "rewards/margins": 0.5628177523612976,
-      "rewards/rejected": -1.1386531591415405,
-      "step": 790
     },
     {
       "epoch": 0.8374771002355405,
-      "grad_norm": 16.137468651826794,
-      "learning_rate": 1.564175611415055e-08,
-      "logits/chosen": -13.394170761108398,
-      "logits/rejected": -13.763336181640625,
-      "logps/chosen": -310.41693115234375,
-      "logps/rejected": -387.755615234375,
-      "loss": 0.5133,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.5183297991752625,
-      "rewards/margins": 0.797841489315033,
-      "rewards/rejected": -1.316171407699585,
-      "step": 800
     },
     {
       "epoch": 0.8374771002355405,
-      "eval_logits/chosen": -14.09082317352295,
-      "eval_logits/rejected": -14.274714469909668,
-      "eval_logps/chosen": -376.9043273925781,
-      "eval_logps/rejected": -408.9254150390625,
-      "eval_loss": 0.527787446975708,
-      "eval_rewards/accuracies": 0.6800000071525574,
-      "eval_rewards/chosen": -0.6258336901664734,
-      "eval_rewards/margins": 0.6193299293518066,
-      "eval_rewards/rejected": -1.2451636791229248,
-      "eval_runtime": 149.3494,
-      "eval_samples_per_second": 13.391,
-      "eval_steps_per_second": 0.837,
-      "step": 800
-    },
-    {
-      "epoch": 0.8479455639884846,
-      "grad_norm": 22.038018685540855,
-      "learning_rate": 1.3734653299944831e-08,
-      "logits/chosen": -13.653346061706543,
-      "logits/rejected": -14.236944198608398,
-      "logps/chosen": -420.22412109375,
-      "logps/rejected": -421.231201171875,
-      "loss": 0.532,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.6482435464859009,
-      "rewards/margins": 0.6211605072021484,
-      "rewards/rejected": -1.2694040536880493,
-      "step": 810
     },
     {
       "epoch": 0.8584140277414289,
-      "grad_norm": 25.08502183374406,
-      "learning_rate": 1.1942922740781558e-08,
-      "logits/chosen": -13.920855522155762,
-      "logits/rejected": -14.378143310546875,
-      "logps/chosen": -371.789794921875,
-      "logps/rejected": -409.6880798339844,
-      "loss": 0.5193,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.6346549987792969,
-      "rewards/margins": 0.6358563303947449,
-      "rewards/rejected": -1.270511269569397,
-      "step": 820
-    },
-    {
-      "epoch": 0.8688824914943732,
-      "grad_norm": 16.83996659028827,
-      "learning_rate": 1.0268960717472741e-08,
-      "logits/chosen": -14.19860553741455,
-      "logits/rejected": -14.166885375976562,
-      "logps/chosen": -347.3482971191406,
-      "logps/rejected": -415.2900390625,
-      "loss": 0.5355,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.5952852368354797,
-      "rewards/margins": 0.6116087436676025,
-      "rewards/rejected": -1.2068939208984375,
-      "step": 830
     },
     {
       "epoch": 0.8793509552473174,
-      "grad_norm": 16.08177687112279,
-      "learning_rate": 8.715006005852143e-09,
-      "logits/chosen": -14.115530014038086,
-      "logits/rejected": -14.573888778686523,
-      "logps/chosen": -362.61724853515625,
-      "logps/rejected": -457.84942626953125,
-      "loss": 0.4976,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.6578099727630615,
-      "rewards/margins": 0.8440145254135132,
-      "rewards/rejected": -1.5018243789672852,
-      "step": 840
-    },
-    {
-      "epoch": 0.8898194190002617,
-      "grad_norm": 39.033655096711556,
-      "learning_rate": 7.2831368826110625e-09,
-      "logits/chosen": -14.004640579223633,
-      "logits/rejected": -14.758051872253418,
-      "logps/chosen": -382.56427001953125,
-      "logps/rejected": -397.9862365722656,
-      "loss": 0.5084,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.5773628354072571,
-      "rewards/margins": 0.7263933420181274,
-      "rewards/rejected": -1.3037563562393188,
-      "step": 850
     },
     {
       "epoch": 0.9002878827532059,
-      "grad_norm": 19.748822633492768,
-      "learning_rate": 5.975268345787455e-09,
-      "logits/chosen": -13.904319763183594,
-      "logits/rejected": -13.906578063964844,
-      "logps/chosen": -398.3722839355469,
-      "logps/rejected": -399.95306396484375,
-      "loss": 0.5106,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.6384676694869995,
-      "rewards/margins": 0.6380214691162109,
-      "rewards/rejected": -1.276489019393921,
-      "step": 860
-    },
-    {
-      "epoch": 0.9107563465061502,
-      "grad_norm": 59.31572753609887,
-      "learning_rate": 4.793149553625786e-09,
-      "logits/chosen": -14.279424667358398,
-      "logits/rejected": -14.221160888671875,
-      "logps/chosen": -333.5687255859375,
-      "logps/rejected": -372.06304931640625,
-      "loss": 0.5295,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5818564295768738,
-      "rewards/margins": 0.6132394075393677,
-      "rewards/rejected": -1.1950958967208862,
-      "step": 870
     },
     {
       "epoch": 0.9212248102590945,
-      "grad_norm": 13.400208624148753,
-      "learning_rate": 3.7383614852329214e-09,
-      "logits/chosen": -14.04296588897705,
-      "logits/rejected": -14.601972579956055,
-      "logps/chosen": -374.31024169921875,
-      "logps/rejected": -394.02618408203125,
-      "loss": 0.5216,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.5409375429153442,
-      "rewards/margins": 0.7117520570755005,
-      "rewards/rejected": -1.2526895999908447,
-      "step": 880
-    },
-    {
-      "epoch": 0.9316932740120387,
-      "grad_norm": 23.713770091143388,
-      "learning_rate": 2.812314826158746e-09,
-      "logits/chosen": -13.538187026977539,
-      "logits/rejected": -13.821019172668457,
-      "logps/chosen": -342.670654296875,
-      "logps/rejected": -417.42608642578125,
-      "loss": 0.5146,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5183156728744507,
-      "rewards/margins": 0.8244325518608093,
-      "rewards/rejected": -1.3427482843399048,
-      "step": 890
-    },
-    {
-      "epoch": 0.942161737764983,
-      "grad_norm": 17.247650815291333,
-      "learning_rate": 2.016248081729144e-09,
-      "logits/chosen": -14.117114067077637,
-      "logits/rejected": -14.199200630187988,
-      "logps/chosen": -360.4630126953125,
-      "logps/rejected": -437.9790954589844,
-      "loss": 0.5098,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.5845374464988708,
-      "rewards/margins": 0.8339082598686218,
-      "rewards/rejected": -1.4184458255767822,
-      "step": 900
     },
     {
       "epoch": 0.942161737764983,
-      "eval_logits/chosen": -14.10096263885498,
-      "eval_logits/rejected": -14.284878730773926,
-      "eval_logps/chosen": -374.75311279296875,
-      "eval_logps/rejected": -407.1072998046875,
-      "eval_loss": 0.5276437997817993,
-      "eval_rewards/accuracies": 0.6959999799728394,
-      "eval_rewards/chosen": -0.6043218970298767,
-      "eval_rewards/margins": 0.6226609349250793,
-      "eval_rewards/rejected": -1.2269827127456665,
-      "eval_runtime": 149.3336,
-      "eval_samples_per_second": 13.393,
-      "eval_steps_per_second": 0.837,
-      "step": 900
-    },
-    {
-      "epoch": 0.9526302015179272,
-      "grad_norm": 38.823289395104936,
-      "learning_rate": 1.3512259206550746e-09,
-      "logits/chosen": -13.173808097839355,
-      "logits/rejected": -14.06005573272705,
-      "logps/chosen": -376.40521240234375,
-      "logps/rejected": -369.52972412109375,
-      "loss": 0.5286,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.6154804229736328,
-      "rewards/margins": 0.589421272277832,
-      "rewards/rejected": -1.2049016952514648,
-      "step": 910
     },
     {
       "epoch": 0.9630986652708715,
-      "grad_norm": 32.054517995284215,
-      "learning_rate": 8.181377511324306e-10,
-      "logits/chosen": -14.00465202331543,
-      "logits/rejected": -14.40130615234375,
-      "logps/chosen": -339.0160217285156,
-      "logps/rejected": -404.2559814453125,
-      "loss": 0.5282,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.569662868976593,
-      "rewards/margins": 0.7953134179115295,
-      "rewards/rejected": -1.3649762868881226,
-      "step": 920
-    },
-    {
-      "epoch": 0.9735671290238157,
-      "grad_norm": 24.37374985565681,
-      "learning_rate": 4.1769653133743035e-10,
-      "logits/chosen": -14.06200885772705,
-      "logits/rejected": -14.65931510925293,
-      "logps/chosen": -348.43487548828125,
-      "logps/rejected": -376.7773132324219,
-      "loss": 0.4989,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.5918719172477722,
-      "rewards/margins": 0.6253038644790649,
-      "rewards/rejected": -1.2171757221221924,
-      "step": 930
     },
     {
       "epoch": 0.98403559277676,
-      "grad_norm": 17.872968337546382,
-      "learning_rate": 1.5043781590823313e-10,
-      "logits/chosen": -14.47838020324707,
-      "logits/rejected": -14.449295043945312,
-      "logps/chosen": -370.87957763671875,
-      "logps/rejected": -464.7237243652344,
-      "loss": 0.5148,
       "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.6222177743911743,
-      "rewards/margins": 0.7162548899650574,
-      "rewards/rejected": -1.338472604751587,
-      "step": 940
-    },
-    {
-      "epoch": 0.9945040565297043,
-      "grad_norm": 22.704537546218425,
-      "learning_rate": 1.671903968816224e-11,
-      "logits/chosen": -13.458340644836426,
-      "logits/rejected": -13.864636421203613,
-      "logps/chosen": -367.2121276855469,
-      "logps/rejected": -387.31488037109375,
-      "loss": 0.5191,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.6486170887947083,
-      "rewards/margins": 0.6029497385025024,
-      "rewards/rejected": -1.2515666484832764,
-      "step": 950
     },
     {
-      "epoch": 0.9997382884061764,
-      "step": 955,
       "total_flos": 0.0,
-      "train_loss": 0.560625178402007,
-      "train_runtime": 12630.0326,
-      "train_samples_per_second": 4.84,
-      "train_steps_per_second": 0.076
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 955,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9965977492802931,
+  "eval_steps": 50,
+  "global_step": 238,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.004187385501177702,
+      "grad_norm": 0.41322922094683573,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -8.027767181396484,
+      "logits/rejected": -8.085662841796875,
+      "logps/chosen": -315.0633544921875,
+      "logps/rejected": -339.5360412597656,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/rejected": 0.0,
       "step": 1
     },
     {
       "epoch": 0.02093692750588851,
+      "grad_norm": 0.3749268511204142,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -8.285957336425781,
+      "logits/rejected": -8.363251686096191,
+      "logps/chosen": -328.44573974609375,
+      "logps/rejected": -294.34893798828125,
       "loss": 0.6931,
+      "rewards/accuracies": 0.3984375,
+      "rewards/chosen": 5.56520426471252e-05,
+      "rewards/margins": -1.4014758562552743e-05,
+      "rewards/rejected": 6.966680666664615e-05,
+      "step": 5
     },
     {
       "epoch": 0.04187385501177702,
+      "grad_norm": 0.3783566632626705,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -7.978540897369385,
+      "logits/rejected": -8.10208797454834,
+      "logps/chosen": -298.9517822265625,
+      "logps/rejected": -284.9400329589844,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": 4.78029360237997e-05,
+      "rewards/margins": -1.2775728464475833e-05,
+      "rewards/rejected": 6.0578669945243746e-05,
+      "step": 10
     },
     {
       "epoch": 0.06281078251766553,
+      "grad_norm": 0.365811115381345,
+      "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -8.248689651489258,
+      "logits/rejected": -8.808431625366211,
+      "logps/chosen": -327.92962646484375,
+      "logps/rejected": -271.6505432128906,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": 0.00027168082306161523,
+      "rewards/margins": -3.7765556044178084e-05,
+      "rewards/rejected": 0.0003094463318120688,
+      "step": 15
     },
     {
       "epoch": 0.08374771002355404,
+      "grad_norm": 0.38119222418916227,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -8.283721923828125,
+      "logits/rejected": -8.563437461853027,
+      "logps/chosen": -270.73004150390625,
+      "logps/rejected": -264.69805908203125,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.0011856909841299057,
+      "rewards/margins": 0.00045584110193885863,
+      "rewards/rejected": 0.0007298499112948775,
+      "step": 20
     },
     {
       "epoch": 0.10468463752944256,
+      "grad_norm": 0.3717131307404656,
+      "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -8.32921028137207,
+      "logits/rejected": -8.343989372253418,
+      "logps/chosen": -285.73162841796875,
+      "logps/rejected": -277.33428955078125,
+      "loss": 0.6926,
       "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.0029997099190950394,
+      "rewards/margins": 0.001172252232208848,
+      "rewards/rejected": 0.0018274573376402259,
+      "step": 25
     },
     {
+      "epoch": 0.12562156503533106,
+      "grad_norm": 0.41761867743254133,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -8.842605590820312,
+      "logits/rejected": -8.617189407348633,
+      "logps/chosen": -271.97125244140625,
+      "logps/rejected": -261.83111572265625,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.005933535750955343,
+      "rewards/margins": 0.002372791524976492,
+      "rewards/rejected": 0.0035607446916401386,
+      "step": 30
     },
     {
       "epoch": 0.14655849254121958,
+      "grad_norm": 0.3733417083873318,
+      "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -8.783945083618164,
+      "logits/rejected": -8.695141792297363,
+      "logps/chosen": -318.70452880859375,
+      "logps/rejected": -294.575927734375,
+      "loss": 0.6911,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.007537335157394409,
+      "rewards/margins": 0.0031830158550292253,
+      "rewards/rejected": 0.0043543195351958275,
+      "step": 35
     },
     {
       "epoch": 0.16749542004710807,
+      "grad_norm": 0.4685368279017966,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -8.875042915344238,
+      "logits/rejected": -9.194344520568848,
+      "logps/chosen": -313.56195068359375,
+      "logps/rejected": -266.4806823730469,
+      "loss": 0.6898,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": 0.005330189131200314,
+      "rewards/margins": 0.00792426336556673,
+      "rewards/rejected": -0.0025940726045519114,
+      "step": 40
     },
     {
       "epoch": 0.1884323475529966,
+      "grad_norm": 0.5132211674073757,
+      "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -10.095111846923828,
+      "logits/rejected": -10.34981632232666,
+      "logps/chosen": -288.3968200683594,
+      "logps/rejected": -279.54132080078125,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.006939026527106762,
+      "rewards/margins": 0.010522229596972466,
+      "rewards/rejected": -0.01746125891804695,
+      "step": 45
     },
     {
       "epoch": 0.2093692750588851,
+      "grad_norm": 0.670419675961168,
+      "learning_rate": 4.998633143352315e-07,
+      "logits/chosen": -11.052873611450195,
+      "logits/rejected": -11.20246696472168,
+      "logps/chosen": -314.8858337402344,
+      "logps/rejected": -331.8305969238281,
+      "loss": 0.6835,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.007041523698717356,
+      "rewards/margins": 0.02735614776611328,
+      "rewards/rejected": -0.0343976691365242,
+      "step": 50
     },
     {
       "epoch": 0.2093692750588851,
+      "eval_logits/chosen": -11.340270042419434,
+      "eval_logits/rejected": -11.638143539428711,
+      "eval_logps/chosen": -336.09466552734375,
+      "eval_logps/rejected": -328.0053405761719,
+      "eval_loss": 0.6815094351768494,
+      "eval_rewards/accuracies": 0.656000018119812,
+      "eval_rewards/chosen": -0.021773764863610268,
+      "eval_rewards/margins": 0.02182256057858467,
+      "eval_rewards/rejected": -0.04359632730484009,
+      "eval_runtime": 150.9435,
+      "eval_samples_per_second": 13.25,
+      "eval_steps_per_second": 0.828,
+      "step": 50
     },
     {
       "epoch": 0.23030620256477363,
+      "grad_norm": 0.7268891633247492,
+      "learning_rate": 4.983273165884096e-07,
+      "logits/chosen": -11.379460334777832,
+      "logits/rejected": -12.12627124786377,
+      "logps/chosen": -355.1887512207031,
+      "logps/rejected": -343.373046875,
+      "loss": 0.6809,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.04076331481337547,
+      "rewards/margins": 0.02745387889444828,
+      "rewards/rejected": -0.0682171955704689,
+      "step": 55
     },
     {
       "epoch": 0.2512431300706621,
+      "grad_norm": 1.1651426700711027,
+      "learning_rate": 4.950949914687024e-07,
+      "logits/chosen": -12.13168716430664,
+      "logits/rejected": -12.4894380569458,
+      "logps/chosen": -346.7480163574219,
+      "logps/rejected": -366.7667236328125,
+      "loss": 0.674,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.06704720854759216,
+      "rewards/margins": 0.03310731425881386,
+      "rewards/rejected": -0.10015451908111572,
+      "step": 60
     },
     {
       "epoch": 0.2721800575765506,
+      "grad_norm": 1.3796192618478396,
+      "learning_rate": 4.901884190342121e-07,
+      "logits/chosen": -12.9432373046875,
+      "logits/rejected": -13.217244148254395,
+      "logps/chosen": -414.9393615722656,
+      "logps/rejected": -431.466796875,
+      "loss": 0.6675,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.10360779613256454,
+      "rewards/margins": 0.05821988731622696,
+      "rewards/rejected": -0.16182765364646912,
+      "step": 65
     },
     {
       "epoch": 0.29311698508243916,
+      "grad_norm": 1.3517064281641342,
+      "learning_rate": 4.836411161498652e-07,
+      "logits/chosen": -13.74645709991455,
+      "logits/rejected": -14.12658977508545,
+      "logps/chosen": -480.12762451171875,
+      "logps/rejected": -511.24481201171875,
+      "loss": 0.6615,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.1500854343175888,
+      "rewards/margins": 0.07933008670806885,
+      "rewards/rejected": -0.22941550612449646,
+      "step": 70
     },
     {
       "epoch": 0.31405391258832765,
+      "grad_norm": 2.2837508840523095,
+      "learning_rate": 4.754978075332398e-07,
+      "logits/chosen": -15.218640327453613,
+      "logits/rejected": -15.693450927734375,
+      "logps/chosen": -540.690185546875,
+      "logps/rejected": -628.9052124023438,
+      "loss": 0.6596,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.23948459327220917,
+      "rewards/margins": 0.11436040699481964,
+      "rewards/rejected": -0.3538450300693512,
+      "step": 75
     },
     {
       "epoch": 0.33499084009421615,
+      "grad_norm": 1.7535426886006145,
+      "learning_rate": 4.6581412023939346e-07,
+      "logits/chosen": -16.318897247314453,
+      "logits/rejected": -16.302444458007812,
+      "logps/chosen": -605.7731323242188,
+      "logps/rejected": -758.9752807617188,
+      "loss": 0.6472,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.3184322416782379,
+      "rewards/margins": 0.16458377242088318,
+      "rewards/rejected": -0.4830159544944763,
+      "step": 80
     },
     {
       "epoch": 0.3559277676001047,
+      "grad_norm": 2.6529186768831545,
+      "learning_rate": 4.546562036716731e-07,
+      "logits/chosen": -16.481460571289062,
+      "logits/rejected": -16.788829803466797,
+      "logps/chosen": -638.745849609375,
+      "logps/rejected": -767.808837890625,
+      "loss": 0.6476,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.3655020594596863,
+      "rewards/margins": 0.1500101387500763,
+      "rewards/rejected": -0.5155122876167297,
+      "step": 85
     },
     {
       "epoch": 0.3768646951059932,
+      "grad_norm": 2.72153138496113,
+      "learning_rate": 4.4210027771421476e-07,
+      "logits/chosen": -17.021060943603516,
+      "logits/rejected": -17.08652114868164,
+      "logps/chosen": -752.3135375976562,
+      "logps/rejected": -926.8680419921875,
+      "loss": 0.6236,
       "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.4733971953392029,
+      "rewards/margins": 0.16153177618980408,
+      "rewards/rejected": -0.6349289417266846,
+      "step": 90
     },
     {
+      "epoch": 0.39780162261188173,
+      "grad_norm": 2.6592008129120215,
+      "learning_rate": 4.282321120728493e-07,
+      "logits/chosen": -16.358983993530273,
+      "logits/rejected": -16.262645721435547,
+      "logps/chosen": -745.8214111328125,
+      "logps/rejected": -967.6781005859375,
+      "loss": 0.635,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.457266241312027,
+      "rewards/margins": 0.20888647437095642,
+      "rewards/rejected": -0.6661526560783386,
+      "step": 95
     },
     {
       "epoch": 0.4187385501177702,
+      "grad_norm": 3.1808401845251506,
+      "learning_rate": 4.1314644038104213e-07,
+      "logits/chosen": -15.009060859680176,
+      "logits/rejected": -15.336482048034668,
+      "logps/chosen": -740.966064453125,
+      "logps/rejected": -862.05712890625,
+      "loss": 0.6243,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.45071443915367126,
+      "rewards/margins": 0.12646019458770752,
+      "rewards/rejected": -0.5771746635437012,
+      "step": 100
     },
     {
       "epoch": 0.4187385501177702,
+      "eval_logits/chosen": -15.678736686706543,
+      "eval_logits/rejected": -15.50975227355957,
+      "eval_logps/chosen": -838.1255493164062,
+      "eval_logps/rejected": -1037.213623046875,
+      "eval_loss": 0.6229372024536133,
+      "eval_rewards/accuracies": 0.6600000262260437,
+      "eval_rewards/chosen": -0.5238046050071716,
+      "eval_rewards/margins": 0.229000061750412,
+      "eval_rewards/rejected": -0.752804696559906,
+      "eval_runtime": 150.6688,
+      "eval_samples_per_second": 13.274,
+      "eval_steps_per_second": 0.83,
+      "step": 100
     },
     {
       "epoch": 0.4396754776236587,
+      "grad_norm": 3.6393194741175043,
+      "learning_rate": 3.9694631307311825e-07,
+      "logits/chosen": -15.765314102172852,
+      "logits/rejected": -15.19013500213623,
+      "logps/chosen": -911.4410400390625,
+      "logps/rejected": -1072.3721923828125,
+      "loss": 0.6298,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.5906545519828796,
+      "rewards/margins": 0.2006884515285492,
+      "rewards/rejected": -0.7913430333137512,
+      "step": 105
     },
     {
       "epoch": 0.46061240512954726,
+      "grad_norm": 4.619726408628701,
+      "learning_rate": 3.797423934453038e-07,
+      "logits/chosen": -15.227154731750488,
+      "logits/rejected": -15.2573881149292,
+      "logps/chosen": -897.2864379882812,
+      "logps/rejected": -1104.17578125,
+      "loss": 0.6083,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.6274054050445557,
+      "rewards/margins": 0.2075110673904419,
+      "rewards/rejected": -0.8349164724349976,
+      "step": 110
     },
     {
       "epoch": 0.48154933263543576,
+      "grad_norm": 4.936193430576564,
+      "learning_rate": 3.6165220171320164e-07,
+      "logits/chosen": -15.75273609161377,
+      "logits/rejected": -15.582818984985352,
+      "logps/chosen": -940.6126098632812,
+      "logps/rejected": -1408.8499755859375,
+      "loss": 0.6105,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.6616717576980591,
+      "rewards/margins": 0.451225221157074,
+      "rewards/rejected": -1.1128969192504883,
+      "step": 115
     },
     {
       "epoch": 0.5024862601413242,
+      "grad_norm": 4.0220824325322155,
+      "learning_rate": 3.4279931222955516e-07,
+      "logits/chosen": -14.798166275024414,
+      "logits/rejected": -14.821731567382812,
+      "logps/chosen": -762.6677856445312,
+      "logps/rejected": -1019.94677734375,
+      "loss": 0.5999,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.48045119643211365,
+      "rewards/margins": 0.26533186435699463,
+      "rewards/rejected": -0.7457829713821411,
+      "step": 120
     },
     {
       "epoch": 0.5234231876472127,
+      "grad_norm": 5.124454609764516,
+      "learning_rate": 3.233125093461162e-07,
+      "logits/chosen": -14.470125198364258,
+      "logits/rejected": -14.480206489562988,
+      "logps/chosen": -922.26708984375,
+      "logps/rejected": -1210.3658447265625,
+      "loss": 0.6,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.5987042188644409,
+      "rewards/margins": 0.3204038441181183,
+      "rewards/rejected": -0.9191079139709473,
+      "step": 125
     },
     {
       "epoch": 0.5443601151531012,
+      "grad_norm": 13.38213845011268,
+      "learning_rate": 3.033249076859367e-07,
+      "logits/chosen": -14.465197563171387,
+      "logits/rejected": -14.281991958618164,
+      "logps/chosen": -1182.00732421875,
+      "logps/rejected": -1630.92333984375,
+      "loss": 0.5923,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8785597085952759,
+      "rewards/margins": 0.4840659201145172,
+      "rewards/rejected": -1.3626257181167603,
+      "step": 130
     },
     {
       "epoch": 0.5652970426589898,
+      "grad_norm": 4.505485837442961,
+      "learning_rate": 2.8297304283551724e-07,
+      "logits/chosen": -13.903594970703125,
+      "logits/rejected": -13.29607105255127,
+      "logps/chosen": -865.8912963867188,
+      "logps/rejected": -1264.981201171875,
+      "loss": 0.6025,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.5570029020309448,
+      "rewards/margins": 0.4205314517021179,
+      "rewards/rejected": -0.9775344729423523,
+      "step": 135
     },
     {
       "epoch": 0.5862339701648783,
+      "grad_norm": 7.955445077360379,
+      "learning_rate": 2.6239593866830556e-07,
+      "logits/chosen": -14.410888671875,
+      "logits/rejected": -13.651044845581055,
+      "logps/chosen": -876.46044921875,
+      "logps/rejected": -1102.4383544921875,
+      "loss": 0.5961,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.5745535492897034,
+      "rewards/margins": 0.26768410205841064,
+      "rewards/rejected": -0.842237651348114,
+      "step": 140
     },
     {
       "epoch": 0.6071708976707668,
+      "grad_norm": 6.562592794957003,
+      "learning_rate": 2.4173415767067293e-07,
+      "logits/chosen": -14.869283676147461,
+      "logits/rejected": -14.766156196594238,
+      "logps/chosen": -1157.8944091796875,
+      "logps/rejected": -1581.955810546875,
+      "loss": 0.5867,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.866470992565155,
+      "rewards/margins": 0.4261693060398102,
+      "rewards/rejected": -1.2926403284072876,
+      "step": 145
     },
     {
       "epoch": 0.6281078251766553,
+      "grad_norm": 5.969306865423692,
+      "learning_rate": 2.2112884075760347e-07,
+      "logits/chosen": -15.083928108215332,
+      "logits/rejected": -14.58642578125,
+      "logps/chosen": -949.1544189453125,
+      "logps/rejected": -1470.0855712890625,
+      "loss": 0.5625,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.628490686416626,
+      "rewards/margins": 0.5490113496780396,
+      "rewards/rejected": -1.177502155303955,
+      "step": 150
     },
     {
       "epoch": 0.6281078251766553,
+      "eval_logits/chosen": -15.179731369018555,
+      "eval_logits/rejected": -14.774624824523926,
+      "eval_logps/chosen": -1032.8834228515625,
+      "eval_logps/rejected": -1471.7362060546875,
+      "eval_loss": 0.5793285965919495,
+      "eval_rewards/accuracies": 0.6880000233650208,
+      "eval_rewards/chosen": -0.7185624241828918,
+      "eval_rewards/margins": 0.4687648415565491,
+      "eval_rewards/rejected": -1.187327265739441,
+      "eval_runtime": 150.2684,
+      "eval_samples_per_second": 13.31,
       "eval_steps_per_second": 0.832,
+      "step": 150
     },
     {
       "epoch": 0.6490447526825438,
+      "grad_norm": 11.88961718187316,
+      "learning_rate": 2.0072074313712993e-07,
+      "logits/chosen": -15.340092658996582,
+      "logits/rejected": -15.312405586242676,
+      "logps/chosen": -1098.570068359375,
+      "logps/rejected": -1679.193603515625,
+      "loss": 0.5753,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.7703229188919067,
+      "rewards/margins": 0.6483911275863647,
+      "rewards/rejected": -1.418714165687561,
+      "step": 155
     },
     {
       "epoch": 0.6699816801884323,
+      "grad_norm": 8.601486869561926,
+      "learning_rate": 1.806492728095389e-07,
+      "logits/chosen": -15.2809476852417,
+      "logits/rejected": -14.993128776550293,
+      "logps/chosen": -1034.3973388671875,
+      "logps/rejected": -1639.748779296875,
+      "loss": 0.5623,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.7416967153549194,
+      "rewards/margins": 0.634353518486023,
+      "rewards/rejected": -1.376050353050232,
+      "step": 160
     },
     {
       "epoch": 0.6909186076943209,
+      "grad_norm": 9.897007035455301,
+      "learning_rate": 1.6105153826937085e-07,
+      "logits/chosen": -14.975976943969727,
+      "logits/rejected": -14.773465156555176,
+      "logps/chosen": -1030.3551025390625,
+      "logps/rejected": -1616.5765380859375,
+      "loss": 0.5668,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.7377808690071106,
+      "rewards/margins": 0.6023792028427124,
+      "rewards/rejected": -1.3401601314544678,
+      "step": 165
     },
     {
       "epoch": 0.7118555352002094,
+      "grad_norm": 10.944418149122821,
+      "learning_rate": 1.420614119153768e-07,
+      "logits/chosen": -15.038368225097656,
+      "logits/rejected": -14.671664237976074,
+      "logps/chosen": -1127.2037353515625,
+      "logps/rejected": -1648.9619140625,
+      "loss": 0.5612,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.8304765820503235,
+      "rewards/margins": 0.5383009314537048,
+      "rewards/rejected": -1.3687775135040283,
+      "step": 170
     },
     {
       "epoch": 0.7327924627060979,
+      "grad_norm": 7.272876700396834,
+      "learning_rate": 1.2380861556628914e-07,
+      "logits/chosen": -14.817059516906738,
+      "logits/rejected": -14.438855171203613,
+      "logps/chosen": -1002.3743896484375,
+      "logps/rejected": -1483.3427734375,
+      "loss": 0.545,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.7164356112480164,
+      "rewards/margins": 0.5084205865859985,
+      "rewards/rejected": -1.2248561382293701,
+      "step": 175
     },
     {
       "epoch": 0.7537293902119864,
+      "grad_norm": 7.940966891497204,
+      "learning_rate": 1.064178343292641e-07,
+      "logits/chosen": -14.983675956726074,
+      "logits/rejected": -14.386784553527832,
+      "logps/chosen": -991.7278442382812,
+      "logps/rejected": -1572.2987060546875,
+      "loss": 0.5762,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.6495895981788635,
+      "rewards/margins": 0.6349653601646423,
+      "rewards/rejected": -1.2845550775527954,
+      "step": 180
     },
     {
       "epoch": 0.7746663177178749,
+      "grad_norm": 8.710562600121326,
+      "learning_rate": 9.000786487417084e-08,
+      "logits/chosen": -14.231167793273926,
+      "logits/rejected": -13.895710945129395,
+      "logps/chosen": -935.4019775390625,
+      "logps/rejected": -1424.656005859375,
+      "loss": 0.5656,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.6355662941932678,
+      "rewards/margins": 0.5334969758987427,
+      "rewards/rejected": -1.1690632104873657,
+      "step": 185
     },
     {
       "epoch": 0.7956032452237635,
+      "grad_norm": 6.761392853792158,
+      "learning_rate": 7.469080393187785e-08,
+      "logits/chosen": -14.6929292678833,
+      "logits/rejected": -13.966386795043945,
+      "logps/chosen": -1072.4215087890625,
+      "logps/rejected": -1634.0445556640625,
+      "loss": 0.568,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.7651950120925903,
+      "rewards/margins": 0.58966064453125,
+      "rewards/rejected": -1.3548556566238403,
+      "step": 190
     },
     {
       "epoch": 0.816540172729652,
+      "grad_norm": 9.876582631533086,
+      "learning_rate": 6.057128255991637e-08,
+      "logits/chosen": -14.620927810668945,
+      "logits/rejected": -14.377177238464355,
+      "logps/chosen": -1004.9943237304688,
+      "logps/rejected": -1455.802001953125,
+      "loss": 0.5626,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6936627626419067,
+      "rewards/margins": 0.4617386758327484,
+      "rewards/rejected": -1.1554014682769775,
+      "step": 195
     },
     {
       "epoch": 0.8374771002355405,
+      "grad_norm": 8.039290948138406,
+      "learning_rate": 4.774575140626316e-08,
+      "logits/chosen": -15.10753345489502,
+      "logits/rejected": -14.191171646118164,
+      "logps/chosen": -837.1350708007812,
+      "logps/rejected": -1408.885498046875,
+      "loss": 0.5699,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.5800159573554993,
+      "rewards/margins": 0.580711841583252,
+      "rewards/rejected": -1.1607277393341064,
+      "step": 200
     },
     {
       "epoch": 0.8374771002355405,
+      "eval_logits/chosen": -14.668434143066406,
+      "eval_logits/rejected": -14.186065673828125,
+      "eval_logps/chosen": -958.5824584960938,
+      "eval_logps/rejected": -1434.33349609375,
+      "eval_loss": 0.5646860599517822,
+      "eval_rewards/accuracies": 0.6919999718666077,
+      "eval_rewards/chosen": -0.6442615985870361,
+      "eval_rewards/margins": 0.5056628584861755,
+      "eval_rewards/rejected": -1.149924397468567,
+      "eval_runtime": 149.7174,
+      "eval_samples_per_second": 13.358,
+      "eval_steps_per_second": 0.835,
+      "step": 200
     },
     {
       "epoch": 0.8584140277414289,
+      "grad_norm": 7.7753080838732265,
+      "learning_rate": 3.6301821853615216e-08,
+      "logits/chosen": -14.531840324401855,
+      "logits/rejected": -13.954656600952148,
+      "logps/chosen": -979.337890625,
+      "logps/rejected": -1347.329833984375,
+      "loss": 0.5735,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.6474758982658386,
+      "rewards/margins": 0.4113900065422058,
+      "rewards/rejected": -1.0588659048080444,
+      "step": 205
     },
     {
       "epoch": 0.8793509552473174,
+      "grad_norm": 8.900926616124899,
+      "learning_rate": 2.631766754480913e-08,
+      "logits/chosen": -15.085081100463867,
+      "logits/rejected": -14.495912551879883,
+      "logps/chosen": -993.9776611328125,
+      "logps/rejected": -1629.8128662109375,
+      "loss": 0.554,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.7016497850418091,
+      "rewards/margins": 0.627029299736023,
+      "rewards/rejected": -1.328679084777832,
+      "step": 210
     },
     {
       "epoch": 0.9002878827532059,
+      "grad_norm": 7.108989309187613,
+      "learning_rate": 1.786149037757326e-08,
+      "logits/chosen": -14.463391304016113,
+      "logits/rejected": -14.160985946655273,
+      "logps/chosen": -1008.32080078125,
+      "logps/rejected": -1559.0267333984375,
+      "loss": 0.5445,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.678644061088562,
+      "rewards/margins": 0.6104253530502319,
+      "rewards/rejected": -1.289069414138794,
+      "step": 215
     },
     {
       "epoch": 0.9212248102590945,
+      "grad_norm": 9.175335683582457,
+      "learning_rate": 1.0991054616410588e-08,
+      "logits/chosen": -14.525983810424805,
+      "logits/rejected": -14.118609428405762,
+      "logps/chosen": -938.26904296875,
+      "logps/rejected": -1491.09814453125,
+      "loss": 0.5515,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.6404693126678467,
+      "rewards/margins": 0.5899735689163208,
+      "rewards/rejected": -1.230442762374878,
+      "step": 220
     },
     {
       "epoch": 0.942161737764983,
+      "grad_norm": 9.106722734484554,
+      "learning_rate": 5.753292304100182e-09,
+      "logits/chosen": -14.361761093139648,
+      "logits/rejected": -14.124635696411133,
+      "logps/chosen": -928.7554931640625,
+      "logps/rejected": -1761.9857177734375,
+      "loss": 0.5522,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.632331371307373,
+      "rewards/margins": 0.840011477470398,
+      "rewards/rejected": -1.472342848777771,
+      "step": 225
     },
     {
       "epoch": 0.9630986652708715,
+      "grad_norm": 9.134170824690674,
+      "learning_rate": 2.1839826682562014e-09,
+      "logits/chosen": -14.802205085754395,
+      "logits/rejected": -13.968228340148926,
+      "logps/chosen": -993.044921875,
+      "logps/rejected": -1571.5948486328125,
+      "loss": 0.5697,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.6945916414260864,
+      "rewards/margins": 0.6186043620109558,
+      "rewards/rejected": -1.3131959438323975,
+      "step": 230
     },
     {
       "epoch": 0.98403559277676,
+      "grad_norm": 7.825653316640832,
+      "learning_rate": 3.075077129238157e-10,
+      "logits/chosen": -14.510324478149414,
+      "logits/rejected": -14.37182903289795,
+      "logps/chosen": -1027.906982421875,
+      "logps/rejected": -1584.23828125,
+      "loss": 0.5535,
       "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.7289544343948364,
+      "rewards/margins": 0.562315821647644,
+      "rewards/rejected": -1.29127037525177,
+      "step": 235
     },
     {
+      "epoch": 0.9965977492802931,
+      "step": 238,
       "total_flos": 0.0,
+      "train_loss": 0.6157421479706003,
+      "train_runtime": 11733.4361,
+      "train_samples_per_second": 5.21,
+      "train_steps_per_second": 0.02
     }
   ],
+  "logging_steps": 5,
+  "max_steps": 238,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15571656f4381d00eb1d2a9ac9ba192287d16a2477fd5527cd82bc888c82d28f
 size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:640f2657d58cabae6bc26036066fcbcd91efca82106edb6249b200527a89c437
 size 7544