xinyan233333 commited on Feb 17

Commit

eeeeab7

verified ·

1 Parent(s): 4cb2f48

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
all_results.json +8 -0
config.json +28 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
trainer_log.jsonl +175 -0
trainer_state.json +2652 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9743589743589745,
+    "total_flos": 12717170049024.0,
+    "train_loss": 0.5604205996483221,
+    "train_runtime": 1532.2128,
+    "train_samples_per_second": 7.327,
+    "train_steps_per_second": 0.114
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d54545c51708e26569609df6d5d8ebf0acec8300ef426645bc2359573ca56c0d
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b31d6c82833387cd3caaaf7ff05db07ccf07f00aca6710094c3c2470ce1cdd1e
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136531ae9bd69548c0c24d0bd6a832181c1a8d5cfcc177c1b67e083a375c3ddf
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d24ed7117fbb5369f24e22a7406defb8e4f4e52ca7305ae08c184ab89fc7bf2
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,175 @@

+{"current_steps": 1, "total_steps": 174, "loss": 0.6931, "accuracy": 0.0, "lr": 5.555555555555555e-09, "epoch": 0.017094017094017096, "percentage": 0.57, "elapsed_time": "0:00:08", "remaining_time": "0:25:49"}
+{"current_steps": 2, "total_steps": 174, "loss": 0.6931, "accuracy": 0.0, "lr": 1.111111111111111e-08, "epoch": 0.03418803418803419, "percentage": 1.15, "elapsed_time": "0:00:16", "remaining_time": "0:23:46"}
+{"current_steps": 3, "total_steps": 174, "loss": 0.691, "accuracy": 0.515625, "lr": 1.6666666666666664e-08, "epoch": 0.05128205128205128, "percentage": 1.72, "elapsed_time": "0:00:24", "remaining_time": "0:22:56"}
+{"current_steps": 4, "total_steps": 174, "loss": 0.692, "accuracy": 0.609375, "lr": 2.222222222222222e-08, "epoch": 0.06837606837606838, "percentage": 2.3, "elapsed_time": "0:00:31", "remaining_time": "0:22:31"}
+{"current_steps": 5, "total_steps": 174, "loss": 0.6824, "accuracy": 0.59375, "lr": 2.7777777777777777e-08, "epoch": 0.08547008547008547, "percentage": 2.87, "elapsed_time": "0:00:39", "remaining_time": "0:22:05"}
+{"current_steps": 6, "total_steps": 174, "loss": 0.7075, "accuracy": 0.453125, "lr": 3.333333333333333e-08, "epoch": 0.10256410256410256, "percentage": 3.45, "elapsed_time": "0:00:47", "remaining_time": "0:22:09"}
+{"current_steps": 7, "total_steps": 174, "loss": 0.6936, "accuracy": 0.453125, "lr": 3.888888888888889e-08, "epoch": 0.11965811965811966, "percentage": 4.02, "elapsed_time": "0:00:54", "remaining_time": "0:21:49"}
+{"current_steps": 8, "total_steps": 174, "loss": 0.7032, "accuracy": 0.46875, "lr": 4.444444444444444e-08, "epoch": 0.13675213675213677, "percentage": 4.6, "elapsed_time": "0:01:02", "remaining_time": "0:21:34"}
+{"current_steps": 9, "total_steps": 174, "loss": 0.6841, "accuracy": 0.53125, "lr": 5e-08, "epoch": 0.15384615384615385, "percentage": 5.17, "elapsed_time": "0:01:09", "remaining_time": "0:21:23"}
+{"current_steps": 10, "total_steps": 174, "loss": 0.6866, "accuracy": 0.5625, "lr": 5.5555555555555555e-08, "epoch": 0.17094017094017094, "percentage": 5.75, "elapsed_time": "0:01:17", "remaining_time": "0:21:11"}
+{"current_steps": 11, "total_steps": 174, "loss": 0.6977, "accuracy": 0.453125, "lr": 6.111111111111111e-08, "epoch": 0.18803418803418803, "percentage": 6.32, "elapsed_time": "0:01:24", "remaining_time": "0:20:58"}
+{"current_steps": 12, "total_steps": 174, "loss": 0.6923, "accuracy": 0.578125, "lr": 6.666666666666665e-08, "epoch": 0.20512820512820512, "percentage": 6.9, "elapsed_time": "0:01:32", "remaining_time": "0:20:45"}
+{"current_steps": 13, "total_steps": 174, "loss": 0.6932, "accuracy": 0.640625, "lr": 7.222222222222221e-08, "epoch": 0.2222222222222222, "percentage": 7.47, "elapsed_time": "0:01:39", "remaining_time": "0:20:37"}
+{"current_steps": 14, "total_steps": 174, "loss": 0.7059, "accuracy": 0.578125, "lr": 7.777777777777778e-08, "epoch": 0.23931623931623933, "percentage": 8.05, "elapsed_time": "0:01:48", "remaining_time": "0:20:36"}
+{"current_steps": 15, "total_steps": 174, "loss": 0.686, "accuracy": 0.5, "lr": 8.333333333333334e-08, "epoch": 0.2564102564102564, "percentage": 8.62, "elapsed_time": "0:01:55", "remaining_time": "0:20:28"}
+{"current_steps": 16, "total_steps": 174, "loss": 0.6733, "accuracy": 0.625, "lr": 8.888888888888888e-08, "epoch": 0.27350427350427353, "percentage": 9.2, "elapsed_time": "0:02:03", "remaining_time": "0:20:17"}
+{"current_steps": 17, "total_steps": 174, "loss": 0.7008, "accuracy": 0.453125, "lr": 9.444444444444444e-08, "epoch": 0.2905982905982906, "percentage": 9.77, "elapsed_time": "0:02:10", "remaining_time": "0:20:06"}
+{"current_steps": 18, "total_steps": 174, "loss": 0.6918, "accuracy": 0.546875, "lr": 1e-07, "epoch": 0.3076923076923077, "percentage": 10.34, "elapsed_time": "0:02:18", "remaining_time": "0:19:56"}
+{"current_steps": 19, "total_steps": 174, "loss": 0.6822, "accuracy": 0.484375, "lr": 9.99898614492425e-08, "epoch": 0.3247863247863248, "percentage": 10.92, "elapsed_time": "0:02:25", "remaining_time": "0:19:47"}
+{"current_steps": 20, "total_steps": 174, "loss": 0.6705, "accuracy": 0.640625, "lr": 9.995944990857847e-08, "epoch": 0.3418803418803419, "percentage": 11.49, "elapsed_time": "0:02:32", "remaining_time": "0:19:37"}
+{"current_steps": 21, "total_steps": 174, "loss": 0.6651, "accuracy": 0.625, "lr": 9.990877771116587e-08, "epoch": 0.358974358974359, "percentage": 12.07, "elapsed_time": "0:02:40", "remaining_time": "0:19:28"}
+{"current_steps": 22, "total_steps": 174, "loss": 0.6631, "accuracy": 0.6875, "lr": 9.98378654067105e-08, "epoch": 0.37606837606837606, "percentage": 12.64, "elapsed_time": "0:02:47", "remaining_time": "0:19:19"}
+{"current_steps": 23, "total_steps": 174, "loss": 0.6833, "accuracy": 0.59375, "lr": 9.974674175313226e-08, "epoch": 0.39316239316239315, "percentage": 13.22, "elapsed_time": "0:02:55", "remaining_time": "0:19:09"}
+{"current_steps": 24, "total_steps": 174, "loss": 0.6579, "accuracy": 0.640625, "lr": 9.963544370490268e-08, "epoch": 0.41025641025641024, "percentage": 13.79, "elapsed_time": "0:03:02", "remaining_time": "0:19:00"}
+{"current_steps": 25, "total_steps": 174, "loss": 0.6913, "accuracy": 0.6875, "lr": 9.95040163980582e-08, "epoch": 0.42735042735042733, "percentage": 14.37, "elapsed_time": "0:03:09", "remaining_time": "0:18:51"}
+{"current_steps": 26, "total_steps": 174, "loss": 0.647, "accuracy": 0.765625, "lr": 9.935251313189563e-08, "epoch": 0.4444444444444444, "percentage": 14.94, "elapsed_time": "0:03:17", "remaining_time": "0:18:42"}
+{"current_steps": 27, "total_steps": 174, "loss": 0.6412, "accuracy": 0.6875, "lr": 9.918099534735718e-08, "epoch": 0.46153846153846156, "percentage": 15.52, "elapsed_time": "0:03:24", "remaining_time": "0:18:34"}
+{"current_steps": 28, "total_steps": 174, "loss": 0.6588, "accuracy": 0.625, "lr": 9.898953260211338e-08, "epoch": 0.47863247863247865, "percentage": 16.09, "elapsed_time": "0:03:32", "remaining_time": "0:18:25"}
+{"current_steps": 29, "total_steps": 174, "loss": 0.6792, "accuracy": 0.65625, "lr": 9.87782025423547e-08, "epoch": 0.49572649572649574, "percentage": 16.67, "elapsed_time": "0:03:39", "remaining_time": "0:18:16"}
+{"current_steps": 30, "total_steps": 174, "loss": 0.6541, "accuracy": 0.6875, "lr": 9.85470908713026e-08, "epoch": 0.5128205128205128, "percentage": 17.24, "elapsed_time": "0:03:46", "remaining_time": "0:18:07"}
+{"current_steps": 31, "total_steps": 174, "loss": 0.5934, "accuracy": 0.8125, "lr": 9.82962913144534e-08, "epoch": 0.5299145299145299, "percentage": 17.82, "elapsed_time": "0:03:54", "remaining_time": "0:17:59"}
+{"current_steps": 32, "total_steps": 174, "loss": 0.623, "accuracy": 0.703125, "lr": 9.802590558156862e-08, "epoch": 0.5470085470085471, "percentage": 18.39, "elapsed_time": "0:04:01", "remaining_time": "0:17:51"}
+{"current_steps": 33, "total_steps": 174, "loss": 0.6147, "accuracy": 0.75, "lr": 9.773604332542727e-08, "epoch": 0.5641025641025641, "percentage": 18.97, "elapsed_time": "0:04:08", "remaining_time": "0:17:42"}
+{"current_steps": 34, "total_steps": 174, "loss": 0.6078, "accuracy": 0.765625, "lr": 9.742682209735726e-08, "epoch": 0.5811965811965812, "percentage": 19.54, "elapsed_time": "0:04:15", "remaining_time": "0:17:33"}
+{"current_steps": 35, "total_steps": 174, "loss": 0.578, "accuracy": 0.796875, "lr": 9.709836729956324e-08, "epoch": 0.5982905982905983, "percentage": 20.11, "elapsed_time": "0:04:23", "remaining_time": "0:17:25"}
+{"current_steps": 36, "total_steps": 174, "loss": 0.6051, "accuracy": 0.765625, "lr": 9.675081213427075e-08, "epoch": 0.6153846153846154, "percentage": 20.69, "elapsed_time": "0:04:30", "remaining_time": "0:17:17"}
+{"current_steps": 37, "total_steps": 174, "loss": 0.6227, "accuracy": 0.671875, "lr": 9.638429754970714e-08, "epoch": 0.6324786324786325, "percentage": 21.26, "elapsed_time": "0:04:38", "remaining_time": "0:17:09"}
+{"current_steps": 38, "total_steps": 174, "loss": 0.5902, "accuracy": 0.71875, "lr": 9.599897218294121e-08, "epoch": 0.6495726495726496, "percentage": 21.84, "elapsed_time": "0:04:45", "remaining_time": "0:17:01"}
+{"current_steps": 39, "total_steps": 174, "loss": 0.5737, "accuracy": 0.78125, "lr": 9.55949922996045e-08, "epoch": 0.6666666666666666, "percentage": 22.41, "elapsed_time": "0:04:52", "remaining_time": "0:16:52"}
+{"current_steps": 40, "total_steps": 174, "loss": 0.6205, "accuracy": 0.703125, "lr": 9.51725217305191e-08, "epoch": 0.6837606837606838, "percentage": 22.99, "elapsed_time": "0:04:59", "remaining_time": "0:16:44"}
+{"current_steps": 41, "total_steps": 174, "loss": 0.6035, "accuracy": 0.71875, "lr": 9.473173180525737e-08, "epoch": 0.7008547008547008, "percentage": 23.56, "elapsed_time": "0:05:07", "remaining_time": "0:16:37"}
+{"current_steps": 42, "total_steps": 174, "loss": 0.6593, "accuracy": 0.625, "lr": 9.427280128266049e-08, "epoch": 0.717948717948718, "percentage": 24.14, "elapsed_time": "0:05:15", "remaining_time": "0:16:30"}
+{"current_steps": 43, "total_steps": 174, "loss": 0.5557, "accuracy": 0.796875, "lr": 9.379591627834438e-08, "epoch": 0.7350427350427351, "percentage": 24.71, "elapsed_time": "0:05:22", "remaining_time": "0:16:22"}
+{"current_steps": 44, "total_steps": 174, "loss": 0.5776, "accuracy": 0.796875, "lr": 9.330127018922194e-08, "epoch": 0.7521367521367521, "percentage": 25.29, "elapsed_time": "0:05:30", "remaining_time": "0:16:15"}
+{"current_steps": 45, "total_steps": 174, "loss": 0.5877, "accuracy": 0.75, "lr": 9.278906361507237e-08, "epoch": 0.7692307692307693, "percentage": 25.86, "elapsed_time": "0:05:37", "remaining_time": "0:16:07"}
+{"current_steps": 46, "total_steps": 174, "loss": 0.5786, "accuracy": 0.75, "lr": 9.225950427718974e-08, "epoch": 0.7863247863247863, "percentage": 26.44, "elapsed_time": "0:05:45", "remaining_time": "0:16:00"}
+{"current_steps": 47, "total_steps": 174, "loss": 0.5673, "accuracy": 0.78125, "lr": 9.171280693414307e-08, "epoch": 0.8034188034188035, "percentage": 27.01, "elapsed_time": "0:05:52", "remaining_time": "0:15:52"}
+{"current_steps": 48, "total_steps": 174, "loss": 0.5732, "accuracy": 0.78125, "lr": 9.114919329468282e-08, "epoch": 0.8205128205128205, "percentage": 27.59, "elapsed_time": "0:05:59", "remaining_time": "0:15:44"}
+{"current_steps": 49, "total_steps": 174, "loss": 0.5833, "accuracy": 0.75, "lr": 9.056889192782865e-08, "epoch": 0.8376068376068376, "percentage": 28.16, "elapsed_time": "0:06:07", "remaining_time": "0:15:37"}
+{"current_steps": 50, "total_steps": 174, "loss": 0.5724, "accuracy": 0.734375, "lr": 8.997213817017506e-08, "epoch": 0.8547008547008547, "percentage": 28.74, "elapsed_time": "0:06:15", "remaining_time": "0:15:31"}
+{"current_steps": 51, "total_steps": 174, "loss": 0.4957, "accuracy": 0.828125, "lr": 8.93591740304525e-08, "epoch": 0.8717948717948718, "percentage": 29.31, "elapsed_time": "0:06:22", "remaining_time": "0:15:23"}
+{"current_steps": 52, "total_steps": 174, "loss": 0.531, "accuracy": 0.78125, "lr": 8.873024809138272e-08, "epoch": 0.8888888888888888, "percentage": 29.89, "elapsed_time": "0:06:30", "remaining_time": "0:15:15"}
+{"current_steps": 53, "total_steps": 174, "loss": 0.5262, "accuracy": 0.765625, "lr": 8.808561540886796e-08, "epoch": 0.905982905982906, "percentage": 30.46, "elapsed_time": "0:06:37", "remaining_time": "0:15:07"}
+{"current_steps": 54, "total_steps": 174, "loss": 0.581, "accuracy": 0.75, "lr": 8.742553740855505e-08, "epoch": 0.9230769230769231, "percentage": 31.03, "elapsed_time": "0:06:44", "remaining_time": "0:14:59"}
+{"current_steps": 55, "total_steps": 174, "loss": 0.6129, "accuracy": 0.734375, "lr": 8.675028177981643e-08, "epoch": 0.9401709401709402, "percentage": 31.61, "elapsed_time": "0:06:51", "remaining_time": "0:14:51"}
+{"current_steps": 56, "total_steps": 174, "loss": 0.5129, "accuracy": 0.796875, "lr": 8.606012236719073e-08, "epoch": 0.9572649572649573, "percentage": 32.18, "elapsed_time": "0:06:59", "remaining_time": "0:14:43"}
+{"current_steps": 57, "total_steps": 174, "loss": 0.5967, "accuracy": 0.71875, "lr": 8.535533905932736e-08, "epoch": 0.9743589743589743, "percentage": 32.76, "elapsed_time": "0:07:06", "remaining_time": "0:14:36"}
+{"current_steps": 58, "total_steps": 174, "loss": 0.6743, "accuracy": 0.6875, "lr": 8.463621767547997e-08, "epoch": 0.9914529914529915, "percentage": 33.33, "elapsed_time": "0:07:14", "remaining_time": "0:14:28"}
+{"current_steps": 59, "total_steps": 174, "loss": 0.6652, "accuracy": 0.671875, "lr": 8.390304984959455e-08, "epoch": 1.0085470085470085, "percentage": 33.91, "elapsed_time": "0:08:17", "remaining_time": "0:16:10"}
+{"current_steps": 60, "total_steps": 174, "loss": 0.4542, "accuracy": 0.84375, "lr": 8.315613291203976e-08, "epoch": 1.0256410256410255, "percentage": 34.48, "elapsed_time": "0:08:26", "remaining_time": "0:16:01"}
+{"current_steps": 61, "total_steps": 174, "loss": 0.6183, "accuracy": 0.71875, "lr": 8.239576976902693e-08, "epoch": 1.0427350427350428, "percentage": 35.06, "elapsed_time": "0:08:33", "remaining_time": "0:15:51"}
+{"current_steps": 62, "total_steps": 174, "loss": 0.5383, "accuracy": 0.78125, "lr": 8.162226877976885e-08, "epoch": 1.0598290598290598, "percentage": 35.63, "elapsed_time": "0:08:40", "remaining_time": "0:15:40"}
+{"current_steps": 63, "total_steps": 174, "loss": 0.5109, "accuracy": 0.796875, "lr": 8.083594363142716e-08, "epoch": 1.0769230769230769, "percentage": 36.21, "elapsed_time": "0:08:48", "remaining_time": "0:15:30"}
+{"current_steps": 64, "total_steps": 174, "loss": 0.5058, "accuracy": 0.78125, "lr": 8.003711321189894e-08, "epoch": 1.0940170940170941, "percentage": 36.78, "elapsed_time": "0:08:55", "remaining_time": "0:15:20"}
+{"current_steps": 65, "total_steps": 174, "loss": 0.4523, "accuracy": 0.8125, "lr": 7.922610148049444e-08, "epoch": 1.1111111111111112, "percentage": 37.36, "elapsed_time": "0:09:02", "remaining_time": "0:15:10"}
+{"current_steps": 66, "total_steps": 174, "loss": 0.4636, "accuracy": 0.765625, "lr": 7.840323733655779e-08, "epoch": 1.1282051282051282, "percentage": 37.93, "elapsed_time": "0:09:10", "remaining_time": "0:15:00"}
+{"current_steps": 67, "total_steps": 174, "loss": 0.6983, "accuracy": 0.640625, "lr": 7.756885448608458e-08, "epoch": 1.1452991452991452, "percentage": 38.51, "elapsed_time": "0:09:17", "remaining_time": "0:14:50"}
+{"current_steps": 68, "total_steps": 174, "loss": 0.635, "accuracy": 0.703125, "lr": 7.672329130639004e-08, "epoch": 1.1623931623931625, "percentage": 39.08, "elapsed_time": "0:09:25", "remaining_time": "0:14:41"}
+{"current_steps": 69, "total_steps": 174, "loss": 0.4264, "accuracy": 0.84375, "lr": 7.586689070888284e-08, "epoch": 1.1794871794871795, "percentage": 39.66, "elapsed_time": "0:09:32", "remaining_time": "0:14:31"}
+{"current_steps": 70, "total_steps": 174, "loss": 0.5183, "accuracy": 0.796875, "lr": 7.5e-08, "epoch": 1.1965811965811965, "percentage": 40.23, "elapsed_time": "0:09:40", "remaining_time": "0:14:21"}
+{"current_steps": 71, "total_steps": 174, "loss": 0.5241, "accuracy": 0.78125, "lr": 7.412297074035967e-08, "epoch": 1.2136752136752136, "percentage": 40.8, "elapsed_time": "0:09:47", "remaining_time": "0:14:12"}
+{"current_steps": 72, "total_steps": 174, "loss": 0.4835, "accuracy": 0.8125, "lr": 7.323615860218842e-08, "epoch": 1.2307692307692308, "percentage": 41.38, "elapsed_time": "0:09:55", "remaining_time": "0:14:03"}
+{"current_steps": 73, "total_steps": 174, "loss": 0.4613, "accuracy": 0.78125, "lr": 7.23399232250813e-08, "epoch": 1.2478632478632479, "percentage": 41.95, "elapsed_time": "0:10:02", "remaining_time": "0:13:54"}
+{"current_steps": 74, "total_steps": 174, "loss": 0.4899, "accuracy": 0.828125, "lr": 7.14346280701527e-08, "epoch": 1.264957264957265, "percentage": 42.53, "elapsed_time": "0:10:10", "remaining_time": "0:13:44"}
+{"current_steps": 75, "total_steps": 174, "loss": 0.4669, "accuracy": 0.828125, "lr": 7.052064027263785e-08, "epoch": 1.282051282051282, "percentage": 43.1, "elapsed_time": "0:10:21", "remaining_time": "0:13:40"}
+{"current_steps": 76, "total_steps": 174, "loss": 0.4772, "accuracy": 0.8125, "lr": 6.959833049300375e-08, "epoch": 1.2991452991452992, "percentage": 43.68, "elapsed_time": "0:10:29", "remaining_time": "0:13:31"}
+{"current_steps": 77, "total_steps": 174, "loss": 0.5274, "accuracy": 0.796875, "lr": 6.866807276663104e-08, "epoch": 1.3162393162393162, "percentage": 44.25, "elapsed_time": "0:10:36", "remaining_time": "0:13:21"}
+{"current_steps": 78, "total_steps": 174, "loss": 0.4919, "accuracy": 0.796875, "lr": 6.773024435212677e-08, "epoch": 1.3333333333333333, "percentage": 44.83, "elapsed_time": "0:10:44", "remaining_time": "0:13:12"}
+{"current_steps": 79, "total_steps": 174, "loss": 0.4997, "accuracy": 0.78125, "lr": 6.678522557833024e-08, "epoch": 1.3504273504273505, "percentage": 45.4, "elapsed_time": "0:10:51", "remaining_time": "0:13:03"}
+{"current_steps": 80, "total_steps": 174, "loss": 0.4502, "accuracy": 0.796875, "lr": 6.583339969007364e-08, "epoch": 1.3675213675213675, "percentage": 45.98, "elapsed_time": "0:10:59", "remaining_time": "0:12:55"}
+{"current_steps": 81, "total_steps": 174, "loss": 0.5661, "accuracy": 0.734375, "lr": 6.487515269276015e-08, "epoch": 1.3846153846153846, "percentage": 46.55, "elapsed_time": "0:11:06", "remaining_time": "0:12:45"}
+{"current_steps": 82, "total_steps": 174, "loss": 0.564, "accuracy": 0.734375, "lr": 6.391087319582263e-08, "epoch": 1.4017094017094016, "percentage": 47.13, "elapsed_time": "0:11:14", "remaining_time": "0:12:36"}
+{"current_steps": 83, "total_steps": 174, "loss": 0.4041, "accuracy": 0.84375, "lr": 6.294095225512604e-08, "epoch": 1.4188034188034189, "percentage": 47.7, "elapsed_time": "0:11:21", "remaining_time": "0:12:27"}
+{"current_steps": 84, "total_steps": 174, "loss": 0.5778, "accuracy": 0.703125, "lr": 6.196578321437789e-08, "epoch": 1.435897435897436, "percentage": 48.28, "elapsed_time": "0:11:28", "remaining_time": "0:12:18"}
+{"current_steps": 85, "total_steps": 174, "loss": 0.5416, "accuracy": 0.78125, "lr": 6.098576154561085e-08, "epoch": 1.452991452991453, "percentage": 48.85, "elapsed_time": "0:11:36", "remaining_time": "0:12:08"}
+{"current_steps": 86, "total_steps": 174, "loss": 0.4437, "accuracy": 0.8125, "lr": 6.000128468880222e-08, "epoch": 1.4700854700854702, "percentage": 49.43, "elapsed_time": "0:11:44", "remaining_time": "0:12:01"}
+{"current_steps": 87, "total_steps": 174, "loss": 0.5174, "accuracy": 0.78125, "lr": 5.901275189069529e-08, "epoch": 1.4871794871794872, "percentage": 50.0, "elapsed_time": "0:11:52", "remaining_time": "0:11:52"}
+{"current_steps": 88, "total_steps": 174, "loss": 0.6121, "accuracy": 0.671875, "lr": 5.802056404288801e-08, "epoch": 1.5042735042735043, "percentage": 50.57, "elapsed_time": "0:11:59", "remaining_time": "0:11:43"}
+{"current_steps": 89, "total_steps": 174, "loss": 0.5004, "accuracy": 0.8125, "lr": 5.7025123519254635e-08, "epoch": 1.5213675213675213, "percentage": 51.15, "elapsed_time": "0:12:07", "remaining_time": "0:11:34"}
+{"current_steps": 90, "total_steps": 174, "loss": 0.436, "accuracy": 0.8125, "lr": 5.6026834012766146e-08, "epoch": 1.5384615384615383, "percentage": 51.72, "elapsed_time": "0:12:14", "remaining_time": "0:11:25"}
+{"current_steps": 91, "total_steps": 174, "loss": 0.5704, "accuracy": 0.734375, "lr": 5.5026100371775854e-08, "epoch": 1.5555555555555556, "percentage": 52.3, "elapsed_time": "0:12:22", "remaining_time": "0:11:16"}
+{"current_steps": 92, "total_steps": 174, "loss": 0.477, "accuracy": 0.78125, "lr": 5.40233284358363e-08, "epoch": 1.5726495726495726, "percentage": 52.87, "elapsed_time": "0:12:30", "remaining_time": "0:11:08"}
+{"current_steps": 93, "total_steps": 174, "loss": 0.4359, "accuracy": 0.828125, "lr": 5.30189248711143e-08, "epoch": 1.5897435897435899, "percentage": 53.45, "elapsed_time": "0:12:38", "remaining_time": "0:11:00"}
+{"current_steps": 94, "total_steps": 174, "loss": 0.61, "accuracy": 0.703125, "lr": 5.201329700547076e-08, "epoch": 1.606837606837607, "percentage": 54.02, "elapsed_time": "0:12:45", "remaining_time": "0:10:51"}
+{"current_steps": 95, "total_steps": 174, "loss": 0.6205, "accuracy": 0.71875, "lr": 5.1006852663272015e-08, "epoch": 1.623931623931624, "percentage": 54.6, "elapsed_time": "0:12:52", "remaining_time": "0:10:42"}
+{"current_steps": 96, "total_steps": 174, "loss": 0.5625, "accuracy": 0.75, "lr": 5e-08, "epoch": 1.641025641025641, "percentage": 55.17, "elapsed_time": "0:13:00", "remaining_time": "0:10:34"}
+{"current_steps": 97, "total_steps": 174, "loss": 0.5828, "accuracy": 0.75, "lr": 4.8993147336727993e-08, "epoch": 1.658119658119658, "percentage": 55.75, "elapsed_time": "0:13:07", "remaining_time": "0:10:25"}
+{"current_steps": 98, "total_steps": 174, "loss": 0.5717, "accuracy": 0.75, "lr": 4.798670299452925e-08, "epoch": 1.6752136752136753, "percentage": 56.32, "elapsed_time": "0:13:15", "remaining_time": "0:10:16"}
+{"current_steps": 99, "total_steps": 174, "loss": 0.5265, "accuracy": 0.78125, "lr": 4.698107512888569e-08, "epoch": 1.6923076923076923, "percentage": 56.9, "elapsed_time": "0:13:22", "remaining_time": "0:10:08"}
+{"current_steps": 100, "total_steps": 174, "loss": 0.538, "accuracy": 0.75, "lr": 4.597667156416371e-08, "epoch": 1.7094017094017095, "percentage": 57.47, "elapsed_time": "0:13:29", "remaining_time": "0:09:59"}
+{"current_steps": 101, "total_steps": 174, "loss": 0.5863, "accuracy": 0.703125, "lr": 4.497389962822415e-08, "epoch": 1.7264957264957266, "percentage": 58.05, "elapsed_time": "0:13:37", "remaining_time": "0:09:50"}
+{"current_steps": 102, "total_steps": 174, "loss": 0.6163, "accuracy": 0.75, "lr": 4.397316598723385e-08, "epoch": 1.7435897435897436, "percentage": 58.62, "elapsed_time": "0:13:44", "remaining_time": "0:09:42"}
+{"current_steps": 103, "total_steps": 174, "loss": 0.3891, "accuracy": 0.890625, "lr": 4.2974876480745374e-08, "epoch": 1.7606837606837606, "percentage": 59.2, "elapsed_time": "0:13:51", "remaining_time": "0:09:33"}
+{"current_steps": 104, "total_steps": 174, "loss": 0.5422, "accuracy": 0.734375, "lr": 4.197943595711198e-08, "epoch": 1.7777777777777777, "percentage": 59.77, "elapsed_time": "0:13:59", "remaining_time": "0:09:24"}
+{"current_steps": 105, "total_steps": 174, "loss": 0.5554, "accuracy": 0.71875, "lr": 4.098724810930471e-08, "epoch": 1.7948717948717947, "percentage": 60.34, "elapsed_time": "0:14:06", "remaining_time": "0:09:16"}
+{"current_steps": 106, "total_steps": 174, "loss": 0.4611, "accuracy": 0.78125, "lr": 3.9998715311197785e-08, "epoch": 1.811965811965812, "percentage": 60.92, "elapsed_time": "0:14:13", "remaining_time": "0:09:07"}
+{"current_steps": 107, "total_steps": 174, "loss": 0.6069, "accuracy": 0.734375, "lr": 3.9014238454389155e-08, "epoch": 1.8290598290598292, "percentage": 61.49, "elapsed_time": "0:14:21", "remaining_time": "0:08:59"}
+{"current_steps": 108, "total_steps": 174, "loss": 0.5635, "accuracy": 0.734375, "lr": 3.803421678562212e-08, "epoch": 1.8461538461538463, "percentage": 62.07, "elapsed_time": "0:14:28", "remaining_time": "0:08:51"}
+{"current_steps": 109, "total_steps": 174, "loss": 0.5805, "accuracy": 0.703125, "lr": 3.705904774487396e-08, "epoch": 1.8632478632478633, "percentage": 62.64, "elapsed_time": "0:14:36", "remaining_time": "0:08:42"}
+{"current_steps": 110, "total_steps": 174, "loss": 0.558, "accuracy": 0.734375, "lr": 3.608912680417737e-08, "epoch": 1.8803418803418803, "percentage": 63.22, "elapsed_time": "0:14:44", "remaining_time": "0:08:34"}
+{"current_steps": 111, "total_steps": 174, "loss": 0.4606, "accuracy": 0.796875, "lr": 3.512484730723986e-08, "epoch": 1.8974358974358974, "percentage": 63.79, "elapsed_time": "0:14:52", "remaining_time": "0:08:26"}
+{"current_steps": 112, "total_steps": 174, "loss": 0.5231, "accuracy": 0.78125, "lr": 3.4166600309926387e-08, "epoch": 1.9145299145299144, "percentage": 64.37, "elapsed_time": "0:14:59", "remaining_time": "0:08:18"}
+{"current_steps": 113, "total_steps": 174, "loss": 0.6231, "accuracy": 0.65625, "lr": 3.3214774421669774e-08, "epoch": 1.9316239316239316, "percentage": 64.94, "elapsed_time": "0:15:07", "remaining_time": "0:08:09"}
+{"current_steps": 114, "total_steps": 174, "loss": 0.4405, "accuracy": 0.8125, "lr": 3.2269755647873216e-08, "epoch": 1.9487179487179487, "percentage": 65.52, "elapsed_time": "0:15:14", "remaining_time": "0:08:01"}
+{"current_steps": 115, "total_steps": 174, "loss": 0.4944, "accuracy": 0.78125, "lr": 3.133192723336895e-08, "epoch": 1.965811965811966, "percentage": 66.09, "elapsed_time": "0:15:21", "remaining_time": "0:07:52"}
+{"current_steps": 116, "total_steps": 174, "loss": 0.5974, "accuracy": 0.703125, "lr": 3.040166950699625e-08, "epoch": 1.982905982905983, "percentage": 66.67, "elapsed_time": "0:15:29", "remaining_time": "0:07:44"}
+{"current_steps": 117, "total_steps": 174, "loss": 0.3727, "accuracy": 0.875, "lr": 2.9479359727362168e-08, "epoch": 2.0, "percentage": 67.24, "elapsed_time": "0:15:36", "remaining_time": "0:07:36"}
+{"current_steps": 118, "total_steps": 174, "loss": 0.559, "accuracy": 0.734375, "lr": 2.8565371929847283e-08, "epoch": 2.017094017094017, "percentage": 67.82, "elapsed_time": "0:16:38", "remaining_time": "0:07:54"}
+{"current_steps": 119, "total_steps": 174, "loss": 0.5766, "accuracy": 0.71875, "lr": 2.7660076774918705e-08, "epoch": 2.034188034188034, "percentage": 68.39, "elapsed_time": "0:16:47", "remaining_time": "0:07:45"}
+{"current_steps": 120, "total_steps": 174, "loss": 0.4953, "accuracy": 0.765625, "lr": 2.676384139781157e-08, "epoch": 2.051282051282051, "percentage": 68.97, "elapsed_time": "0:16:54", "remaining_time": "0:07:36"}
+{"current_steps": 121, "total_steps": 174, "loss": 0.583, "accuracy": 0.703125, "lr": 2.5877029259640338e-08, "epoch": 2.0683760683760686, "percentage": 69.54, "elapsed_time": "0:17:02", "remaining_time": "0:07:27"}
+{"current_steps": 122, "total_steps": 174, "loss": 0.549, "accuracy": 0.734375, "lr": 2.500000000000001e-08, "epoch": 2.0854700854700856, "percentage": 70.11, "elapsed_time": "0:17:10", "remaining_time": "0:07:19"}
+{"current_steps": 123, "total_steps": 174, "loss": 0.544, "accuracy": 0.765625, "lr": 2.4133109291117154e-08, "epoch": 2.1025641025641026, "percentage": 70.69, "elapsed_time": "0:17:18", "remaining_time": "0:07:10"}
+{"current_steps": 124, "total_steps": 174, "loss": 0.4755, "accuracy": 0.78125, "lr": 2.3276708693609942e-08, "epoch": 2.1196581196581197, "percentage": 71.26, "elapsed_time": "0:17:25", "remaining_time": "0:07:01"}
+{"current_steps": 125, "total_steps": 174, "loss": 0.4427, "accuracy": 0.84375, "lr": 2.2431145513915417e-08, "epoch": 2.1367521367521367, "percentage": 71.84, "elapsed_time": "0:17:33", "remaining_time": "0:06:52"}
+{"current_steps": 126, "total_steps": 174, "loss": 0.4697, "accuracy": 0.8125, "lr": 2.1596762663442214e-08, "epoch": 2.1538461538461537, "percentage": 72.41, "elapsed_time": "0:17:40", "remaining_time": "0:06:44"}
+{"current_steps": 127, "total_steps": 174, "loss": 0.4773, "accuracy": 0.8125, "lr": 2.0773898519505568e-08, "epoch": 2.1709401709401708, "percentage": 72.99, "elapsed_time": "0:17:47", "remaining_time": "0:06:35"}
+{"current_steps": 128, "total_steps": 174, "loss": 0.4208, "accuracy": 0.859375, "lr": 1.9962886788101045e-08, "epoch": 2.1880341880341883, "percentage": 73.56, "elapsed_time": "0:17:55", "remaining_time": "0:06:26"}
+{"current_steps": 129, "total_steps": 174, "loss": 0.637, "accuracy": 0.6875, "lr": 1.9164056368572844e-08, "epoch": 2.2051282051282053, "percentage": 74.14, "elapsed_time": "0:18:02", "remaining_time": "0:06:17"}
+{"current_steps": 130, "total_steps": 174, "loss": 0.5228, "accuracy": 0.6875, "lr": 1.837773122023114e-08, "epoch": 2.2222222222222223, "percentage": 74.71, "elapsed_time": "0:18:10", "remaining_time": "0:06:08"}
+{"current_steps": 131, "total_steps": 174, "loss": 0.6138, "accuracy": 0.6875, "lr": 1.7604230230973067e-08, "epoch": 2.2393162393162394, "percentage": 75.29, "elapsed_time": "0:18:17", "remaining_time": "0:06:00"}
+{"current_steps": 132, "total_steps": 174, "loss": 0.4958, "accuracy": 0.78125, "lr": 1.684386708796025e-08, "epoch": 2.2564102564102564, "percentage": 75.86, "elapsed_time": "0:18:24", "remaining_time": "0:05:51"}
+{"current_steps": 133, "total_steps": 174, "loss": 0.5091, "accuracy": 0.796875, "lr": 1.6096950150405452e-08, "epoch": 2.2735042735042734, "percentage": 76.44, "elapsed_time": "0:18:32", "remaining_time": "0:05:42"}
+{"current_steps": 134, "total_steps": 174, "loss": 0.572, "accuracy": 0.734375, "lr": 1.5363782324520032e-08, "epoch": 2.2905982905982905, "percentage": 77.01, "elapsed_time": "0:18:39", "remaining_time": "0:05:34"}
+{"current_steps": 135, "total_steps": 174, "loss": 0.6887, "accuracy": 0.625, "lr": 1.4644660940672625e-08, "epoch": 2.3076923076923075, "percentage": 77.59, "elapsed_time": "0:18:46", "remaining_time": "0:05:25"}
+{"current_steps": 136, "total_steps": 174, "loss": 0.5297, "accuracy": 0.796875, "lr": 1.3939877632809277e-08, "epoch": 2.324786324786325, "percentage": 78.16, "elapsed_time": "0:18:54", "remaining_time": "0:05:16"}
+{"current_steps": 137, "total_steps": 174, "loss": 0.4756, "accuracy": 0.8125, "lr": 1.3249718220183582e-08, "epoch": 2.341880341880342, "percentage": 78.74, "elapsed_time": "0:19:01", "remaining_time": "0:05:08"}
+{"current_steps": 138, "total_steps": 174, "loss": 0.6103, "accuracy": 0.71875, "lr": 1.257446259144494e-08, "epoch": 2.358974358974359, "percentage": 79.31, "elapsed_time": "0:19:08", "remaining_time": "0:04:59"}
+{"current_steps": 139, "total_steps": 174, "loss": 0.4931, "accuracy": 0.765625, "lr": 1.1914384591132043e-08, "epoch": 2.376068376068376, "percentage": 79.89, "elapsed_time": "0:19:16", "remaining_time": "0:04:51"}
+{"current_steps": 140, "total_steps": 174, "loss": 0.3967, "accuracy": 0.859375, "lr": 1.1269751908617276e-08, "epoch": 2.393162393162393, "percentage": 80.46, "elapsed_time": "0:19:23", "remaining_time": "0:04:42"}
+{"current_steps": 141, "total_steps": 174, "loss": 0.4894, "accuracy": 0.765625, "lr": 1.0640825969547496e-08, "epoch": 2.41025641025641, "percentage": 81.03, "elapsed_time": "0:19:30", "remaining_time": "0:04:34"}
+{"current_steps": 142, "total_steps": 174, "loss": 0.4604, "accuracy": 0.828125, "lr": 1.0027861829824951e-08, "epoch": 2.427350427350427, "percentage": 81.61, "elapsed_time": "0:19:38", "remaining_time": "0:04:25"}
+{"current_steps": 143, "total_steps": 174, "loss": 0.4628, "accuracy": 0.828125, "lr": 9.431108072171346e-09, "epoch": 2.4444444444444446, "percentage": 82.18, "elapsed_time": "0:19:45", "remaining_time": "0:04:17"}
+{"current_steps": 144, "total_steps": 174, "loss": 0.4426, "accuracy": 0.84375, "lr": 8.850806705317182e-09, "epoch": 2.4615384615384617, "percentage": 82.76, "elapsed_time": "0:19:53", "remaining_time": "0:04:08"}
+{"current_steps": 145, "total_steps": 174, "loss": 0.5474, "accuracy": 0.734375, "lr": 8.287193065856934e-09, "epoch": 2.4786324786324787, "percentage": 83.33, "elapsed_time": "0:20:00", "remaining_time": "0:04:00"}
+{"current_steps": 146, "total_steps": 174, "loss": 0.5553, "accuracy": 0.703125, "lr": 7.740495722810269e-09, "epoch": 2.4957264957264957, "percentage": 83.91, "elapsed_time": "0:20:07", "remaining_time": "0:03:51"}
+{"current_steps": 147, "total_steps": 174, "loss": 0.5605, "accuracy": 0.71875, "lr": 7.21093638492763e-09, "epoch": 2.5128205128205128, "percentage": 84.48, "elapsed_time": "0:20:15", "remaining_time": "0:03:43"}
+{"current_steps": 148, "total_steps": 174, "loss": 0.4722, "accuracy": 0.765625, "lr": 6.698729810778064e-09, "epoch": 2.52991452991453, "percentage": 85.06, "elapsed_time": "0:20:22", "remaining_time": "0:03:34"}
+{"current_steps": 149, "total_steps": 174, "loss": 0.547, "accuracy": 0.75, "lr": 6.2040837216556065e-09, "epoch": 2.547008547008547, "percentage": 85.63, "elapsed_time": "0:20:29", "remaining_time": "0:03:26"}
+{"current_steps": 150, "total_steps": 174, "loss": 0.5032, "accuracy": 0.78125, "lr": 5.72719871733951e-09, "epoch": 2.564102564102564, "percentage": 86.21, "elapsed_time": "0:20:37", "remaining_time": "0:03:17"}
+{"current_steps": 151, "total_steps": 174, "loss": 0.4866, "accuracy": 0.796875, "lr": 5.268268194742637e-09, "epoch": 2.5811965811965814, "percentage": 86.78, "elapsed_time": "0:20:45", "remaining_time": "0:03:09"}
+{"current_steps": 152, "total_steps": 174, "loss": 0.602, "accuracy": 0.6875, "lr": 4.8274782694808944e-09, "epoch": 2.5982905982905984, "percentage": 87.36, "elapsed_time": "0:20:52", "remaining_time": "0:03:01"}
+{"current_steps": 153, "total_steps": 174, "loss": 0.5602, "accuracy": 0.734375, "lr": 4.405007700395497e-09, "epoch": 2.6153846153846154, "percentage": 87.93, "elapsed_time": "0:21:00", "remaining_time": "0:02:52"}
+{"current_steps": 154, "total_steps": 174, "loss": 0.5369, "accuracy": 0.734375, "lr": 4.001027817058789e-09, "epoch": 2.6324786324786325, "percentage": 88.51, "elapsed_time": "0:21:07", "remaining_time": "0:02:44"}
+{"current_steps": 155, "total_steps": 174, "loss": 0.5635, "accuracy": 0.71875, "lr": 3.615702450292857e-09, "epoch": 2.6495726495726495, "percentage": 89.08, "elapsed_time": "0:21:14", "remaining_time": "0:02:36"}
+{"current_steps": 156, "total_steps": 174, "loss": 0.6465, "accuracy": 0.640625, "lr": 3.249187865729264e-09, "epoch": 2.6666666666666665, "percentage": 89.66, "elapsed_time": "0:21:22", "remaining_time": "0:02:27"}
+{"current_steps": 157, "total_steps": 174, "loss": 0.4945, "accuracy": 0.8125, "lr": 2.901632700436757e-09, "epoch": 2.683760683760684, "percentage": 90.23, "elapsed_time": "0:21:29", "remaining_time": "0:02:19"}
+{"current_steps": 158, "total_steps": 174, "loss": 0.5943, "accuracy": 0.734375, "lr": 2.573177902642726e-09, "epoch": 2.700854700854701, "percentage": 90.8, "elapsed_time": "0:21:37", "remaining_time": "0:02:11"}
+{"current_steps": 159, "total_steps": 174, "loss": 0.5558, "accuracy": 0.71875, "lr": 2.26395667457272e-09, "epoch": 2.717948717948718, "percentage": 91.38, "elapsed_time": "0:21:44", "remaining_time": "0:02:03"}
+{"current_steps": 160, "total_steps": 174, "loss": 0.5348, "accuracy": 0.78125, "lr": 1.974094418431388e-09, "epoch": 2.735042735042735, "percentage": 91.95, "elapsed_time": "0:21:52", "remaining_time": "0:01:54"}
+{"current_steps": 161, "total_steps": 174, "loss": 0.5016, "accuracy": 0.765625, "lr": 1.70370868554659e-09, "epoch": 2.752136752136752, "percentage": 92.53, "elapsed_time": "0:21:59", "remaining_time": "0:01:46"}
+{"current_steps": 162, "total_steps": 174, "loss": 0.4562, "accuracy": 0.8125, "lr": 1.4529091286973993e-09, "epoch": 2.769230769230769, "percentage": 93.1, "elapsed_time": "0:22:07", "remaining_time": "0:01:38"}
+{"current_steps": 163, "total_steps": 174, "loss": 0.505, "accuracy": 0.765625, "lr": 1.2217974576453073e-09, "epoch": 2.786324786324786, "percentage": 93.68, "elapsed_time": "0:22:15", "remaining_time": "0:01:30"}
+{"current_steps": 164, "total_steps": 174, "loss": 0.4662, "accuracy": 0.828125, "lr": 1.0104673978866163e-09, "epoch": 2.8034188034188032, "percentage": 94.25, "elapsed_time": "0:22:22", "remaining_time": "0:01:21"}
+{"current_steps": 165, "total_steps": 174, "loss": 0.5988, "accuracy": 0.671875, "lr": 8.190046526428241e-10, "epoch": 2.8205128205128203, "percentage": 94.83, "elapsed_time": "0:22:30", "remaining_time": "0:01:13"}
+{"current_steps": 166, "total_steps": 174, "loss": 0.4907, "accuracy": 0.8125, "lr": 6.474868681043578e-10, "epoch": 2.8376068376068377, "percentage": 95.4, "elapsed_time": "0:22:37", "remaining_time": "0:01:05"}
+{"current_steps": 167, "total_steps": 174, "loss": 0.4925, "accuracy": 0.796875, "lr": 4.959836019417962e-10, "epoch": 2.8547008547008548, "percentage": 95.98, "elapsed_time": "0:22:45", "remaining_time": "0:00:57"}
+{"current_steps": 168, "total_steps": 174, "loss": 0.4599, "accuracy": 0.78125, "lr": 3.6455629509730133e-10, "epoch": 2.871794871794872, "percentage": 96.55, "elapsed_time": "0:22:52", "remaining_time": "0:00:49"}
+{"current_steps": 169, "total_steps": 174, "loss": 0.4399, "accuracy": 0.84375, "lr": 2.5325824686772135e-10, "epoch": 2.888888888888889, "percentage": 97.13, "elapsed_time": "0:23:00", "remaining_time": "0:00:40"}
+{"current_steps": 170, "total_steps": 174, "loss": 0.5311, "accuracy": 0.78125, "lr": 1.6213459328950352e-10, "epoch": 2.905982905982906, "percentage": 97.7, "elapsed_time": "0:23:07", "remaining_time": "0:00:32"}
+{"current_steps": 171, "total_steps": 174, "loss": 0.4288, "accuracy": 0.84375, "lr": 9.122228883412519e-11, "epoch": 2.9230769230769234, "percentage": 98.28, "elapsed_time": "0:23:15", "remaining_time": "0:00:24"}
+{"current_steps": 172, "total_steps": 174, "loss": 0.4494, "accuracy": 0.828125, "lr": 4.055009142152066e-11, "epoch": 2.9401709401709404, "percentage": 98.85, "elapsed_time": "0:23:22", "remaining_time": "0:00:16"}
+{"current_steps": 173, "total_steps": 174, "loss": 0.5679, "accuracy": 0.71875, "lr": 1.0138550757493591e-11, "epoch": 2.9572649572649574, "percentage": 99.43, "elapsed_time": "0:23:30", "remaining_time": "0:00:08"}
+{"current_steps": 174, "total_steps": 174, "loss": 0.5039, "accuracy": 0.78125, "lr": 0.0, "epoch": 2.9743589743589745, "percentage": 100.0, "elapsed_time": "0:23:37", "remaining_time": "0:00:00"}
+{"current_steps": 174, "total_steps": 174, "epoch": 2.9743589743589745, "percentage": 100.0, "elapsed_time": "0:25:32", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2652 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9743589743589745,
+  "eval_steps": 500.0,
+  "global_step": 174,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017094017094017096,
+      "grad_norm": 32.72266435662914,
+      "learning_rate": 5.555555555555555e-09,
+      "logits/chosen": -1.271484136581421,
+      "logits/rejected": -1.2775769233703613,
+      "logps/chosen": -194.09913635253906,
+      "logps/rejected": -197.96678161621094,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.03418803418803419,
+      "grad_norm": 42.309256625149,
+      "learning_rate": 1.111111111111111e-08,
+      "logits/chosen": -1.2563865184783936,
+      "logits/rejected": -1.2718961238861084,
+      "logps/chosen": -207.83432006835938,
+      "logps/rejected": -213.69451904296875,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.05128205128205128,
+      "grad_norm": 39.90048875348032,
+      "learning_rate": 1.6666666666666664e-08,
+      "logits/chosen": -1.258278489112854,
+      "logits/rejected": -1.2770569324493408,
+      "logps/chosen": -192.50698852539062,
+      "logps/rejected": -197.84161376953125,
+      "loss": 0.691,
+      "rewards/accuracies": 0.515625,
+      "rewards/chosen": -0.005324030760675669,
+      "rewards/margins": 0.00852043554186821,
+      "rewards/rejected": -0.013844465836882591,
+      "step": 3
+    },
+    {
+      "epoch": 0.06837606837606838,
+      "grad_norm": 36.67229574146607,
+      "learning_rate": 2.222222222222222e-08,
+      "logits/chosen": -1.2445483207702637,
+      "logits/rejected": -1.2640323638916016,
+      "logps/chosen": -200.81478881835938,
+      "logps/rejected": -204.47238159179688,
+      "loss": 0.692,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": 0.01228327862918377,
+      "rewards/margins": 0.008384181186556816,
+      "rewards/rejected": 0.003899095579981804,
+      "step": 4
+    },
+    {
+      "epoch": 0.08547008547008547,
+      "grad_norm": 47.29323636599435,
+      "learning_rate": 2.7777777777777777e-08,
+      "logits/chosen": -1.2750601768493652,
+      "logits/rejected": -1.2918953895568848,
+      "logps/chosen": -197.94931030273438,
+      "logps/rejected": -203.09048461914062,
+      "loss": 0.6824,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.01601552963256836,
+      "rewards/margins": 0.02726929262280464,
+      "rewards/rejected": -0.011253763921558857,
+      "step": 5
+    },
+    {
+      "epoch": 0.10256410256410256,
+      "grad_norm": 35.98075151772399,
+      "learning_rate": 3.333333333333333e-08,
+      "logits/chosen": -1.2638707160949707,
+      "logits/rejected": -1.2815051078796387,
+      "logps/chosen": -205.60736083984375,
+      "logps/rejected": -211.85845947265625,
+      "loss": 0.7075,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": -0.004270028322935104,
+      "rewards/margins": -0.02442183531820774,
+      "rewards/rejected": 0.020151805132627487,
+      "step": 6
+    },
+    {
+      "epoch": 0.11965811965811966,
+      "grad_norm": 40.92580167903319,
+      "learning_rate": 3.888888888888889e-08,
+      "logits/chosen": -1.249726414680481,
+      "logits/rejected": -1.2673637866973877,
+      "logps/chosen": -218.39849853515625,
+      "logps/rejected": -224.96292114257812,
+      "loss": 0.6936,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": 0.00038888584822416306,
+      "rewards/margins": 0.005653404630720615,
+      "rewards/rejected": -0.0052645206451416016,
+      "step": 7
+    },
+    {
+      "epoch": 0.13675213675213677,
+      "grad_norm": 37.9748029413064,
+      "learning_rate": 4.444444444444444e-08,
+      "logits/chosen": -1.2654469013214111,
+      "logits/rejected": -1.2819194793701172,
+      "logps/chosen": -220.58584594726562,
+      "logps/rejected": -227.43045043945312,
+      "loss": 0.7032,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.005627701990306377,
+      "rewards/margins": -0.010562442243099213,
+      "rewards/rejected": 0.016190147027373314,
+      "step": 8
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 41.34663944859154,
+      "learning_rate": 5e-08,
+      "logits/chosen": -1.250257968902588,
+      "logits/rejected": -1.2703938484191895,
+      "logps/chosen": -220.8994598388672,
+      "logps/rejected": -227.8162078857422,
+      "loss": 0.6841,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.015356017276644707,
+      "rewards/margins": 0.024300813674926758,
+      "rewards/rejected": -0.008944796398282051,
+      "step": 9
+    },
+    {
+      "epoch": 0.17094017094017094,
+      "grad_norm": 35.69231155214302,
+      "learning_rate": 5.5555555555555555e-08,
+      "logits/chosen": -1.2636659145355225,
+      "logits/rejected": -1.273425579071045,
+      "logps/chosen": -227.5428466796875,
+      "logps/rejected": -233.6376495361328,
+      "loss": 0.6866,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.02854321151971817,
+      "rewards/margins": 0.020651960745453835,
+      "rewards/rejected": 0.00789125170558691,
+      "step": 10
+    },
+    {
+      "epoch": 0.18803418803418803,
+      "grad_norm": 38.78239166583489,
+      "learning_rate": 6.111111111111111e-08,
+      "logits/chosen": -1.254310131072998,
+      "logits/rejected": -1.2717337608337402,
+      "logps/chosen": -207.8887481689453,
+      "logps/rejected": -212.49581909179688,
+      "loss": 0.6977,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": -0.0033245082013309,
+      "rewards/margins": 0.0004119626246392727,
+      "rewards/rejected": -0.00373647129163146,
+      "step": 11
+    },
+    {
+      "epoch": 0.20512820512820512,
+      "grad_norm": 50.45280761477155,
+      "learning_rate": 6.666666666666665e-08,
+      "logits/chosen": -1.2598143815994263,
+      "logits/rejected": -1.2827789783477783,
+      "logps/chosen": -189.29043579101562,
+      "logps/rejected": -196.80128479003906,
+      "loss": 0.6923,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": 0.02015209197998047,
+      "rewards/margins": 0.01102750189602375,
+      "rewards/rejected": 0.00912458822131157,
+      "step": 12
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 41.75741587665495,
+      "learning_rate": 7.222222222222221e-08,
+      "logits/chosen": -1.2853286266326904,
+      "logits/rejected": -1.3010997772216797,
+      "logps/chosen": -198.49937438964844,
+      "logps/rejected": -202.17367553710938,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": 0.026771117001771927,
+      "rewards/margins": 0.007892560213804245,
+      "rewards/rejected": 0.018878554925322533,
+      "step": 13
+    },
+    {
+      "epoch": 0.23931623931623933,
+      "grad_norm": 39.724733024339834,
+      "learning_rate": 7.777777777777778e-08,
+      "logits/chosen": -1.2937126159667969,
+      "logits/rejected": -1.3142616748809814,
+      "logps/chosen": -222.3750762939453,
+      "logps/rejected": -229.72769165039062,
+      "loss": 0.7059,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -0.012777568772435188,
+      "rewards/margins": -0.01655273512005806,
+      "rewards/rejected": 0.0037751691415905952,
+      "step": 14
+    },
+    {
+      "epoch": 0.2564102564102564,
+      "grad_norm": 29.517227746270596,
+      "learning_rate": 8.333333333333334e-08,
+      "logits/chosen": -1.264232873916626,
+      "logits/rejected": -1.2751024961471558,
+      "logps/chosen": -227.28794860839844,
+      "logps/rejected": -232.51588439941406,
+      "loss": 0.686,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.008283494971692562,
+      "rewards/margins": 0.02821039780974388,
+      "rewards/rejected": -0.01992690935730934,
+      "step": 15
+    },
+    {
+      "epoch": 0.27350427350427353,
+      "grad_norm": 45.087139669522024,
+      "learning_rate": 8.888888888888888e-08,
+      "logits/chosen": -1.2679555416107178,
+      "logits/rejected": -1.2887213230133057,
+      "logps/chosen": -199.248779296875,
+      "logps/rejected": -205.2248077392578,
+      "loss": 0.6733,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.02975328266620636,
+      "rewards/margins": 0.0451999194920063,
+      "rewards/rejected": -0.015446638688445091,
+      "step": 16
+    },
+    {
+      "epoch": 0.2905982905982906,
+      "grad_norm": 30.890431631676456,
+      "learning_rate": 9.444444444444444e-08,
+      "logits/chosen": -1.2544583082199097,
+      "logits/rejected": -1.27157461643219,
+      "logps/chosen": -196.59767150878906,
+      "logps/rejected": -202.0189208984375,
+      "loss": 0.7008,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": -0.0064844368025660515,
+      "rewards/margins": -0.005097508430480957,
+      "rewards/rejected": -0.001386929303407669,
+      "step": 17
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 36.969529635446534,
+      "learning_rate": 1e-07,
+      "logits/chosen": -1.239701271057129,
+      "logits/rejected": -1.2593967914581299,
+      "logps/chosen": -201.69735717773438,
+      "logps/rejected": -207.7852783203125,
+      "loss": 0.6918,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": 0.007044908590614796,
+      "rewards/margins": 0.010294247418642044,
+      "rewards/rejected": -0.0032493355683982372,
+      "step": 18
+    },
+    {
+      "epoch": 0.3247863247863248,
+      "grad_norm": 35.87746909247798,
+      "learning_rate": 9.99898614492425e-08,
+      "logits/chosen": -1.2804267406463623,
+      "logits/rejected": -1.300959825515747,
+      "logps/chosen": -244.39572143554688,
+      "logps/rejected": -249.00576782226562,
+      "loss": 0.6822,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": 0.027583029121160507,
+      "rewards/margins": 0.034470826387405396,
+      "rewards/rejected": -0.00688779354095459,
+      "step": 19
+    },
+    {
+      "epoch": 0.3418803418803419,
+      "grad_norm": 39.80607529411843,
+      "learning_rate": 9.995944990857847e-08,
+      "logits/chosen": -1.2674369812011719,
+      "logits/rejected": -1.2892487049102783,
+      "logps/chosen": -195.09527587890625,
+      "logps/rejected": -200.03048706054688,
+      "loss": 0.6705,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": 0.04508776590228081,
+      "rewards/margins": 0.05399542301893234,
+      "rewards/rejected": -0.008907651528716087,
+      "step": 20
+    },
+    {
+      "epoch": 0.358974358974359,
+      "grad_norm": 34.76525289614989,
+      "learning_rate": 9.990877771116587e-08,
+      "logits/chosen": -1.2724337577819824,
+      "logits/rejected": -1.2915544509887695,
+      "logps/chosen": -223.3970184326172,
+      "logps/rejected": -229.56161499023438,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.024257495999336243,
+      "rewards/margins": 0.06636013835668564,
+      "rewards/rejected": -0.04210264980792999,
+      "step": 21
+    },
+    {
+      "epoch": 0.37606837606837606,
+      "grad_norm": 36.272414566658256,
+      "learning_rate": 9.98378654067105e-08,
+      "logits/chosen": -1.0981558561325073,
+      "logits/rejected": -1.1171340942382812,
+      "logps/chosen": -178.88412475585938,
+      "logps/rejected": -183.5172119140625,
+      "loss": 0.6631,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.0411938913166523,
+      "rewards/margins": 0.07107527554035187,
+      "rewards/rejected": -0.02988138049840927,
+      "step": 22
+    },
+    {
+      "epoch": 0.39316239316239315,
+      "grad_norm": 30.099163509307015,
+      "learning_rate": 9.974674175313226e-08,
+      "logits/chosen": -1.1262412071228027,
+      "logits/rejected": -1.1371285915374756,
+      "logps/chosen": -208.44659423828125,
+      "logps/rejected": -214.96762084960938,
+      "loss": 0.6833,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.01529483962804079,
+      "rewards/margins": 0.028606699779629707,
+      "rewards/rejected": -0.04390154033899307,
+      "step": 23
+    },
+    {
+      "epoch": 0.41025641025641024,
+      "grad_norm": 31.33901972271606,
+      "learning_rate": 9.963544370490268e-08,
+      "logits/chosen": -1.1412584781646729,
+      "logits/rejected": -1.1536424160003662,
+      "logps/chosen": -202.59756469726562,
+      "logps/rejected": -208.01771545410156,
+      "loss": 0.6579,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": 0.02415022999048233,
+      "rewards/margins": 0.09160473942756653,
+      "rewards/rejected": -0.0674545094370842,
+      "step": 24
+    },
+    {
+      "epoch": 0.42735042735042733,
+      "grad_norm": 36.635398344744516,
+      "learning_rate": 9.95040163980582e-08,
+      "logits/chosen": -1.1588658094406128,
+      "logits/rejected": -1.1526269912719727,
+      "logps/chosen": -214.04232788085938,
+      "logps/rejected": -220.22341918945312,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.012563370168209076,
+      "rewards/margins": 0.02270527370274067,
+      "rewards/rejected": -0.010141899809241295,
+      "step": 25
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 38.35412916374687,
+      "learning_rate": 9.935251313189563e-08,
+      "logits/chosen": -1.173980712890625,
+      "logits/rejected": -1.1868159770965576,
+      "logps/chosen": -219.8594970703125,
+      "logps/rejected": -226.081787109375,
+      "loss": 0.647,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.03779206424951553,
+      "rewards/margins": 0.10382296144962311,
+      "rewards/rejected": -0.06603090465068817,
+      "step": 26
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 43.88497768831158,
+      "learning_rate": 9.918099534735718e-08,
+      "logits/chosen": -1.25485098361969,
+      "logits/rejected": -1.279860496520996,
+      "logps/chosen": -199.5153350830078,
+      "logps/rejected": -205.39694213867188,
+      "loss": 0.6412,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.04045698791742325,
+      "rewards/margins": 0.11912800371646881,
+      "rewards/rejected": -0.07867100834846497,
+      "step": 27
+    },
+    {
+      "epoch": 0.47863247863247865,
+      "grad_norm": 28.54947680302498,
+      "learning_rate": 9.898953260211338e-08,
+      "logits/chosen": -1.1610426902770996,
+      "logits/rejected": -1.1724255084991455,
+      "logps/chosen": -234.458740234375,
+      "logps/rejected": -242.35955810546875,
+      "loss": 0.6588,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.046372510492801666,
+      "rewards/margins": 0.08581171929836273,
+      "rewards/rejected": -0.03943920508027077,
+      "step": 28
+    },
+    {
+      "epoch": 0.49572649572649574,
+      "grad_norm": 38.575379284361844,
+      "learning_rate": 9.87782025423547e-08,
+      "logits/chosen": -1.1348447799682617,
+      "logits/rejected": -1.1553406715393066,
+      "logps/chosen": -227.30609130859375,
+      "logps/rejected": -233.3455047607422,
+      "loss": 0.6792,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.007504343055188656,
+      "rewards/margins": 0.04490330442786217,
+      "rewards/rejected": -0.03739895671606064,
+      "step": 29
+    },
+    {
+      "epoch": 0.5128205128205128,
+      "grad_norm": 28.8649579355048,
+      "learning_rate": 9.85470908713026e-08,
+      "logits/chosen": -1.2707566022872925,
+      "logits/rejected": -1.2946914434432983,
+      "logps/chosen": -193.622314453125,
+      "logps/rejected": -200.07647705078125,
+      "loss": 0.6541,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.00899035856127739,
+      "rewards/margins": 0.09786257892847061,
+      "rewards/rejected": -0.08887222409248352,
+      "step": 30
+    },
+    {
+      "epoch": 0.5299145299145299,
+      "grad_norm": 36.766076852410656,
+      "learning_rate": 9.82962913144534e-08,
+      "logits/chosen": -1.25348699092865,
+      "logits/rejected": -1.2663018703460693,
+      "logps/chosen": -217.2073211669922,
+      "logps/rejected": -225.44215393066406,
+      "loss": 0.5934,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.057059720158576965,
+      "rewards/margins": 0.23510321974754333,
+      "rewards/rejected": -0.17804351449012756,
+      "step": 31
+    },
+    {
+      "epoch": 0.5470085470085471,
+      "grad_norm": 27.088844747625835,
+      "learning_rate": 9.802590558156862e-08,
+      "logits/chosen": -1.1737737655639648,
+      "logits/rejected": -1.1880066394805908,
+      "logps/chosen": -218.86679077148438,
+      "logps/rejected": -224.62490844726562,
+      "loss": 0.623,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.07086749374866486,
+      "rewards/margins": 0.18128487467765808,
+      "rewards/rejected": -0.11041736602783203,
+      "step": 32
+    },
+    {
+      "epoch": 0.5641025641025641,
+      "grad_norm": 22.371870360791593,
+      "learning_rate": 9.773604332542727e-08,
+      "logits/chosen": -1.131829023361206,
+      "logits/rejected": -1.14661705493927,
+      "logps/chosen": -207.24508666992188,
+      "logps/rejected": -215.26809692382812,
+      "loss": 0.6147,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.07428524643182755,
+      "rewards/margins": 0.21523785591125488,
+      "rewards/rejected": -0.14095261693000793,
+      "step": 33
+    },
+    {
+      "epoch": 0.5811965811965812,
+      "grad_norm": 25.530691097543485,
+      "learning_rate": 9.742682209735726e-08,
+      "logits/chosen": -1.389977216720581,
+      "logits/rejected": -1.4088430404663086,
+      "logps/chosen": -218.48521423339844,
+      "logps/rejected": -225.37310791015625,
+      "loss": 0.6078,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.07247429341077805,
+      "rewards/margins": 0.21293310821056366,
+      "rewards/rejected": -0.1404588222503662,
+      "step": 34
+    },
+    {
+      "epoch": 0.5982905982905983,
+      "grad_norm": 29.281349306131553,
+      "learning_rate": 9.709836729956324e-08,
+      "logits/chosen": -1.235858678817749,
+      "logits/rejected": -1.2584373950958252,
+      "logps/chosen": -205.7969970703125,
+      "logps/rejected": -214.7664794921875,
+      "loss": 0.578,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.09870214760303497,
+      "rewards/margins": 0.2879001796245575,
+      "rewards/rejected": -0.18919800221920013,
+      "step": 35
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 24.884404577347613,
+      "learning_rate": 9.675081213427075e-08,
+      "logits/chosen": -1.1437745094299316,
+      "logits/rejected": -1.156705379486084,
+      "logps/chosen": -201.69158935546875,
+      "logps/rejected": -208.39410400390625,
+      "loss": 0.6051,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.08246290683746338,
+      "rewards/margins": 0.22834189236164093,
+      "rewards/rejected": -0.14587900042533875,
+      "step": 36
+    },
+    {
+      "epoch": 0.6324786324786325,
+      "grad_norm": 26.023769772211192,
+      "learning_rate": 9.638429754970714e-08,
+      "logits/chosen": -1.2717422246932983,
+      "logits/rejected": -1.2911996841430664,
+      "logps/chosen": -220.0479736328125,
+      "logps/rejected": -226.65805053710938,
+      "loss": 0.6227,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": 0.061918213963508606,
+      "rewards/margins": 0.1876792311668396,
+      "rewards/rejected": -0.1257610023021698,
+      "step": 37
+    },
+    {
+      "epoch": 0.6495726495726496,
+      "grad_norm": 21.285930283436088,
+      "learning_rate": 9.599897218294121e-08,
+      "logits/chosen": -1.149625539779663,
+      "logits/rejected": -1.1627771854400635,
+      "logps/chosen": -188.13546752929688,
+      "logps/rejected": -193.8762664794922,
+      "loss": 0.5902,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.06823387742042542,
+      "rewards/margins": 0.2635769248008728,
+      "rewards/rejected": -0.1953430473804474,
+      "step": 38
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 28.594807074763626,
+      "learning_rate": 9.55949922996045e-08,
+      "logits/chosen": -1.292288899421692,
+      "logits/rejected": -1.3035439252853394,
+      "logps/chosen": -190.9369354248047,
+      "logps/rejected": -199.70602416992188,
+      "loss": 0.5737,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.12498907744884491,
+      "rewards/margins": 0.3038545250892639,
+      "rewards/rejected": -0.1788654327392578,
+      "step": 39
+    },
+    {
+      "epoch": 0.6837606837606838,
+      "grad_norm": 16.39416824622444,
+      "learning_rate": 9.51725217305191e-08,
+      "logits/chosen": -1.1363672018051147,
+      "logits/rejected": -1.1635665893554688,
+      "logps/chosen": -178.391845703125,
+      "logps/rejected": -182.48060607910156,
+      "loss": 0.6205,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.040899015963077545,
+      "rewards/margins": 0.20198173820972443,
+      "rewards/rejected": -0.16108272969722748,
+      "step": 40
+    },
+    {
+      "epoch": 0.7008547008547008,
+      "grad_norm": 20.593478148927982,
+      "learning_rate": 9.473173180525737e-08,
+      "logits/chosen": -1.4217990636825562,
+      "logits/rejected": -1.44111967086792,
+      "logps/chosen": -237.90884399414062,
+      "logps/rejected": -243.34982299804688,
+      "loss": 0.6035,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.06040377914905548,
+      "rewards/margins": 0.25076523423194885,
+      "rewards/rejected": -0.19036142528057098,
+      "step": 41
+    },
+    {
+      "epoch": 0.717948717948718,
+      "grad_norm": 12.070721421212927,
+      "learning_rate": 9.427280128266049e-08,
+      "logits/chosen": -1.3305528163909912,
+      "logits/rejected": -1.3600330352783203,
+      "logps/chosen": -205.0777130126953,
+      "logps/rejected": -208.82928466796875,
+      "loss": 0.6593,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.013054514303803444,
+      "rewards/margins": 0.12817412614822388,
+      "rewards/rejected": -0.11511962115764618,
+      "step": 42
+    },
+    {
+      "epoch": 0.7350427350427351,
+      "grad_norm": 29.86743046569186,
+      "learning_rate": 9.379591627834438e-08,
+      "logits/chosen": -1.2910648584365845,
+      "logits/rejected": -1.307443618774414,
+      "logps/chosen": -208.11524963378906,
+      "logps/rejected": -217.86795043945312,
+      "loss": 0.5557,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.1203712746500969,
+      "rewards/margins": 0.34922224283218384,
+      "rewards/rejected": -0.22885093092918396,
+      "step": 43
+    },
+    {
+      "epoch": 0.7521367521367521,
+      "grad_norm": 23.573955160846516,
+      "learning_rate": 9.330127018922194e-08,
+      "logits/chosen": -1.2389857769012451,
+      "logits/rejected": -1.2511794567108154,
+      "logps/chosen": -170.03176879882812,
+      "logps/rejected": -174.43905639648438,
+      "loss": 0.5776,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.0804770439863205,
+      "rewards/margins": 0.30069464445114136,
+      "rewards/rejected": -0.22021761536598206,
+      "step": 44
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 18.335686890799686,
+      "learning_rate": 9.278906361507237e-08,
+      "logits/chosen": -1.2846009731292725,
+      "logits/rejected": -1.2945314645767212,
+      "logps/chosen": -188.7731475830078,
+      "logps/rejected": -193.93692016601562,
+      "loss": 0.5877,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.06845403462648392,
+      "rewards/margins": 0.29993581771850586,
+      "rewards/rejected": -0.23148177564144135,
+      "step": 45
+    },
+    {
+      "epoch": 0.7863247863247863,
+      "grad_norm": 23.02286550318084,
+      "learning_rate": 9.225950427718974e-08,
+      "logits/chosen": -1.1295859813690186,
+      "logits/rejected": -1.1521016359329224,
+      "logps/chosen": -187.48049926757812,
+      "logps/rejected": -195.07693481445312,
+      "loss": 0.5786,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.07457783073186874,
+      "rewards/margins": 0.33135661482810974,
+      "rewards/rejected": -0.256778746843338,
+      "step": 46
+    },
+    {
+      "epoch": 0.8034188034188035,
+      "grad_norm": 24.8096833678269,
+      "learning_rate": 9.171280693414307e-08,
+      "logits/chosen": -1.2724213600158691,
+      "logits/rejected": -1.2893978357315063,
+      "logps/chosen": -230.028564453125,
+      "logps/rejected": -239.03355407714844,
+      "loss": 0.5673,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.06915051490068436,
+      "rewards/margins": 0.33102768659591675,
+      "rewards/rejected": -0.261877179145813,
+      "step": 47
+    },
+    {
+      "epoch": 0.8205128205128205,
+      "grad_norm": 26.421496284247674,
+      "learning_rate": 9.114919329468282e-08,
+      "logits/chosen": -1.285154104232788,
+      "logits/rejected": -1.2963755130767822,
+      "logps/chosen": -206.5599822998047,
+      "logps/rejected": -213.7874298095703,
+      "loss": 0.5732,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.0874616876244545,
+      "rewards/margins": 0.3100225627422333,
+      "rewards/rejected": -0.222560852766037,
+      "step": 48
+    },
+    {
+      "epoch": 0.8376068376068376,
+      "grad_norm": 21.595989096370406,
+      "learning_rate": 9.056889192782865e-08,
+      "logits/chosen": -1.5055580139160156,
+      "logits/rejected": -1.5245859622955322,
+      "logps/chosen": -195.19354248046875,
+      "logps/rejected": -201.2977752685547,
+      "loss": 0.5833,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.023485925048589706,
+      "rewards/margins": 0.31261563301086426,
+      "rewards/rejected": -0.28912970423698425,
+      "step": 49
+    },
+    {
+      "epoch": 0.8547008547008547,
+      "grad_norm": 11.625163075241566,
+      "learning_rate": 8.997213817017506e-08,
+      "logits/chosen": -1.2943952083587646,
+      "logits/rejected": -1.3081563711166382,
+      "logps/chosen": -216.613525390625,
+      "logps/rejected": -225.1342010498047,
+      "loss": 0.5724,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.07946266978979111,
+      "rewards/margins": 0.40542203187942505,
+      "rewards/rejected": -0.32595935463905334,
+      "step": 50
+    },
+    {
+      "epoch": 0.8717948717948718,
+      "grad_norm": 21.248159283967354,
+      "learning_rate": 8.93591740304525e-08,
+      "logits/chosen": -1.1591204404830933,
+      "logits/rejected": -1.1832079887390137,
+      "logps/chosen": -228.90333557128906,
+      "logps/rejected": -237.9790496826172,
+      "loss": 0.4957,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.18997037410736084,
+      "rewards/margins": 0.5835675597190857,
+      "rewards/rejected": -0.39359715580940247,
+      "step": 51
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 14.185290181315091,
+      "learning_rate": 8.873024809138272e-08,
+      "logits/chosen": -1.2508485317230225,
+      "logits/rejected": -1.2704145908355713,
+      "logps/chosen": -216.64334106445312,
+      "logps/rejected": -227.10382080078125,
+      "loss": 0.531,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.17769969999790192,
+      "rewards/margins": 0.5860521197319031,
+      "rewards/rejected": -0.40835243463516235,
+      "step": 52
+    },
+    {
+      "epoch": 0.905982905982906,
+      "grad_norm": 11.16410009299076,
+      "learning_rate": 8.808561540886796e-08,
+      "logits/chosen": -1.4086058139801025,
+      "logits/rejected": -1.431929588317871,
+      "logps/chosen": -215.01551818847656,
+      "logps/rejected": -224.1956024169922,
+      "loss": 0.5262,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.13872653245925903,
+      "rewards/margins": 0.6294773817062378,
+      "rewards/rejected": -0.490750789642334,
+      "step": 53
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 11.390059021113096,
+      "learning_rate": 8.742553740855505e-08,
+      "logits/chosen": -1.3475840091705322,
+      "logits/rejected": -1.3789820671081543,
+      "logps/chosen": -188.4554443359375,
+      "logps/rejected": -193.24188232421875,
+      "loss": 0.581,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.012795737013220787,
+      "rewards/margins": 0.5359785556793213,
+      "rewards/rejected": -0.5231828093528748,
+      "step": 54
+    },
+    {
+      "epoch": 0.9401709401709402,
+      "grad_norm": 16.090910513851295,
+      "learning_rate": 8.675028177981643e-08,
+      "logits/chosen": -1.204801321029663,
+      "logits/rejected": -1.2171646356582642,
+      "logps/chosen": -166.46438598632812,
+      "logps/rejected": -172.99508666992188,
+      "loss": 0.6129,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.05364501476287842,
+      "rewards/margins": 0.5924966335296631,
+      "rewards/rejected": -0.5388516187667847,
+      "step": 55
+    },
+    {
+      "epoch": 0.9572649572649573,
+      "grad_norm": 9.083410086611899,
+      "learning_rate": 8.606012236719073e-08,
+      "logits/chosen": -1.3830593824386597,
+      "logits/rejected": -1.4001038074493408,
+      "logps/chosen": -241.22731018066406,
+      "logps/rejected": -250.010498046875,
+      "loss": 0.5129,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.12049320340156555,
+      "rewards/margins": 0.7378091812133789,
+      "rewards/rejected": -0.6173160076141357,
+      "step": 56
+    },
+    {
+      "epoch": 0.9743589743589743,
+      "grad_norm": 14.397726561970627,
+      "learning_rate": 8.535533905932736e-08,
+      "logits/chosen": -1.3072161674499512,
+      "logits/rejected": -1.3176829814910889,
+      "logps/chosen": -191.91030883789062,
+      "logps/rejected": -198.35617065429688,
+      "loss": 0.5967,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.009360641241073608,
+      "rewards/margins": 0.5768252015113831,
+      "rewards/rejected": -0.5861858129501343,
+      "step": 57
+    },
+    {
+      "epoch": 0.9914529914529915,
+      "grad_norm": 16.669538787390987,
+      "learning_rate": 8.463621767547997e-08,
+      "logits/chosen": -1.372280240058899,
+      "logits/rejected": -1.4476014375686646,
+      "logps/chosen": -206.40927124023438,
+      "logps/rejected": -211.49679565429688,
+      "loss": 0.6743,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.04053037241101265,
+      "rewards/margins": 0.4700264632701874,
+      "rewards/rejected": -0.5105568170547485,
+      "step": 58
+    },
+    {
+      "epoch": 1.0085470085470085,
+      "grad_norm": 19.191610379087507,
+      "learning_rate": 8.390304984959455e-08,
+      "logits/chosen": -1.3764476776123047,
+      "logits/rejected": -1.3746802806854248,
+      "logps/chosen": -205.39468383789062,
+      "logps/rejected": -209.646484375,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.050203800201416016,
+      "rewards/margins": 0.49823546409606934,
+      "rewards/rejected": -0.5484392046928406,
+      "step": 59
+    },
+    {
+      "epoch": 1.0256410256410255,
+      "grad_norm": 9.72583349916199,
+      "learning_rate": 8.315613291203976e-08,
+      "logits/chosen": -1.1869571208953857,
+      "logits/rejected": -1.1985766887664795,
+      "logps/chosen": -204.23336791992188,
+      "logps/rejected": -214.63931274414062,
+      "loss": 0.4542,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.1900985687971115,
+      "rewards/margins": 0.9572402834892273,
+      "rewards/rejected": -0.7671416997909546,
+      "step": 60
+    },
+    {
+      "epoch": 1.0427350427350428,
+      "grad_norm": 12.790359070150275,
+      "learning_rate": 8.239576976902693e-08,
+      "logits/chosen": -1.3644700050354004,
+      "logits/rejected": -1.3758866786956787,
+      "logps/chosen": -224.89085388183594,
+      "logps/rejected": -229.89581298828125,
+      "loss": 0.6183,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.02255810797214508,
+      "rewards/margins": 0.519614577293396,
+      "rewards/rejected": -0.4970565140247345,
+      "step": 61
+    },
+    {
+      "epoch": 1.0598290598290598,
+      "grad_norm": 9.677544959569486,
+      "learning_rate": 8.162226877976885e-08,
+      "logits/chosen": -1.154378890991211,
+      "logits/rejected": -1.1793490648269653,
+      "logps/chosen": -201.64071655273438,
+      "logps/rejected": -210.43582153320312,
+      "loss": 0.5383,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.1784771978855133,
+      "rewards/margins": 0.7319588661193848,
+      "rewards/rejected": -0.5534816980361938,
+      "step": 62
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 10.699966422645526,
+      "learning_rate": 8.083594363142716e-08,
+      "logits/chosen": -1.1146466732025146,
+      "logits/rejected": -1.1278059482574463,
+      "logps/chosen": -219.91403198242188,
+      "logps/rejected": -229.20675659179688,
+      "loss": 0.5109,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.18338268995285034,
+      "rewards/margins": 0.8228441476821899,
+      "rewards/rejected": -0.6394613981246948,
+      "step": 63
+    },
+    {
+      "epoch": 1.0940170940170941,
+      "grad_norm": 11.17387642505744,
+      "learning_rate": 8.003711321189894e-08,
+      "logits/chosen": -1.1515026092529297,
+      "logits/rejected": -1.1702303886413574,
+      "logps/chosen": -209.63499450683594,
+      "logps/rejected": -219.30508422851562,
+      "loss": 0.5058,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.11156587302684784,
+      "rewards/margins": 0.7776364088058472,
+      "rewards/rejected": -0.6660705804824829,
+      "step": 64
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 10.610949564485821,
+      "learning_rate": 7.922610148049444e-08,
+      "logits/chosen": -1.1395275592803955,
+      "logits/rejected": -1.1562132835388184,
+      "logps/chosen": -176.68936157226562,
+      "logps/rejected": -187.7157440185547,
+      "loss": 0.4523,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.18582171201705933,
+      "rewards/margins": 0.9305019378662109,
+      "rewards/rejected": -0.7446802258491516,
+      "step": 65
+    },
+    {
+      "epoch": 1.1282051282051282,
+      "grad_norm": 11.498019487488653,
+      "learning_rate": 7.840323733655779e-08,
+      "logits/chosen": -1.171459674835205,
+      "logits/rejected": -1.1901518106460571,
+      "logps/chosen": -227.089599609375,
+      "logps/rejected": -236.95291137695312,
+      "loss": 0.4636,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.159165620803833,
+      "rewards/margins": 0.858368456363678,
+      "rewards/rejected": -0.6992028951644897,
+      "step": 66
+    },
+    {
+      "epoch": 1.1452991452991452,
+      "grad_norm": 21.99005103837405,
+      "learning_rate": 7.756885448608458e-08,
+      "logits/chosen": -1.1363887786865234,
+      "logits/rejected": -1.144567847251892,
+      "logps/chosen": -218.0941925048828,
+      "logps/rejected": -223.96218872070312,
+      "loss": 0.6983,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -0.04397851973772049,
+      "rewards/margins": 0.3955537974834442,
+      "rewards/rejected": -0.4395323395729065,
+      "step": 67
+    },
+    {
+      "epoch": 1.1623931623931625,
+      "grad_norm": 18.16674630877845,
+      "learning_rate": 7.672329130639004e-08,
+      "logits/chosen": -1.1201629638671875,
+      "logits/rejected": -1.133668303489685,
+      "logps/chosen": -192.75445556640625,
+      "logps/rejected": -198.15664672851562,
+      "loss": 0.635,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.028316885232925415,
+      "rewards/margins": 0.5192416906356812,
+      "rewards/rejected": -0.4909248352050781,
+      "step": 68
+    },
+    {
+      "epoch": 1.1794871794871795,
+      "grad_norm": 11.16521195172972,
+      "learning_rate": 7.586689070888284e-08,
+      "logits/chosen": -1.1243481636047363,
+      "logits/rejected": -1.1298819780349731,
+      "logps/chosen": -213.1587371826172,
+      "logps/rejected": -224.7759246826172,
+      "loss": 0.4264,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.24826806783676147,
+      "rewards/margins": 0.9938527345657349,
+      "rewards/rejected": -0.7455847263336182,
+      "step": 69
+    },
+    {
+      "epoch": 1.1965811965811965,
+      "grad_norm": 8.376289448559815,
+      "learning_rate": 7.5e-08,
+      "logits/chosen": -1.1569201946258545,
+      "logits/rejected": -1.1789790391921997,
+      "logps/chosen": -189.38250732421875,
+      "logps/rejected": -197.4920654296875,
+      "loss": 0.5183,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.05915120244026184,
+      "rewards/margins": 0.7882977724075317,
+      "rewards/rejected": -0.7291465401649475,
+      "step": 70
+    },
+    {
+      "epoch": 1.2136752136752136,
+      "grad_norm": 8.723024156809132,
+      "learning_rate": 7.412297074035967e-08,
+      "logits/chosen": -1.1690480709075928,
+      "logits/rejected": -1.1838703155517578,
+      "logps/chosen": -203.88046264648438,
+      "logps/rejected": -212.6457061767578,
+      "loss": 0.5241,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.11532782018184662,
+      "rewards/margins": 0.7440451383590698,
+      "rewards/rejected": -0.628717303276062,
+      "step": 71
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 10.30802045111909,
+      "learning_rate": 7.323615860218842e-08,
+      "logits/chosen": -1.3766613006591797,
+      "logits/rejected": -1.4000604152679443,
+      "logps/chosen": -206.73068237304688,
+      "logps/rejected": -216.36465454101562,
+      "loss": 0.4835,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.14475136995315552,
+      "rewards/margins": 0.8415932059288025,
+      "rewards/rejected": -0.696841835975647,
+      "step": 72
+    },
+    {
+      "epoch": 1.2478632478632479,
+      "grad_norm": 12.166677399410396,
+      "learning_rate": 7.23399232250813e-08,
+      "logits/chosen": -1.1819312572479248,
+      "logits/rejected": -1.2087277173995972,
+      "logps/chosen": -224.70420837402344,
+      "logps/rejected": -237.1930389404297,
+      "loss": 0.4613,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.12526829540729523,
+      "rewards/margins": 0.8854970932006836,
+      "rewards/rejected": -0.7602287530899048,
+      "step": 73
+    },
+    {
+      "epoch": 1.264957264957265,
+      "grad_norm": 11.192808584993841,
+      "learning_rate": 7.14346280701527e-08,
+      "logits/chosen": -1.150439977645874,
+      "logits/rejected": -1.1626567840576172,
+      "logps/chosen": -194.71417236328125,
+      "logps/rejected": -204.508544921875,
+      "loss": 0.4899,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.15481960773468018,
+      "rewards/margins": 0.8400849103927612,
+      "rewards/rejected": -0.685265302658081,
+      "step": 74
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 11.37054884000388,
+      "learning_rate": 7.052064027263785e-08,
+      "logits/chosen": -1.3954964876174927,
+      "logits/rejected": -1.4272505044937134,
+      "logps/chosen": -219.84359741210938,
+      "logps/rejected": -228.41390991210938,
+      "loss": 0.4669,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.16620084643363953,
+      "rewards/margins": 0.8515415787696838,
+      "rewards/rejected": -0.6853407621383667,
+      "step": 75
+    },
+    {
+      "epoch": 1.2991452991452992,
+      "grad_norm": 10.49689615108526,
+      "learning_rate": 6.959833049300375e-08,
+      "logits/chosen": -1.3774794340133667,
+      "logits/rejected": -1.4036611318588257,
+      "logps/chosen": -183.67486572265625,
+      "logps/rejected": -192.86981201171875,
+      "loss": 0.4772,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.09460197389125824,
+      "rewards/margins": 0.8045063018798828,
+      "rewards/rejected": -0.7099043130874634,
+      "step": 76
+    },
+    {
+      "epoch": 1.3162393162393162,
+      "grad_norm": 10.59941724311733,
+      "learning_rate": 6.866807276663104e-08,
+      "logits/chosen": -1.3278074264526367,
+      "logits/rejected": -1.3401622772216797,
+      "logps/chosen": -229.26708984375,
+      "logps/rejected": -238.91275024414062,
+      "loss": 0.5274,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.050873637199401855,
+      "rewards/margins": 0.7076472043991089,
+      "rewards/rejected": -0.656773567199707,
+      "step": 77
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 13.50860542355102,
+      "learning_rate": 6.773024435212677e-08,
+      "logits/chosen": -1.3056037425994873,
+      "logits/rejected": -1.301482915878296,
+      "logps/chosen": -209.69281005859375,
+      "logps/rejected": -221.02227783203125,
+      "loss": 0.4919,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.16626644134521484,
+      "rewards/margins": 0.8823855519294739,
+      "rewards/rejected": -0.716119110584259,
+      "step": 78
+    },
+    {
+      "epoch": 1.3504273504273505,
+      "grad_norm": 10.017114133384686,
+      "learning_rate": 6.678522557833024e-08,
+      "logits/chosen": -1.2932631969451904,
+      "logits/rejected": -1.3511815071105957,
+      "logps/chosen": -194.30477905273438,
+      "logps/rejected": -203.97015380859375,
+      "loss": 0.4997,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.23168277740478516,
+      "rewards/margins": 0.8288371562957764,
+      "rewards/rejected": -0.5971543788909912,
+      "step": 79
+    },
+    {
+      "epoch": 1.3675213675213675,
+      "grad_norm": 11.94594457038117,
+      "learning_rate": 6.583339969007364e-08,
+      "logits/chosen": -1.3896009922027588,
+      "logits/rejected": -1.4074513912200928,
+      "logps/chosen": -227.5372772216797,
+      "logps/rejected": -239.33355712890625,
+      "loss": 0.4502,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.15596362948417664,
+      "rewards/margins": 0.9029906392097473,
+      "rewards/rejected": -0.7470270395278931,
+      "step": 80
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 9.543605226550325,
+      "learning_rate": 6.487515269276015e-08,
+      "logits/chosen": -1.227487325668335,
+      "logits/rejected": -1.2438147068023682,
+      "logps/chosen": -191.2093505859375,
+      "logps/rejected": -198.86778259277344,
+      "loss": 0.5661,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.02518596686422825,
+      "rewards/margins": 0.6359002590179443,
+      "rewards/rejected": -0.6107142567634583,
+      "step": 81
+    },
+    {
+      "epoch": 1.4017094017094016,
+      "grad_norm": 10.832258318403325,
+      "learning_rate": 6.391087319582263e-08,
+      "logits/chosen": -1.1567550897598267,
+      "logits/rejected": -1.1772217750549316,
+      "logps/chosen": -212.802978515625,
+      "logps/rejected": -220.7560272216797,
+      "loss": 0.564,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.043723899871110916,
+      "rewards/margins": 0.6755090951919556,
+      "rewards/rejected": -0.6317851543426514,
+      "step": 82
+    },
+    {
+      "epoch": 1.4188034188034189,
+      "grad_norm": 11.95656894237498,
+      "learning_rate": 6.294095225512604e-08,
+      "logits/chosen": -1.161773443222046,
+      "logits/rejected": -1.1838598251342773,
+      "logps/chosen": -193.63568115234375,
+      "logps/rejected": -207.10800170898438,
+      "loss": 0.4041,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.2261269986629486,
+      "rewards/margins": 1.0480878353118896,
+      "rewards/rejected": -0.8219609260559082,
+      "step": 83
+    },
+    {
+      "epoch": 1.435897435897436,
+      "grad_norm": 13.008934082615808,
+      "learning_rate": 6.196578321437789e-08,
+      "logits/chosen": -1.2154319286346436,
+      "logits/rejected": -1.2296960353851318,
+      "logps/chosen": -194.1830596923828,
+      "logps/rejected": -202.663818359375,
+      "loss": 0.5778,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.010080687701702118,
+      "rewards/margins": 0.645283043384552,
+      "rewards/rejected": -0.6553637981414795,
+      "step": 84
+    },
+    {
+      "epoch": 1.452991452991453,
+      "grad_norm": 10.057593191806976,
+      "learning_rate": 6.098576154561085e-08,
+      "logits/chosen": -1.2296245098114014,
+      "logits/rejected": -1.2029201984405518,
+      "logps/chosen": -224.36428833007812,
+      "logps/rejected": -232.56393432617188,
+      "loss": 0.5416,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.09980681538581848,
+      "rewards/margins": 0.7062771320343018,
+      "rewards/rejected": -0.6064703464508057,
+      "step": 85
+    },
+    {
+      "epoch": 1.4700854700854702,
+      "grad_norm": 9.741398540975316,
+      "learning_rate": 6.000128468880222e-08,
+      "logits/chosen": -1.2417197227478027,
+      "logits/rejected": -1.2633764743804932,
+      "logps/chosen": -191.479248046875,
+      "logps/rejected": -201.85977172851562,
+      "loss": 0.4437,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.12965287268161774,
+      "rewards/margins": 0.9167401194572449,
+      "rewards/rejected": -0.7870873212814331,
+      "step": 86
+    },
+    {
+      "epoch": 1.4871794871794872,
+      "grad_norm": 9.028275549835927,
+      "learning_rate": 5.901275189069529e-08,
+      "logits/chosen": -1.2375539541244507,
+      "logits/rejected": -1.259860634803772,
+      "logps/chosen": -203.27615356445312,
+      "logps/rejected": -210.93551635742188,
+      "loss": 0.5174,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.04642338678240776,
+      "rewards/margins": 0.7537603378295898,
+      "rewards/rejected": -0.707336962223053,
+      "step": 87
+    },
+    {
+      "epoch": 1.5042735042735043,
+      "grad_norm": 20.79725118421527,
+      "learning_rate": 5.802056404288801e-08,
+      "logits/chosen": -1.2705310583114624,
+      "logits/rejected": -1.285170078277588,
+      "logps/chosen": -195.17697143554688,
+      "logps/rejected": -203.60047912597656,
+      "loss": 0.6121,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.031761229038238525,
+      "rewards/margins": 0.5703467130661011,
+      "rewards/rejected": -0.6021079421043396,
+      "step": 88
+    },
+    {
+      "epoch": 1.5213675213675213,
+      "grad_norm": 12.880019514975364,
+      "learning_rate": 5.7025123519254635e-08,
+      "logits/chosen": -1.2466907501220703,
+      "logits/rejected": -1.2613425254821777,
+      "logps/chosen": -235.56301879882812,
+      "logps/rejected": -245.73464965820312,
+      "loss": 0.5004,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.1362065076828003,
+      "rewards/margins": 0.7939851880073547,
+      "rewards/rejected": -0.6577786207199097,
+      "step": 89
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 10.876242860868558,
+      "learning_rate": 5.6026834012766146e-08,
+      "logits/chosen": -1.1789934635162354,
+      "logits/rejected": -1.1866260766983032,
+      "logps/chosen": -202.47201538085938,
+      "logps/rejected": -214.0494842529297,
+      "loss": 0.436,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.22105956077575684,
+      "rewards/margins": 0.8981007933616638,
+      "rewards/rejected": -0.6770412921905518,
+      "step": 90
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 12.053992291241759,
+      "learning_rate": 5.5026100371775854e-08,
+      "logits/chosen": -1.1448007822036743,
+      "logits/rejected": -1.1542439460754395,
+      "logps/chosen": -215.9123077392578,
+      "logps/rejected": -225.4734344482422,
+      "loss": 0.5704,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.022347934544086456,
+      "rewards/margins": 0.7042903900146484,
+      "rewards/rejected": -0.6819424629211426,
+      "step": 91
+    },
+    {
+      "epoch": 1.5726495726495726,
+      "grad_norm": 9.880429971310734,
+      "learning_rate": 5.40233284358363e-08,
+      "logits/chosen": -1.1525931358337402,
+      "logits/rejected": -1.1745331287384033,
+      "logps/chosen": -227.42431640625,
+      "logps/rejected": -238.0443115234375,
+      "loss": 0.477,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.14314499497413635,
+      "rewards/margins": 0.8894479870796204,
+      "rewards/rejected": -0.7463030219078064,
+      "step": 92
+    },
+    {
+      "epoch": 1.5897435897435899,
+      "grad_norm": 12.896922327508921,
+      "learning_rate": 5.30189248711143e-08,
+      "logits/chosen": -1.2294321060180664,
+      "logits/rejected": -1.2549705505371094,
+      "logps/chosen": -194.19139099121094,
+      "logps/rejected": -204.89419555664062,
+      "loss": 0.4359,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.16293135285377502,
+      "rewards/margins": 0.9165316820144653,
+      "rewards/rejected": -0.7536002993583679,
+      "step": 93
+    },
+    {
+      "epoch": 1.606837606837607,
+      "grad_norm": 12.301250167175493,
+      "learning_rate": 5.201329700547076e-08,
+      "logits/chosen": -1.139244794845581,
+      "logits/rejected": -1.1551015377044678,
+      "logps/chosen": -239.79331970214844,
+      "logps/rejected": -245.39788818359375,
+      "loss": 0.61,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.05777675658464432,
+      "rewards/margins": 0.4941122233867645,
+      "rewards/rejected": -0.5518889427185059,
+      "step": 94
+    },
+    {
+      "epoch": 1.623931623931624,
+      "grad_norm": 13.892468492913862,
+      "learning_rate": 5.1006852663272015e-08,
+      "logits/chosen": -1.159139633178711,
+      "logits/rejected": -1.1759366989135742,
+      "logps/chosen": -225.52621459960938,
+      "logps/rejected": -232.21029663085938,
+      "loss": 0.6205,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.02948746271431446,
+      "rewards/margins": 0.5931065082550049,
+      "rewards/rejected": -0.5636190176010132,
+      "step": 95
+    },
+    {
+      "epoch": 1.641025641025641,
+      "grad_norm": 9.808441210297074,
+      "learning_rate": 5e-08,
+      "logits/chosen": -1.1536024808883667,
+      "logits/rejected": -1.1857885122299194,
+      "logps/chosen": -196.0366973876953,
+      "logps/rejected": -203.52236938476562,
+      "loss": 0.5625,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.048735711723566055,
+      "rewards/margins": 0.682651162147522,
+      "rewards/rejected": -0.6339154243469238,
+      "step": 96
+    },
+    {
+      "epoch": 1.658119658119658,
+      "grad_norm": 18.56220949873644,
+      "learning_rate": 4.8993147336727993e-08,
+      "logits/chosen": -1.100988507270813,
+      "logits/rejected": -1.115971565246582,
+      "logps/chosen": -195.26605224609375,
+      "logps/rejected": -203.88706970214844,
+      "loss": 0.5828,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0577177070081234,
+      "rewards/margins": 0.6403500437736511,
+      "rewards/rejected": -0.582632303237915,
+      "step": 97
+    },
+    {
+      "epoch": 1.6752136752136753,
+      "grad_norm": 11.022655388685179,
+      "learning_rate": 4.798670299452925e-08,
+      "logits/chosen": -1.1421875953674316,
+      "logits/rejected": -1.1606316566467285,
+      "logps/chosen": -196.30630493164062,
+      "logps/rejected": -202.04226684570312,
+      "loss": 0.5717,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.016672886908054352,
+      "rewards/margins": 0.6236412525177002,
+      "rewards/rejected": -0.6069684028625488,
+      "step": 98
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 8.871763691618773,
+      "learning_rate": 4.698107512888569e-08,
+      "logits/chosen": -1.2337532043457031,
+      "logits/rejected": -1.240652084350586,
+      "logps/chosen": -218.1448974609375,
+      "logps/rejected": -227.2547607421875,
+      "loss": 0.5265,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.11973094940185547,
+      "rewards/margins": 0.7548149824142456,
+      "rewards/rejected": -0.6350841522216797,
+      "step": 99
+    },
+    {
+      "epoch": 1.7094017094017095,
+      "grad_norm": 12.85415721892448,
+      "learning_rate": 4.597667156416371e-08,
+      "logits/chosen": -1.213283896446228,
+      "logits/rejected": -1.22767972946167,
+      "logps/chosen": -181.11399841308594,
+      "logps/rejected": -188.54241943359375,
+      "loss": 0.538,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.05350890010595322,
+      "rewards/margins": 0.6742588877677917,
+      "rewards/rejected": -0.6207499504089355,
+      "step": 100
+    },
+    {
+      "epoch": 1.7264957264957266,
+      "grad_norm": 13.021440721904707,
+      "learning_rate": 4.497389962822415e-08,
+      "logits/chosen": -1.2420412302017212,
+      "logits/rejected": -1.2504451274871826,
+      "logps/chosen": -203.78953552246094,
+      "logps/rejected": -212.01084899902344,
+      "loss": 0.5863,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.038240812718868256,
+      "rewards/margins": 0.5614969730377197,
+      "rewards/rejected": -0.599737823009491,
+      "step": 101
+    },
+    {
+      "epoch": 1.7435897435897436,
+      "grad_norm": 12.04774687416125,
+      "learning_rate": 4.397316598723385e-08,
+      "logits/chosen": -1.1910021305084229,
+      "logits/rejected": -1.2164733409881592,
+      "logps/chosen": -215.11517333984375,
+      "logps/rejected": -220.34439086914062,
+      "loss": 0.6163,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.03245179355144501,
+      "rewards/margins": 0.50189608335495,
+      "rewards/rejected": -0.5343478918075562,
+      "step": 102
+    },
+    {
+      "epoch": 1.7606837606837606,
+      "grad_norm": 15.288901319906586,
+      "learning_rate": 4.2974876480745374e-08,
+      "logits/chosen": -1.1831953525543213,
+      "logits/rejected": -1.2074761390686035,
+      "logps/chosen": -199.57235717773438,
+      "logps/rejected": -212.2587890625,
+      "loss": 0.3891,
+      "rewards/accuracies": 0.890625,
+      "rewards/chosen": 0.2656897306442261,
+      "rewards/margins": 1.0498855113983154,
+      "rewards/rejected": -0.7841956615447998,
+      "step": 103
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 9.830007228826831,
+      "learning_rate": 4.197943595711198e-08,
+      "logits/chosen": -1.2034883499145508,
+      "logits/rejected": -1.2180663347244263,
+      "logps/chosen": -203.7565155029297,
+      "logps/rejected": -213.16781616210938,
+      "loss": 0.5422,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.02019469439983368,
+      "rewards/margins": 0.6917099952697754,
+      "rewards/rejected": -0.6715153455734253,
+      "step": 104
+    },
+    {
+      "epoch": 1.7948717948717947,
+      "grad_norm": 12.127748094386865,
+      "learning_rate": 4.098724810930471e-08,
+      "logits/chosen": -1.240790843963623,
+      "logits/rejected": -1.255462884902954,
+      "logps/chosen": -234.8768768310547,
+      "logps/rejected": -245.94227600097656,
+      "loss": 0.5554,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.12386530637741089,
+      "rewards/margins": 0.7422997951507568,
+      "rewards/rejected": -0.618434488773346,
+      "step": 105
+    },
+    {
+      "epoch": 1.811965811965812,
+      "grad_norm": 8.84300119284711,
+      "learning_rate": 3.9998715311197785e-08,
+      "logits/chosen": -1.20076584815979,
+      "logits/rejected": -1.2230300903320312,
+      "logps/chosen": -188.9539794921875,
+      "logps/rejected": -199.81253051757812,
+      "loss": 0.4611,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.17494577169418335,
+      "rewards/margins": 0.8782938718795776,
+      "rewards/rejected": -0.7033481597900391,
+      "step": 106
+    },
+    {
+      "epoch": 1.8290598290598292,
+      "grad_norm": 12.143953391517758,
+      "learning_rate": 3.9014238454389155e-08,
+      "logits/chosen": -1.1750924587249756,
+      "logits/rejected": -1.1927435398101807,
+      "logps/chosen": -220.61715698242188,
+      "logps/rejected": -227.49227905273438,
+      "loss": 0.6069,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.008099107071757317,
+      "rewards/margins": 0.5756269693374634,
+      "rewards/rejected": -0.5675278306007385,
+      "step": 107
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 10.052329427872419,
+      "learning_rate": 3.803421678562212e-08,
+      "logits/chosen": -1.1661193370819092,
+      "logits/rejected": -1.1825528144836426,
+      "logps/chosen": -217.5789337158203,
+      "logps/rejected": -225.34059143066406,
+      "loss": 0.5635,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.009209178388118744,
+      "rewards/margins": 0.625337541103363,
+      "rewards/rejected": -0.6161283254623413,
+      "step": 108
+    },
+    {
+      "epoch": 1.8632478632478633,
+      "grad_norm": 8.53812544633681,
+      "learning_rate": 3.705904774487396e-08,
+      "logits/chosen": -1.2159624099731445,
+      "logits/rejected": -1.2333189249038696,
+      "logps/chosen": -162.47088623046875,
+      "logps/rejected": -167.80093383789062,
+      "loss": 0.5805,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.03216569870710373,
+      "rewards/margins": 0.5504827499389648,
+      "rewards/rejected": -0.5826483964920044,
+      "step": 109
+    },
+    {
+      "epoch": 1.8803418803418803,
+      "grad_norm": 13.581776681027804,
+      "learning_rate": 3.608912680417737e-08,
+      "logits/chosen": -1.1102283000946045,
+      "logits/rejected": -1.119093418121338,
+      "logps/chosen": -184.8140869140625,
+      "logps/rejected": -191.4400634765625,
+      "loss": 0.558,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.024945974349975586,
+      "rewards/margins": 0.5978469848632812,
+      "rewards/rejected": -0.5729010105133057,
+      "step": 110
+    },
+    {
+      "epoch": 1.8974358974358974,
+      "grad_norm": 12.936648401852018,
+      "learning_rate": 3.512484730723986e-08,
+      "logits/chosen": -1.1190906763076782,
+      "logits/rejected": -1.128208875656128,
+      "logps/chosen": -197.11883544921875,
+      "logps/rejected": -209.66224670410156,
+      "loss": 0.4606,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.09520569443702698,
+      "rewards/margins": 0.8170603513717651,
+      "rewards/rejected": -0.7218546867370605,
+      "step": 111
+    },
+    {
+      "epoch": 1.9145299145299144,
+      "grad_norm": 9.169654650547267,
+      "learning_rate": 3.4166600309926387e-08,
+      "logits/chosen": -1.1504645347595215,
+      "logits/rejected": -1.1653828620910645,
+      "logps/chosen": -198.95162963867188,
+      "logps/rejected": -207.6500244140625,
+      "loss": 0.5231,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.09164178371429443,
+      "rewards/margins": 0.7027959227561951,
+      "rewards/rejected": -0.6111540794372559,
+      "step": 112
+    },
+    {
+      "epoch": 1.9316239316239316,
+      "grad_norm": 17.398775144537346,
+      "learning_rate": 3.3214774421669774e-08,
+      "logits/chosen": -1.1868689060211182,
+      "logits/rejected": -1.1946336030960083,
+      "logps/chosen": -221.0373992919922,
+      "logps/rejected": -229.6405792236328,
+      "loss": 0.6231,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.047824956476688385,
+      "rewards/margins": 0.4882330000400543,
+      "rewards/rejected": -0.5360579490661621,
+      "step": 113
+    },
+    {
+      "epoch": 1.9487179487179487,
+      "grad_norm": 12.943629019538873,
+      "learning_rate": 3.2269755647873216e-08,
+      "logits/chosen": -1.1211748123168945,
+      "logits/rejected": -1.1268960237503052,
+      "logps/chosen": -197.11395263671875,
+      "logps/rejected": -209.36065673828125,
+      "loss": 0.4405,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.08558256924152374,
+      "rewards/margins": 0.8636702299118042,
+      "rewards/rejected": -0.7780876159667969,
+      "step": 114
+    },
+    {
+      "epoch": 1.965811965811966,
+      "grad_norm": 11.837235638275795,
+      "learning_rate": 3.133192723336895e-08,
+      "logits/chosen": -1.1296658515930176,
+      "logits/rejected": -1.149501085281372,
+      "logps/chosen": -208.91246032714844,
+      "logps/rejected": -219.44065856933594,
+      "loss": 0.4944,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.10977594554424286,
+      "rewards/margins": 0.7227219343185425,
+      "rewards/rejected": -0.6129459142684937,
+      "step": 115
+    },
+    {
+      "epoch": 1.982905982905983,
+      "grad_norm": 18.289512057606725,
+      "learning_rate": 3.040166950699625e-08,
+      "logits/chosen": -1.1587321758270264,
+      "logits/rejected": -1.174118161201477,
+      "logps/chosen": -215.89666748046875,
+      "logps/rejected": -225.2597198486328,
+      "loss": 0.5974,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.048938799649477005,
+      "rewards/margins": 0.5612896680831909,
+      "rewards/rejected": -0.5123509168624878,
+      "step": 116
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 17.673644748781474,
+      "learning_rate": 2.9479359727362168e-08,
+      "logits/chosen": -1.1334757804870605,
+      "logits/rejected": -1.154831886291504,
+      "logps/chosen": -216.36561584472656,
+      "logps/rejected": -230.03196716308594,
+      "loss": 0.3727,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.25375238060951233,
+      "rewards/margins": 1.027942419052124,
+      "rewards/rejected": -0.7741900682449341,
+      "step": 117
+    },
+    {
+      "epoch": 2.017094017094017,
+      "grad_norm": 11.314101392657788,
+      "learning_rate": 2.8565371929847283e-08,
+      "logits/chosen": -1.1733815670013428,
+      "logits/rejected": -1.1535022258758545,
+      "logps/chosen": -224.04931640625,
+      "logps/rejected": -233.57009887695312,
+      "loss": 0.559,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.026624973863363266,
+      "rewards/margins": 0.598927915096283,
+      "rewards/rejected": -0.6255529522895813,
+      "step": 118
+    },
+    {
+      "epoch": 2.034188034188034,
+      "grad_norm": 10.609916364905763,
+      "learning_rate": 2.7660076774918705e-08,
+      "logits/chosen": -1.1591335535049438,
+      "logits/rejected": -1.1719809770584106,
+      "logps/chosen": -213.2213592529297,
+      "logps/rejected": -222.13528442382812,
+      "loss": 0.5766,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.022205304354429245,
+      "rewards/margins": 0.5553700923919678,
+      "rewards/rejected": -0.5775754451751709,
+      "step": 119
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 9.277194276107487,
+      "learning_rate": 2.676384139781157e-08,
+      "logits/chosen": -1.13462233543396,
+      "logits/rejected": -1.1551544666290283,
+      "logps/chosen": -205.19595336914062,
+      "logps/rejected": -215.1734161376953,
+      "loss": 0.4953,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.06160476431250572,
+      "rewards/margins": 0.7654368281364441,
+      "rewards/rejected": -0.7038320302963257,
+      "step": 120
+    },
+    {
+      "epoch": 2.0683760683760686,
+      "grad_norm": 14.43220059945904,
+      "learning_rate": 2.5877029259640338e-08,
+      "logits/chosen": -1.1385934352874756,
+      "logits/rejected": -1.155543327331543,
+      "logps/chosen": -222.43588256835938,
+      "logps/rejected": -232.3367919921875,
+      "loss": 0.583,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -0.003830529749393463,
+      "rewards/margins": 0.5772326588630676,
+      "rewards/rejected": -0.5810632109642029,
+      "step": 121
+    },
+    {
+      "epoch": 2.0854700854700856,
+      "grad_norm": 9.261960233599536,
+      "learning_rate": 2.500000000000001e-08,
+      "logits/chosen": -1.1753509044647217,
+      "logits/rejected": -1.1910290718078613,
+      "logps/chosen": -239.65756225585938,
+      "logps/rejected": -247.01385498046875,
+      "loss": 0.549,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.0026865769177675247,
+      "rewards/margins": 0.6470093727111816,
+      "rewards/rejected": -0.6443228125572205,
+      "step": 122
+    },
+    {
+      "epoch": 2.1025641025641026,
+      "grad_norm": 10.818430657056384,
+      "learning_rate": 2.4133109291117154e-08,
+      "logits/chosen": -1.124866247177124,
+      "logits/rejected": -1.1370550394058228,
+      "logps/chosen": -230.85189819335938,
+      "logps/rejected": -237.9261474609375,
+      "loss": 0.544,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.0110344672575593,
+      "rewards/margins": 0.6254103779792786,
+      "rewards/rejected": -0.6364448070526123,
+      "step": 123
+    },
+    {
+      "epoch": 2.1196581196581197,
+      "grad_norm": 13.121980803220527,
+      "learning_rate": 2.3276708693609942e-08,
+      "logits/chosen": -1.0908477306365967,
+      "logits/rejected": -1.1073415279388428,
+      "logps/chosen": -198.06259155273438,
+      "logps/rejected": -209.06802368164062,
+      "loss": 0.4755,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.1449955701828003,
+      "rewards/margins": 0.7855964303016663,
+      "rewards/rejected": -0.6406008005142212,
+      "step": 124
+    },
+    {
+      "epoch": 2.1367521367521367,
+      "grad_norm": 15.529225379367618,
+      "learning_rate": 2.2431145513915417e-08,
+      "logits/chosen": -1.108154535293579,
+      "logits/rejected": -1.133366346359253,
+      "logps/chosen": -190.90164184570312,
+      "logps/rejected": -200.23097229003906,
+      "loss": 0.4427,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.17452549934387207,
+      "rewards/margins": 0.8946150541305542,
+      "rewards/rejected": -0.7200895547866821,
+      "step": 125
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 11.332798892704236,
+      "learning_rate": 2.1596762663442214e-08,
+      "logits/chosen": -1.1180146932601929,
+      "logits/rejected": -1.138838768005371,
+      "logps/chosen": -218.9339599609375,
+      "logps/rejected": -228.8380126953125,
+      "loss": 0.4697,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.14934074878692627,
+      "rewards/margins": 0.8204643726348877,
+      "rewards/rejected": -0.6711235642433167,
+      "step": 126
+    },
+    {
+      "epoch": 2.1709401709401708,
+      "grad_norm": 10.760405246726098,
+      "learning_rate": 2.0773898519505568e-08,
+      "logits/chosen": -1.1435554027557373,
+      "logits/rejected": -1.1642358303070068,
+      "logps/chosen": -230.4346923828125,
+      "logps/rejected": -241.82122802734375,
+      "loss": 0.4773,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.11793582886457443,
+      "rewards/margins": 0.8177317380905151,
+      "rewards/rejected": -0.6997958421707153,
+      "step": 127
+    },
+    {
+      "epoch": 2.1880341880341883,
+      "grad_norm": 15.324247847127602,
+      "learning_rate": 1.9962886788101045e-08,
+      "logits/chosen": -1.1083301305770874,
+      "logits/rejected": -1.1365399360656738,
+      "logps/chosen": -213.3138427734375,
+      "logps/rejected": -225.28939819335938,
+      "loss": 0.4208,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": 0.10102148354053497,
+      "rewards/margins": 0.8890993595123291,
+      "rewards/rejected": -0.7880778312683105,
+      "step": 128
+    },
+    {
+      "epoch": 2.2051282051282053,
+      "grad_norm": 15.466191747354994,
+      "learning_rate": 1.9164056368572844e-08,
+      "logits/chosen": -1.1004691123962402,
+      "logits/rejected": -1.1121408939361572,
+      "logps/chosen": -194.04080200195312,
+      "logps/rejected": -199.37283325195312,
+      "loss": 0.637,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.01290151197463274,
+      "rewards/margins": 0.5026463270187378,
+      "rewards/rejected": -0.5155478119850159,
+      "step": 129
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 15.944238341044407,
+      "learning_rate": 1.837773122023114e-08,
+      "logits/chosen": -1.146977186203003,
+      "logits/rejected": -1.1606022119522095,
+      "logps/chosen": -240.349365234375,
+      "logps/rejected": -251.76963806152344,
+      "loss": 0.5228,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.0040101055055856705,
+      "rewards/margins": 0.695541262626648,
+      "rewards/rejected": -0.6915311813354492,
+      "step": 130
+    },
+    {
+      "epoch": 2.2393162393162394,
+      "grad_norm": 15.025893466379495,
+      "learning_rate": 1.7604230230973067e-08,
+      "logits/chosen": -1.13142991065979,
+      "logits/rejected": -1.1480824947357178,
+      "logps/chosen": -194.62799072265625,
+      "logps/rejected": -199.05955505371094,
+      "loss": 0.6138,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.024984439834952354,
+      "rewards/margins": 0.4939660131931305,
+      "rewards/rejected": -0.5189504027366638,
+      "step": 131
+    },
+    {
+      "epoch": 2.2564102564102564,
+      "grad_norm": 10.423853403324884,
+      "learning_rate": 1.684386708796025e-08,
+      "logits/chosen": -1.1584217548370361,
+      "logits/rejected": -1.1739740371704102,
+      "logps/chosen": -212.08572387695312,
+      "logps/rejected": -221.51220703125,
+      "loss": 0.4958,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.07847034931182861,
+      "rewards/margins": 0.7713154554367065,
+      "rewards/rejected": -0.6928451061248779,
+      "step": 132
+    },
+    {
+      "epoch": 2.2735042735042734,
+      "grad_norm": 9.971803033783335,
+      "learning_rate": 1.6096950150405452e-08,
+      "logits/chosen": -1.1436063051223755,
+      "logits/rejected": -1.160508632659912,
+      "logps/chosen": -204.3734893798828,
+      "logps/rejected": -213.5944061279297,
+      "loss": 0.5091,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.07435590028762817,
+      "rewards/margins": 0.7634117007255554,
+      "rewards/rejected": -0.6890558004379272,
+      "step": 133
+    },
+    {
+      "epoch": 2.2905982905982905,
+      "grad_norm": 8.987802075772965,
+      "learning_rate": 1.5363782324520032e-08,
+      "logits/chosen": -1.1349424123764038,
+      "logits/rejected": -1.1463358402252197,
+      "logps/chosen": -208.209716796875,
+      "logps/rejected": -216.95404052734375,
+      "loss": 0.572,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.015836581587791443,
+      "rewards/margins": 0.5976603627204895,
+      "rewards/rejected": -0.6134969592094421,
+      "step": 134
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 21.67620857712611,
+      "learning_rate": 1.4644660940672625e-08,
+      "logits/chosen": -1.1195368766784668,
+      "logits/rejected": -1.128150463104248,
+      "logps/chosen": -186.9232940673828,
+      "logps/rejected": -191.544189453125,
+      "loss": 0.6887,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.10622984915971756,
+      "rewards/margins": 0.3374324440956116,
+      "rewards/rejected": -0.44366228580474854,
+      "step": 135
+    },
+    {
+      "epoch": 2.324786324786325,
+      "grad_norm": 11.54470517673579,
+      "learning_rate": 1.3939877632809277e-08,
+      "logits/chosen": -1.1393911838531494,
+      "logits/rejected": -1.1634023189544678,
+      "logps/chosen": -197.70037841796875,
+      "logps/rejected": -204.5723876953125,
+      "loss": 0.5297,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.007616041228175163,
+      "rewards/margins": 0.6849985122680664,
+      "rewards/rejected": -0.6926145553588867,
+      "step": 136
+    },
+    {
+      "epoch": 2.341880341880342,
+      "grad_norm": 10.368711538125641,
+      "learning_rate": 1.3249718220183582e-08,
+      "logits/chosen": -1.121419906616211,
+      "logits/rejected": -1.1439043283462524,
+      "logps/chosen": -181.91073608398438,
+      "logps/rejected": -191.04998779296875,
+      "loss": 0.4756,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.0861404687166214,
+      "rewards/margins": 0.8086279630661011,
+      "rewards/rejected": -0.7224874496459961,
+      "step": 137
+    },
+    {
+      "epoch": 2.358974358974359,
+      "grad_norm": 14.365090496657496,
+      "learning_rate": 1.257446259144494e-08,
+      "logits/chosen": -1.1453857421875,
+      "logits/rejected": -1.1547346115112305,
+      "logps/chosen": -231.15866088867188,
+      "logps/rejected": -237.12417602539062,
+      "loss": 0.6103,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.041959621012210846,
+      "rewards/margins": 0.5022944808006287,
+      "rewards/rejected": -0.5442540645599365,
+      "step": 138
+    },
+    {
+      "epoch": 2.376068376068376,
+      "grad_norm": 9.656171349325511,
+      "learning_rate": 1.1914384591132043e-08,
+      "logits/chosen": -1.141068696975708,
+      "logits/rejected": -1.1648932695388794,
+      "logps/chosen": -219.26382446289062,
+      "logps/rejected": -230.5452117919922,
+      "loss": 0.4931,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.0493345707654953,
+      "rewards/margins": 0.7861582636833191,
+      "rewards/rejected": -0.7368236780166626,
+      "step": 139
+    },
+    {
+      "epoch": 2.393162393162393,
+      "grad_norm": 15.752618156012147,
+      "learning_rate": 1.1269751908617276e-08,
+      "logits/chosen": -1.136232852935791,
+      "logits/rejected": -1.1563072204589844,
+      "logps/chosen": -227.65208435058594,
+      "logps/rejected": -240.42117309570312,
+      "loss": 0.3967,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": 0.1949460506439209,
+      "rewards/margins": 0.9552947282791138,
+      "rewards/rejected": -0.7603486180305481,
+      "step": 140
+    },
+    {
+      "epoch": 2.41025641025641,
+      "grad_norm": 11.31223945225425,
+      "learning_rate": 1.0640825969547496e-08,
+      "logits/chosen": -1.1534329652786255,
+      "logits/rejected": -1.1619985103607178,
+      "logps/chosen": -192.60653686523438,
+      "logps/rejected": -201.87152099609375,
+      "loss": 0.4894,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.11703934520483017,
+      "rewards/margins": 0.7475524544715881,
+      "rewards/rejected": -0.6305131316184998,
+      "step": 141
+    },
+    {
+      "epoch": 2.427350427350427,
+      "grad_norm": 12.11110778039733,
+      "learning_rate": 1.0027861829824951e-08,
+      "logits/chosen": -1.1429475545883179,
+      "logits/rejected": -1.1553916931152344,
+      "logps/chosen": -182.27755737304688,
+      "logps/rejected": -190.2538604736328,
+      "loss": 0.4604,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.1430453062057495,
+      "rewards/margins": 0.8205001950263977,
+      "rewards/rejected": -0.677454948425293,
+      "step": 142
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 10.073266909222724,
+      "learning_rate": 9.431108072171346e-09,
+      "logits/chosen": -1.1163727045059204,
+      "logits/rejected": -1.1383988857269287,
+      "logps/chosen": -216.525146484375,
+      "logps/rejected": -227.12210083007812,
+      "loss": 0.4628,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.14038164913654327,
+      "rewards/margins": 0.8874834775924683,
+      "rewards/rejected": -0.7471017837524414,
+      "step": 143
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 13.360992194888963,
+      "learning_rate": 8.850806705317182e-09,
+      "logits/chosen": -1.139005422592163,
+      "logits/rejected": -1.1591947078704834,
+      "logps/chosen": -195.65130615234375,
+      "logps/rejected": -206.27609252929688,
+      "loss": 0.4426,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.1284395456314087,
+      "rewards/margins": 0.8563048243522644,
+      "rewards/rejected": -0.7278652191162109,
+      "step": 144
+    },
+    {
+      "epoch": 2.4786324786324787,
+      "grad_norm": 10.67304030614597,
+      "learning_rate": 8.287193065856934e-09,
+      "logits/chosen": -1.1437926292419434,
+      "logits/rejected": -1.1602983474731445,
+      "logps/chosen": -228.97036743164062,
+      "logps/rejected": -236.4608917236328,
+      "loss": 0.5474,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.014734627678990364,
+      "rewards/margins": 0.632479190826416,
+      "rewards/rejected": -0.6472138166427612,
+      "step": 145
+    },
+    {
+      "epoch": 2.4957264957264957,
+      "grad_norm": 12.58050150959104,
+      "learning_rate": 7.740495722810269e-09,
+      "logits/chosen": -1.1535564661026,
+      "logits/rejected": -1.1711981296539307,
+      "logps/chosen": -236.28009033203125,
+      "logps/rejected": -246.86940002441406,
+      "loss": 0.5553,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": 0.05269505828619003,
+      "rewards/margins": 0.651862382888794,
+      "rewards/rejected": -0.5991672873497009,
+      "step": 146
+    },
+    {
+      "epoch": 2.5128205128205128,
+      "grad_norm": 13.68139629513432,
+      "learning_rate": 7.21093638492763e-09,
+      "logits/chosen": -1.1227092742919922,
+      "logits/rejected": -1.1288495063781738,
+      "logps/chosen": -217.27041625976562,
+      "logps/rejected": -226.31106567382812,
+      "loss": 0.5605,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.03952491655945778,
+      "rewards/margins": 0.6230200529098511,
+      "rewards/rejected": -0.5834950804710388,
+      "step": 147
+    },
+    {
+      "epoch": 2.52991452991453,
+      "grad_norm": 11.107710048934456,
+      "learning_rate": 6.698729810778064e-09,
+      "logits/chosen": -1.1167018413543701,
+      "logits/rejected": -1.1288390159606934,
+      "logps/chosen": -172.33506774902344,
+      "logps/rejected": -183.2366943359375,
+      "loss": 0.4722,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.07862406969070435,
+      "rewards/margins": 0.8088675737380981,
+      "rewards/rejected": -0.730243444442749,
+      "step": 148
+    },
+    {
+      "epoch": 2.547008547008547,
+      "grad_norm": 9.75424219804887,
+      "learning_rate": 6.2040837216556065e-09,
+      "logits/chosen": -1.1220264434814453,
+      "logits/rejected": -1.1383702754974365,
+      "logps/chosen": -173.99307250976562,
+      "logps/rejected": -180.97409057617188,
+      "loss": 0.547,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.036549799144268036,
+      "rewards/margins": 0.6526806950569153,
+      "rewards/rejected": -0.6161308288574219,
+      "step": 149
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 9.000110410304462,
+      "learning_rate": 5.72719871733951e-09,
+      "logits/chosen": -1.1478543281555176,
+      "logits/rejected": -1.162055492401123,
+      "logps/chosen": -210.30230712890625,
+      "logps/rejected": -219.92025756835938,
+      "loss": 0.5032,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.08797699958086014,
+      "rewards/margins": 0.7658952474594116,
+      "rewards/rejected": -0.6779183149337769,
+      "step": 150
+    },
+    {
+      "epoch": 2.5811965811965814,
+      "grad_norm": 10.1415207023501,
+      "learning_rate": 5.268268194742637e-09,
+      "logits/chosen": -1.1291569471359253,
+      "logits/rejected": -1.1531567573547363,
+      "logps/chosen": -203.74197387695312,
+      "logps/rejected": -214.16635131835938,
+      "loss": 0.4866,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.09940335154533386,
+      "rewards/margins": 0.8116313219070435,
+      "rewards/rejected": -0.7122279405593872,
+      "step": 151
+    },
+    {
+      "epoch": 2.5982905982905984,
+      "grad_norm": 16.84344261725859,
+      "learning_rate": 4.8274782694808944e-09,
+      "logits/chosen": -1.1761313676834106,
+      "logits/rejected": -1.1889032125473022,
+      "logps/chosen": -182.23313903808594,
+      "logps/rejected": -190.6284942626953,
+      "loss": 0.602,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.0021361373364925385,
+      "rewards/margins": 0.5903259515762329,
+      "rewards/rejected": -0.5924620628356934,
+      "step": 152
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 10.342640560846462,
+      "learning_rate": 4.405007700395497e-09,
+      "logits/chosen": -1.245884656906128,
+      "logits/rejected": -1.2569400072097778,
+      "logps/chosen": -233.83187866210938,
+      "logps/rejected": -241.43829345703125,
+      "loss": 0.5602,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.08486086875200272,
+      "rewards/margins": 0.6137546300888062,
+      "rewards/rejected": -0.528893768787384,
+      "step": 153
+    },
+    {
+      "epoch": 2.6324786324786325,
+      "grad_norm": 11.195110544830893,
+      "learning_rate": 4.001027817058789e-09,
+      "logits/chosen": -1.1756093502044678,
+      "logits/rejected": -1.1821260452270508,
+      "logps/chosen": -209.090576171875,
+      "logps/rejected": -217.76544189453125,
+      "loss": 0.5369,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.026307465508580208,
+      "rewards/margins": 0.6771571636199951,
+      "rewards/rejected": -0.6508496999740601,
+      "step": 154
+    },
+    {
+      "epoch": 2.6495726495726495,
+      "grad_norm": 11.468843056927497,
+      "learning_rate": 3.615702450292857e-09,
+      "logits/chosen": -1.1457751989364624,
+      "logits/rejected": -1.1615948677062988,
+      "logps/chosen": -200.81849670410156,
+      "logps/rejected": -208.45953369140625,
+      "loss": 0.5635,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.04140181466937065,
+      "rewards/margins": 0.6608602404594421,
+      "rewards/rejected": -0.6194584369659424,
+      "step": 155
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 16.10613082091144,
+      "learning_rate": 3.249187865729264e-09,
+      "logits/chosen": -1.1295171976089478,
+      "logits/rejected": -1.141875147819519,
+      "logps/chosen": -204.73062133789062,
+      "logps/rejected": -210.01327514648438,
+      "loss": 0.6465,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -0.11547264456748962,
+      "rewards/margins": 0.4126802086830139,
+      "rewards/rejected": -0.5281528830528259,
+      "step": 156
+    },
+    {
+      "epoch": 2.683760683760684,
+      "grad_norm": 10.03655045878155,
+      "learning_rate": 2.901632700436757e-09,
+      "logits/chosen": -1.143242597579956,
+      "logits/rejected": -1.160161018371582,
+      "logps/chosen": -174.2664031982422,
+      "logps/rejected": -182.31903076171875,
+      "loss": 0.4945,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.08182242512702942,
+      "rewards/margins": 0.7298170328140259,
+      "rewards/rejected": -0.6479946374893188,
+      "step": 157
+    },
+    {
+      "epoch": 2.700854700854701,
+      "grad_norm": 11.305104367611348,
+      "learning_rate": 2.573177902642726e-09,
+      "logits/chosen": -1.1665239334106445,
+      "logits/rejected": -1.182492733001709,
+      "logps/chosen": -229.9663848876953,
+      "logps/rejected": -237.08203125,
+      "loss": 0.5943,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": 0.023433707654476166,
+      "rewards/margins": 0.551005482673645,
+      "rewards/rejected": -0.5275717973709106,
+      "step": 158
+    },
+    {
+      "epoch": 2.717948717948718,
+      "grad_norm": 10.504878974042182,
+      "learning_rate": 2.26395667457272e-09,
+      "logits/chosen": -1.1970775127410889,
+      "logits/rejected": -1.2054022550582886,
+      "logps/chosen": -190.76803588867188,
+      "logps/rejected": -199.29653930664062,
+      "loss": 0.5558,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.001526951789855957,
+      "rewards/margins": 0.6256418228149414,
+      "rewards/rejected": -0.6271687746047974,
+      "step": 159
+    },
+    {
+      "epoch": 2.735042735042735,
+      "grad_norm": 11.325581828780779,
+      "learning_rate": 1.974094418431388e-09,
+      "logits/chosen": -1.184805154800415,
+      "logits/rejected": -1.1994928121566772,
+      "logps/chosen": -221.29714965820312,
+      "logps/rejected": -229.39114379882812,
+      "loss": 0.5348,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.07320481538772583,
+      "rewards/margins": 0.7132403254508972,
+      "rewards/rejected": -0.6400355100631714,
+      "step": 160
+    },
+    {
+      "epoch": 2.752136752136752,
+      "grad_norm": 16.606322072532784,
+      "learning_rate": 1.70370868554659e-09,
+      "logits/chosen": -1.1502766609191895,
+      "logits/rejected": -1.1701258420944214,
+      "logps/chosen": -203.93157958984375,
+      "logps/rejected": -213.386962890625,
+      "loss": 0.5016,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.08069507777690887,
+      "rewards/margins": 0.741931676864624,
+      "rewards/rejected": -0.6612365245819092,
+      "step": 161
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 9.332158126942588,
+      "learning_rate": 1.4529091286973993e-09,
+      "logits/chosen": -1.176550269126892,
+      "logits/rejected": -1.1953678131103516,
+      "logps/chosen": -200.64903259277344,
+      "logps/rejected": -209.88601684570312,
+      "loss": 0.4562,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.1343638300895691,
+      "rewards/margins": 0.8853030204772949,
+      "rewards/rejected": -0.750939130783081,
+      "step": 162
+    },
+    {
+      "epoch": 2.786324786324786,
+      "grad_norm": 12.305989450270319,
+      "learning_rate": 1.2217974576453073e-09,
+      "logits/chosen": -1.1757240295410156,
+      "logits/rejected": -1.194833517074585,
+      "logps/chosen": -190.90017700195312,
+      "logps/rejected": -198.53961181640625,
+      "loss": 0.505,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": 0.09432975947856903,
+      "rewards/margins": 0.7659503221511841,
+      "rewards/rejected": -0.6716204881668091,
+      "step": 163
+    },
+    {
+      "epoch": 2.8034188034188032,
+      "grad_norm": 13.908389521076861,
+      "learning_rate": 1.0104673978866163e-09,
+      "logits/chosen": -1.1564306020736694,
+      "logits/rejected": -1.1730563640594482,
+      "logps/chosen": -194.90380859375,
+      "logps/rejected": -205.46780395507812,
+      "loss": 0.4662,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.04942229017615318,
+      "rewards/margins": 0.8170619606971741,
+      "rewards/rejected": -0.767639696598053,
+      "step": 164
+    },
+    {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 12.780769520987649,
+      "learning_rate": 8.190046526428241e-10,
+      "logits/chosen": -1.1861720085144043,
+      "logits/rejected": -1.1941571235656738,
+      "logps/chosen": -183.89785766601562,
+      "logps/rejected": -190.7549591064453,
+      "loss": 0.5988,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.07762289047241211,
+      "rewards/margins": 0.5094401836395264,
+      "rewards/rejected": -0.5870630741119385,
+      "step": 165
+    },
+    {
+      "epoch": 2.8376068376068377,
+      "grad_norm": 10.131031386454218,
+      "learning_rate": 6.474868681043578e-10,
+      "logits/chosen": -1.1564173698425293,
+      "logits/rejected": -1.1741199493408203,
+      "logps/chosen": -203.1290283203125,
+      "logps/rejected": -211.66384887695312,
+      "loss": 0.4907,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 0.0838145986199379,
+      "rewards/margins": 0.7962778806686401,
+      "rewards/rejected": -0.7124632596969604,
+      "step": 166
+    },
+    {
+      "epoch": 2.8547008547008548,
+      "grad_norm": 8.399367808780221,
+      "learning_rate": 4.959836019417962e-10,
+      "logits/chosen": -1.1661570072174072,
+      "logits/rejected": -1.1843953132629395,
+      "logps/chosen": -211.7659454345703,
+      "logps/rejected": -222.60427856445312,
+      "loss": 0.4925,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": 0.0809076726436615,
+      "rewards/margins": 0.8028526902198792,
+      "rewards/rejected": -0.72194504737854,
+      "step": 167
+    },
+    {
+      "epoch": 2.871794871794872,
+      "grad_norm": 11.616005571882278,
+      "learning_rate": 3.6455629509730133e-10,
+      "logits/chosen": -1.1654963493347168,
+      "logits/rejected": -1.184993028640747,
+      "logps/chosen": -196.7091827392578,
+      "logps/rejected": -209.18038940429688,
+      "loss": 0.4599,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.11940186470746994,
+      "rewards/margins": 0.8598418235778809,
+      "rewards/rejected": -0.7404400110244751,
+      "step": 168
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 12.195394944591055,
+      "learning_rate": 2.5325824686772135e-10,
+      "logits/chosen": -1.1688848733901978,
+      "logits/rejected": -1.196124792098999,
+      "logps/chosen": -199.17605590820312,
+      "logps/rejected": -209.53363037109375,
+      "loss": 0.4399,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.12242993712425232,
+      "rewards/margins": 0.9102602005004883,
+      "rewards/rejected": -0.7878302931785583,
+      "step": 169
+    },
+    {
+      "epoch": 2.905982905982906,
+      "grad_norm": 9.305104818842697,
+      "learning_rate": 1.6213459328950352e-10,
+      "logits/chosen": -1.173734426498413,
+      "logits/rejected": -1.2014164924621582,
+      "logps/chosen": -220.3543701171875,
+      "logps/rejected": -229.80990600585938,
+      "loss": 0.5311,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.02049381658434868,
+      "rewards/margins": 0.716760516166687,
+      "rewards/rejected": -0.6962666511535645,
+      "step": 170
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 11.737143533763412,
+      "learning_rate": 9.122228883412519e-11,
+      "logits/chosen": -1.1701695919036865,
+      "logits/rejected": -1.1954526901245117,
+      "logps/chosen": -189.93716430664062,
+      "logps/rejected": -201.12091064453125,
+      "loss": 0.4288,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": 0.1308666169643402,
+      "rewards/margins": 0.9327261447906494,
+      "rewards/rejected": -0.8018596172332764,
+      "step": 171
+    },
+    {
+      "epoch": 2.9401709401709404,
+      "grad_norm": 10.598228899609609,
+      "learning_rate": 4.055009142152066e-11,
+      "logits/chosen": -1.1600360870361328,
+      "logits/rejected": -1.1835734844207764,
+      "logps/chosen": -206.61842346191406,
+      "logps/rejected": -217.8074951171875,
+      "loss": 0.4494,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 0.20338577032089233,
+      "rewards/margins": 0.8938266038894653,
+      "rewards/rejected": -0.6904407739639282,
+      "step": 172
+    },
+    {
+      "epoch": 2.9572649572649574,
+      "grad_norm": 10.014863605317403,
+      "learning_rate": 1.0138550757493591e-11,
+      "logits/chosen": -1.1498973369598389,
+      "logits/rejected": -1.1670013666152954,
+      "logps/chosen": -202.51608276367188,
+      "logps/rejected": -209.33724975585938,
+      "loss": 0.5679,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.014209911227226257,
+      "rewards/margins": 0.590630054473877,
+      "rewards/rejected": -0.6048400402069092,
+      "step": 173
+    },
+    {
+      "epoch": 2.9743589743589745,
+      "grad_norm": 9.75470963806605,
+      "learning_rate": 0.0,
+      "logits/chosen": -1.1818571090698242,
+      "logits/rejected": -1.1973093748092651,
+      "logps/chosen": -228.11502075195312,
+      "logps/rejected": -236.86996459960938,
+      "loss": 0.5039,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.055170848965644836,
+      "rewards/margins": 0.7427819967269897,
+      "rewards/rejected": -0.6876111030578613,
+      "step": 174
+    },
+    {
+      "epoch": 2.9743589743589745,
+      "step": 174,
+      "total_flos": 12717170049024.0,
+      "train_loss": 0.5604205996483221,
+      "train_runtime": 1532.2128,
+      "train_samples_per_second": 7.327,
+      "train_steps_per_second": 0.114
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 174,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 12717170049024.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb8fe677151d5f5478a8d0beae503b45ed3e2ff55ce16a51123a65ce22751129
+size 7480

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff