zaddyzaddy commited on Jan 30, 2025

Commit

c74e265

verified ·

1 Parent(s): 99e5063

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
config.json +29 -0
generation_config.json +14 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +345 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +25 -0
tokenizer.json +3 -0
tokenizer_config.json +208 -0
trainer_state.json +2433 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-1.5B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 21,
+  "model_type": "qwen2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.48.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ce44e6d8fa1cf5bb5c0f352ed65b61642008c20f82e365145b6b7ae1b6c9f70
+size 4996670464

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28fedcd44434e9ae863d178d85867411e7b9592b857c9a027a5f2b10a1a867ac
+size 1178224960

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,345 @@

+{
+  "metadata": {
+    "total_size": 6174857216
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9567ed996e591a08181653e8dba3d4c93ec259a14261597829576d5586b40e3a
+size 12350013036

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3140acd56e4021d35aa987c0d2cf7c94f0acd41ed3b42de77c7ced64932750a1
+size 15920

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0728b56dab7abb5ef8a0d4bae3519c5767c97467bdd886d26bf19cc8599d0312
+size 15984

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4e481d4ef1546694da7337f6bb6c658b866dcb79b85deeb477da0d27ebe851e
+size 15984

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:353c60be37ea56fc992fca446598ceca5d1fd002aa3bd6dbb9ad740e6f47ebb3
+size 15984

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9107fe964ba7205e354084b85210e5a5ea1c98cfd4d38adb9cd3926945dcae4
+size 15984

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69d1bb1abee38b92e53f3f23549b642ce0f1edcdccf7b6129847ac61636e96d5
+size 15984

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afd5516048e20f36959601574e29e40106085a7d3cdc7bf425ce5e84633490e6
+size 15984

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0796532252d96d4dc758b81b24a42735489847411cbd28ec3b34b37c233bbad0
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|im_end|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63a2951d5edfa5cc0a2346ef872f8c77a2920274cfc3b503b04e3799104dee80
+size 11422060

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|im_end|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2433 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.13995801259622112,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 196.71429443359375,
+      "epoch": 0.0006997900629811056,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.999993958495186e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 1
+    },
+    {
+      "completion_length": 187.6428680419922,
+      "epoch": 0.0013995801259622112,
+      "grad_norm": 1.9764715433120728,
+      "kl": 0.0,
+      "learning_rate": 4.999975834009943e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 2
+    },
+    {
+      "completion_length": 219.6428680419922,
+      "epoch": 0.002099370188943317,
+      "grad_norm": 1.4515221118927002,
+      "kl": 0.0005440683453343809,
+      "learning_rate": 4.99994562663187e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 3
+    },
+    {
+      "completion_length": 186.00001525878906,
+      "epoch": 0.0027991602519244225,
+      "grad_norm": 1.2500755786895752,
+      "kl": 0.00046860199654474854,
+      "learning_rate": 4.999903336506967e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 4
+    },
+    {
+      "completion_length": 174.85714721679688,
+      "epoch": 0.0034989503149055285,
+      "grad_norm": 1.2094088792800903,
+      "kl": 0.0005466189468279481,
+      "learning_rate": 4.999848963839629e-07,
+      "loss": 0.0,
+      "reward": 0.0714285746216774,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.0714285746216774,
+      "step": 5
+    },
+    {
+      "completion_length": 192.6428680419922,
+      "epoch": 0.004198740377886634,
+      "grad_norm": 0.00022282492136582732,
+      "kl": 0.0005208642687648535,
+      "learning_rate": 4.999782508892652e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 6
+    },
+    {
+      "completion_length": 150.35714721679688,
+      "epoch": 0.00489853044086774,
+      "grad_norm": 1.9125372171401978,
+      "kl": 0.0005498763057403266,
+      "learning_rate": 4.999703971987225e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 7
+    },
+    {
+      "completion_length": 186.07144165039062,
+      "epoch": 0.005598320503848845,
+      "grad_norm": 0.9886441826820374,
+      "kl": 0.0004702982259914279,
+      "learning_rate": 4.999613353502932e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 8
+    },
+    {
+      "completion_length": 188.07144165039062,
+      "epoch": 0.006298110566829951,
+      "grad_norm": 1.7563767433166504,
+      "kl": 0.0005437198560684919,
+      "learning_rate": 4.999510653877754e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 9
+    },
+    {
+      "completion_length": 139.7857208251953,
+      "epoch": 0.006997900629811057,
+      "grad_norm": 1.6960475444793701,
+      "kl": 0.0006080380990169942,
+      "learning_rate": 4.999395873608056e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 10
+    },
+    {
+      "completion_length": 212.57144165039062,
+      "epoch": 0.007697690692792162,
+      "grad_norm": 0.7041858434677124,
+      "kl": 0.0005200192099437118,
+      "learning_rate": 4.999269013248595e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 11
+    },
+    {
+      "completion_length": 191.07144165039062,
+      "epoch": 0.008397480755773267,
+      "grad_norm": 2.3034281730651855,
+      "kl": 0.0005117644323036075,
+      "learning_rate": 4.999130073412514e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 12
+    },
+    {
+      "completion_length": 155.42857360839844,
+      "epoch": 0.009097270818754374,
+      "grad_norm": 1.0909160375595093,
+      "kl": 0.0005560470744967461,
+      "learning_rate": 4.998979054771338e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 13
+    },
+    {
+      "completion_length": 139.07144165039062,
+      "epoch": 0.00979706088173548,
+      "grad_norm": 1.8755857944488525,
+      "kl": 0.0004631040501408279,
+      "learning_rate": 4.998815958054968e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 14
+    },
+    {
+      "completion_length": 224.50001525878906,
+      "epoch": 0.010496850944716585,
+      "grad_norm": 0.8215782642364502,
+      "kl": 0.0006062331376597285,
+      "learning_rate": 4.998640784051687e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 15
+    },
+    {
+      "completion_length": 206.21429443359375,
+      "epoch": 0.01119664100769769,
+      "grad_norm": 1.3835495710372925,
+      "kl": 0.0005705293151549995,
+      "learning_rate": 4.998453533608144e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 16
+    },
+    {
+      "completion_length": 175.00001525878906,
+      "epoch": 0.011896431070678797,
+      "grad_norm": 0.9386060237884521,
+      "kl": 0.0005826915730722249,
+      "learning_rate": 4.998254207629361e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 17
+    },
+    {
+      "completion_length": 165.71429443359375,
+      "epoch": 0.012596221133659902,
+      "grad_norm": 1.5630214214324951,
+      "kl": 0.0006076901918277144,
+      "learning_rate": 4.998042807078718e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 18
+    },
+    {
+      "completion_length": 178.35714721679688,
+      "epoch": 0.013296011196641007,
+      "grad_norm": 2.002047061920166,
+      "kl": 0.0007087856065481901,
+      "learning_rate": 4.997819332977961e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 19
+    },
+    {
+      "completion_length": 195.1428680419922,
+      "epoch": 0.013995801259622114,
+      "grad_norm": 1.0907176733016968,
+      "kl": 0.0005539478152059019,
+      "learning_rate": 4.997583786407182e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 20
+    },
+    {
+      "completion_length": 181.85714721679688,
+      "epoch": 0.01469559132260322,
+      "grad_norm": 1.4313894510269165,
+      "kl": 0.000553421676158905,
+      "learning_rate": 4.997336168504828e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 21
+    },
+    {
+      "completion_length": 159.0,
+      "epoch": 0.015395381385584325,
+      "grad_norm": 2.166677474975586,
+      "kl": 0.000688056752551347,
+      "learning_rate": 4.997076480467687e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 22
+    },
+    {
+      "completion_length": 196.71429443359375,
+      "epoch": 0.01609517144856543,
+      "grad_norm": 0.73772794008255,
+      "kl": 0.0005970090860500932,
+      "learning_rate": 4.996804723550882e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 23
+    },
+    {
+      "completion_length": 183.00001525878906,
+      "epoch": 0.016794961511546535,
+      "grad_norm": 0.8837577700614929,
+      "kl": 0.0007048293482512236,
+      "learning_rate": 4.996520899067872e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 24
+    },
+    {
+      "completion_length": 153.21429443359375,
+      "epoch": 0.01749475157452764,
+      "grad_norm": 0.8414170742034912,
+      "kl": 0.0006337231025099754,
+      "learning_rate": 4.996225008390438e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 25
+    },
+    {
+      "completion_length": 196.7857208251953,
+      "epoch": 0.01819454163750875,
+      "grad_norm": 0.9930105805397034,
+      "kl": 0.0007302867597900331,
+      "learning_rate": 4.995917052948678e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 26
+    },
+    {
+      "completion_length": 204.7857208251953,
+      "epoch": 0.018894331700489854,
+      "grad_norm": 1.2448654174804688,
+      "kl": 0.0005582471494562924,
+      "learning_rate": 4.995597034231005e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 27
+    },
+    {
+      "completion_length": 188.85714721679688,
+      "epoch": 0.01959412176347096,
+      "grad_norm": 1.0431102514266968,
+      "kl": 0.0006140515906736255,
+      "learning_rate": 4.995264953784135e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 28
+    },
+    {
+      "completion_length": 196.2857208251953,
+      "epoch": 0.020293911826452064,
+      "grad_norm": 0.6548807621002197,
+      "kl": 0.0007696707616560161,
+      "learning_rate": 4.994920813213081e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 29
+    },
+    {
+      "completion_length": 174.85714721679688,
+      "epoch": 0.02099370188943317,
+      "grad_norm": 1.2723424434661865,
+      "kl": 0.0008509230683557689,
+      "learning_rate": 4.994564614181142e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 30
+    },
+    {
+      "completion_length": 192.35714721679688,
+      "epoch": 0.021693491952414275,
+      "grad_norm": 1.4635212421417236,
+      "kl": 0.0008967228350229561,
+      "learning_rate": 4.994196358409902e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 31
+    },
+    {
+      "completion_length": 163.57144165039062,
+      "epoch": 0.02239328201539538,
+      "grad_norm": 1.6527413129806519,
+      "kl": 0.0010716207325458527,
+      "learning_rate": 4.993816047679218e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 32
+    },
+    {
+      "completion_length": 189.1428680419922,
+      "epoch": 0.02309307207837649,
+      "grad_norm": 1.802273154258728,
+      "kl": 0.0008337192703038454,
+      "learning_rate": 4.993423683827206e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 33
+    },
+    {
+      "completion_length": 160.21429443359375,
+      "epoch": 0.023792862141357594,
+      "grad_norm": 1.957972526550293,
+      "kl": 0.0009387803147546947,
+      "learning_rate": 4.993019268750243e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 34
+    },
+    {
+      "completion_length": 187.7857208251953,
+      "epoch": 0.0244926522043387,
+      "grad_norm": 1.3548457622528076,
+      "kl": 0.0009079152951017022,
+      "learning_rate": 4.992602804402949e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 35
+    },
+    {
+      "completion_length": 176.00001525878906,
+      "epoch": 0.025192442267319804,
+      "grad_norm": 1.9381297826766968,
+      "kl": 0.0008999091223813593,
+      "learning_rate": 4.99217429279818e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 36
+    },
+    {
+      "completion_length": 162.7857208251953,
+      "epoch": 0.02589223233030091,
+      "grad_norm": 0.9859722852706909,
+      "kl": 0.0013975003967061639,
+      "learning_rate": 4.991733736007021e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 37
+    },
+    {
+      "completion_length": 173.6428680419922,
+      "epoch": 0.026592022393282014,
+      "grad_norm": 1.988441824913025,
+      "kl": 0.0015703426906839013,
+      "learning_rate": 4.991281136158773e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 38
+    },
+    {
+      "completion_length": 141.35714721679688,
+      "epoch": 0.02729181245626312,
+      "grad_norm": 2.0865073204040527,
+      "kl": 0.001419402426108718,
+      "learning_rate": 4.990816495440942e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 39
+    },
+    {
+      "completion_length": 165.0,
+      "epoch": 0.02799160251924423,
+      "grad_norm": 1.4797226190567017,
+      "kl": 0.0013270487543195486,
+      "learning_rate": 4.990339816099233e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 40
+    },
+    {
+      "completion_length": 188.1428680419922,
+      "epoch": 0.028691392582225334,
+      "grad_norm": 0.6184691786766052,
+      "kl": 0.0011400326620787382,
+      "learning_rate": 4.989851100437532e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 41
+    },
+    {
+      "completion_length": 209.00001525878906,
+      "epoch": 0.02939118264520644,
+      "grad_norm": 1.2628567218780518,
+      "kl": 0.0012015528045594692,
+      "learning_rate": 4.989350350817904e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 42
+    },
+    {
+      "completion_length": 189.92857360839844,
+      "epoch": 0.030090972708187544,
+      "grad_norm": 0.8222217559814453,
+      "kl": 0.0016094425227493048,
+      "learning_rate": 4.988837569660572e-07,
+      "loss": 0.0,
+      "reward": 0.0714285746216774,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.0714285746216774,
+      "step": 43
+    },
+    {
+      "completion_length": 193.92857360839844,
+      "epoch": 0.03079076277116865,
+      "grad_norm": 0.8283395767211914,
+      "kl": 0.0015535946004092693,
+      "learning_rate": 4.988312759443914e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 44
+    },
+    {
+      "completion_length": 200.92857360839844,
+      "epoch": 0.031490552834149754,
+      "grad_norm": 1.7838681936264038,
+      "kl": 0.0012420819839462638,
+      "learning_rate": 4.987775922704442e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 45
+    },
+    {
+      "completion_length": 159.35714721679688,
+      "epoch": 0.03219034289713086,
+      "grad_norm": 1.0043693780899048,
+      "kl": 0.002186823170632124,
+      "learning_rate": 4.987227062036801e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 46
+    },
+    {
+      "completion_length": 186.2857208251953,
+      "epoch": 0.032890132960111965,
+      "grad_norm": 1.891964077949524,
+      "kl": 0.002127930987626314,
+      "learning_rate": 4.986666180093742e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 47
+    },
+    {
+      "completion_length": 177.2857208251953,
+      "epoch": 0.03358992302309307,
+      "grad_norm": 2.1152210235595703,
+      "kl": 0.0016283347504213452,
+      "learning_rate": 4.986093279586126e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 48
+    },
+    {
+      "completion_length": 189.57144165039062,
+      "epoch": 0.034289713086074175,
+      "grad_norm": 0.0008509167237207294,
+      "kl": 0.0014085659058764577,
+      "learning_rate": 4.985508363282896e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 49
+    },
+    {
+      "completion_length": 188.07144165039062,
+      "epoch": 0.03498950314905528,
+      "grad_norm": 1.111471176147461,
+      "kl": 0.001829526387155056,
+      "learning_rate": 4.984911434011071e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 50
+    },
+    {
+      "completion_length": 198.6428680419922,
+      "epoch": 0.03568929321203639,
+      "grad_norm": 1.341188669204712,
+      "kl": 0.0019986648112535477,
+      "learning_rate": 4.984302494655734e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 51
+    },
+    {
+      "completion_length": 149.7857208251953,
+      "epoch": 0.0363890832750175,
+      "grad_norm": 2.1039445400238037,
+      "kl": 0.004148606210947037,
+      "learning_rate": 4.98368154816001e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 52
+    },
+    {
+      "completion_length": 174.71429443359375,
+      "epoch": 0.0370888733379986,
+      "grad_norm": 0.9583792686462402,
+      "kl": 0.0040195719338953495,
+      "learning_rate": 4.983048597525064e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 53
+    },
+    {
+      "completion_length": 167.0,
+      "epoch": 0.03778866340097971,
+      "grad_norm": 1.5592998266220093,
+      "kl": 0.0030570521485060453,
+      "learning_rate": 4.982403645810072e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 54
+    },
+    {
+      "completion_length": 165.1428680419922,
+      "epoch": 0.03848845346396081,
+      "grad_norm": 0.9802365303039551,
+      "kl": 0.003059495473280549,
+      "learning_rate": 4.981746696132217e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 55
+    },
+    {
+      "completion_length": 146.92857360839844,
+      "epoch": 0.03918824352694192,
+      "grad_norm": 1.78388249874115,
+      "kl": 0.0026406769175082445,
+      "learning_rate": 4.981077751666674e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 56
+    },
+    {
+      "completion_length": 167.21429443359375,
+      "epoch": 0.03988803358992302,
+      "grad_norm": 1.3540505170822144,
+      "kl": 0.0034094061702489853,
+      "learning_rate": 4.980396815646585e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 57
+    },
+    {
+      "completion_length": 198.71429443359375,
+      "epoch": 0.04058782365290413,
+      "grad_norm": 2.1004791259765625,
+      "kl": 0.0027298128698021173,
+      "learning_rate": 4.979703891363054e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 58
+    },
+    {
+      "completion_length": 196.00001525878906,
+      "epoch": 0.041287613715885234,
+      "grad_norm": 1.7114323377609253,
+      "kl": 0.0020506808068603277,
+      "learning_rate": 4.978998982165125e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 59
+    },
+    {
+      "completion_length": 212.71429443359375,
+      "epoch": 0.04198740377886634,
+      "grad_norm": 2.0191173553466797,
+      "kl": 0.003132865997031331,
+      "learning_rate": 4.978282091459768e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 60
+    },
+    {
+      "completion_length": 181.6428680419922,
+      "epoch": 0.042687193841847444,
+      "grad_norm": 1.0076220035552979,
+      "kl": 0.0017425131518393755,
+      "learning_rate": 4.97755322271186e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 61
+    },
+    {
+      "completion_length": 167.0,
+      "epoch": 0.04338698390482855,
+      "grad_norm": 2.260714292526245,
+      "kl": 0.0029773979913443327,
+      "learning_rate": 4.976812379444175e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 62
+    },
+    {
+      "completion_length": 148.71429443359375,
+      "epoch": 0.044086773967809655,
+      "grad_norm": 2.721731185913086,
+      "kl": 0.0040284739807248116,
+      "learning_rate": 4.976059565237359e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 63
+    },
+    {
+      "completion_length": 193.6428680419922,
+      "epoch": 0.04478656403079076,
+      "grad_norm": 1.34214448928833,
+      "kl": 0.0031287071760743856,
+      "learning_rate": 4.975294783729916e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 64
+    },
+    {
+      "completion_length": 190.1428680419922,
+      "epoch": 0.04548635409377187,
+      "grad_norm": 0.9148805141448975,
+      "kl": 0.004262570291757584,
+      "learning_rate": 4.97451803861819e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 65
+    },
+    {
+      "completion_length": 175.71429443359375,
+      "epoch": 0.04618614415675298,
+      "grad_norm": 1.7284623384475708,
+      "kl": 0.00435349065810442,
+      "learning_rate": 4.97372933365635e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 66
+    },
+    {
+      "completion_length": 198.1428680419922,
+      "epoch": 0.04688593421973408,
+      "grad_norm": 1.8161473274230957,
+      "kl": 0.004268465097993612,
+      "learning_rate": 4.972928672656367e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 67
+    },
+    {
+      "completion_length": 187.50001525878906,
+      "epoch": 0.04758572428271519,
+      "grad_norm": 1.525362491607666,
+      "kl": 0.004342732485383749,
+      "learning_rate": 4.972116059488e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 68
+    },
+    {
+      "completion_length": 179.35714721679688,
+      "epoch": 0.04828551434569629,
+      "grad_norm": 2.111542224884033,
+      "kl": 0.004933161195367575,
+      "learning_rate": 4.971291498078771e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 69
+    },
+    {
+      "completion_length": 192.07144165039062,
+      "epoch": 0.0489853044086774,
+      "grad_norm": 1.236236810684204,
+      "kl": 0.003895305097103119,
+      "learning_rate": 4.970454992413958e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 70
+    },
+    {
+      "completion_length": 200.71429443359375,
+      "epoch": 0.0496850944716585,
+      "grad_norm": 1.3246337175369263,
+      "kl": 0.0037796935066580772,
+      "learning_rate": 4.969606546536559e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 71
+    },
+    {
+      "completion_length": 164.21429443359375,
+      "epoch": 0.05038488453463961,
+      "grad_norm": 1.7727972269058228,
+      "kl": 0.004398949909955263,
+      "learning_rate": 4.968746164547288e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 72
+    },
+    {
+      "completion_length": 157.0,
+      "epoch": 0.05108467459762071,
+      "grad_norm": 2.276618480682373,
+      "kl": 0.005382773466408253,
+      "learning_rate": 4.967873850604548e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 73
+    },
+    {
+      "completion_length": 186.1428680419922,
+      "epoch": 0.05178446466060182,
+      "grad_norm": 2.389155387878418,
+      "kl": 0.0061807953752577305,
+      "learning_rate": 4.966989608924407e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 74
+    },
+    {
+      "completion_length": 176.07144165039062,
+      "epoch": 0.052484254723582924,
+      "grad_norm": 1.4952914714813232,
+      "kl": 0.004904923029243946,
+      "learning_rate": 4.966093443780587e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 75
+    },
+    {
+      "completion_length": 179.2857208251953,
+      "epoch": 0.05318404478656403,
+      "grad_norm": 1.4025474786758423,
+      "kl": 0.004885567817837,
+      "learning_rate": 4.965185359504436e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 76
+    },
+    {
+      "completion_length": 191.2857208251953,
+      "epoch": 0.053883834849545134,
+      "grad_norm": 2.3730008602142334,
+      "kl": 0.0020737627055495977,
+      "learning_rate": 4.964265360484913e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.6060914993286133,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 77
+    },
+    {
+      "completion_length": 175.57144165039062,
+      "epoch": 0.05458362491252624,
+      "grad_norm": 1.5513525009155273,
+      "kl": 0.004426781553775072,
+      "learning_rate": 4.963333451168557e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 78
+    },
+    {
+      "completion_length": 202.57144165039062,
+      "epoch": 0.055283414975507345,
+      "grad_norm": 1.254483938217163,
+      "kl": 0.003231517504900694,
+      "learning_rate": 4.962389636059478e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 79
+    },
+    {
+      "completion_length": 149.71429443359375,
+      "epoch": 0.05598320503848846,
+      "grad_norm": 1.6224321126937866,
+      "kl": 0.005682069342583418,
+      "learning_rate": 4.961433919719327e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 80
+    },
+    {
+      "completion_length": 168.71429443359375,
+      "epoch": 0.05668299510146956,
+      "grad_norm": 2.155405044555664,
+      "kl": 0.0056697772815823555,
+      "learning_rate": 4.960466306767274e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 81
+    },
+    {
+      "completion_length": 181.57144165039062,
+      "epoch": 0.05738278516445067,
+      "grad_norm": 2.1720130443573,
+      "kl": 0.004250777419656515,
+      "learning_rate": 4.959486801879991e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 82
+    },
+    {
+      "completion_length": 182.21429443359375,
+      "epoch": 0.05808257522743177,
+      "grad_norm": 2.637775182723999,
+      "kl": 0.005601090379059315,
+      "learning_rate": 4.958495409791626e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 83
+    },
+    {
+      "completion_length": 208.42857360839844,
+      "epoch": 0.05878236529041288,
+      "grad_norm": 1.8412342071533203,
+      "kl": 0.003481087274849415,
+      "learning_rate": 4.957492135293776e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 84
+    },
+    {
+      "completion_length": 171.71429443359375,
+      "epoch": 0.05948215535339398,
+      "grad_norm": 1.6271586418151855,
+      "kl": 0.004620662424713373,
+      "learning_rate": 4.956476983235474e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 85
+    },
+    {
+      "completion_length": 163.21429443359375,
+      "epoch": 0.06018194541637509,
+      "grad_norm": 1.3987679481506348,
+      "kl": 0.006008537020534277,
+      "learning_rate": 4.955449958523155e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 86
+    },
+    {
+      "completion_length": 175.85714721679688,
+      "epoch": 0.06088173547935619,
+      "grad_norm": 1.1900994777679443,
+      "kl": 0.007817798294126987,
+      "learning_rate": 4.95441106612064e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 87
+    },
+    {
+      "completion_length": 173.6428680419922,
+      "epoch": 0.0615815255423373,
+      "grad_norm": 1.6161788702011108,
+      "kl": 0.005173846147954464,
+      "learning_rate": 4.953360311049107e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 88
+    },
+    {
+      "completion_length": 182.21429443359375,
+      "epoch": 0.0622813156053184,
+      "grad_norm": 1.1579365730285645,
+      "kl": 0.004471412859857082,
+      "learning_rate": 4.95229769838707e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 89
+    },
+    {
+      "completion_length": 179.2857208251953,
+      "epoch": 0.06298110566829951,
+      "grad_norm": 1.5062532424926758,
+      "kl": 0.006312033161520958,
+      "learning_rate": 4.951223233270353e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 90
+    },
+    {
+      "completion_length": 173.2857208251953,
+      "epoch": 0.06368089573128062,
+      "grad_norm": 2.0784623622894287,
+      "kl": 0.00826327409595251,
+      "learning_rate": 4.950136920892063e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 91
+    },
+    {
+      "completion_length": 167.1428680419922,
+      "epoch": 0.06438068579426172,
+      "grad_norm": 0.5718992948532104,
+      "kl": 0.0075133126229047775,
+      "learning_rate": 4.949038766502571e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 92
+    },
+    {
+      "completion_length": 168.35714721679688,
+      "epoch": 0.06508047585724283,
+      "grad_norm": 0.0029800846241414547,
+      "kl": 0.008064369671046734,
+      "learning_rate": 4.947928775409481e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 93
+    },
+    {
+      "completion_length": 209.35714721679688,
+      "epoch": 0.06578026592022393,
+      "grad_norm": 1.2102426290512085,
+      "kl": 0.008969871327280998,
+      "learning_rate": 4.946806952977605e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 94
+    },
+    {
+      "completion_length": 180.85714721679688,
+      "epoch": 0.06648005598320504,
+      "grad_norm": 1.4967552423477173,
+      "kl": 0.006019816268235445,
+      "learning_rate": 4.94567330462894e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 95
+    },
+    {
+      "completion_length": 177.1428680419922,
+      "epoch": 0.06717984604618614,
+      "grad_norm": 2.391160726547241,
+      "kl": 0.005439083557575941,
+      "learning_rate": 4.944527835842641e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 96
+    },
+    {
+      "completion_length": 218.57144165039062,
+      "epoch": 0.06787963610916725,
+      "grad_norm": 0.8848944902420044,
+      "kl": 0.005665027070790529,
+      "learning_rate": 4.94337055215499e-07,
+      "loss": 0.0,
+      "reward": 0.2142857313156128,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.2142857313156128,
+      "step": 97
+    },
+    {
+      "completion_length": 188.6428680419922,
+      "epoch": 0.06857942617214835,
+      "grad_norm": 1.6207823753356934,
+      "kl": 0.006600015331059694,
+      "learning_rate": 4.942201459159377e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 98
+    },
+    {
+      "completion_length": 215.1428680419922,
+      "epoch": 0.06927921623512946,
+      "grad_norm": 2.0508172512054443,
+      "kl": 0.004012170247733593,
+      "learning_rate": 4.941020562506264e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 99
+    },
+    {
+      "completion_length": 178.71429443359375,
+      "epoch": 0.06997900629811056,
+      "grad_norm": 1.683928370475769,
+      "kl": 0.00840698555111885,
+      "learning_rate": 4.939827867903168e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 100
+    },
+    {
+      "completion_length": 184.7857208251953,
+      "epoch": 0.07067879636109167,
+      "grad_norm": 1.2873668670654297,
+      "kl": 0.012355304323136806,
+      "learning_rate": 4.938623381114623e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 101
+    },
+    {
+      "completion_length": 176.1428680419922,
+      "epoch": 0.07137858642407278,
+      "grad_norm": 0.003792037256062031,
+      "kl": 0.012887879274785519,
+      "learning_rate": 4.937407107962162e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 102
+    },
+    {
+      "completion_length": 197.42857360839844,
+      "epoch": 0.07207837648705388,
+      "grad_norm": 1.305524468421936,
+      "kl": 0.0113840876147151,
+      "learning_rate": 4.936179054324278e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 103
+    },
+    {
+      "completion_length": 123.71429443359375,
+      "epoch": 0.072778166550035,
+      "grad_norm": 0.7037422060966492,
+      "kl": 0.016403552144765854,
+      "learning_rate": 4.934939226136406e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 104
+    },
+    {
+      "completion_length": 211.50001525878906,
+      "epoch": 0.0734779566130161,
+      "grad_norm": 0.5676343441009521,
+      "kl": 0.004641632083803415,
+      "learning_rate": 4.933687629390889e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 105
+    },
+    {
+      "completion_length": 183.7857208251953,
+      "epoch": 0.0741777466759972,
+      "grad_norm": 1.5358415842056274,
+      "kl": 0.011431436985731125,
+      "learning_rate": 4.932424270136948e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 106
+    },
+    {
+      "completion_length": 174.2857208251953,
+      "epoch": 0.0748775367389783,
+      "grad_norm": 1.5432114601135254,
+      "kl": 0.018761329352855682,
+      "learning_rate": 4.931149154480656e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 107
+    },
+    {
+      "completion_length": 183.1428680419922,
+      "epoch": 0.07557732680195942,
+      "grad_norm": 0.9925021529197693,
+      "kl": 0.007842729799449444,
+      "learning_rate": 4.929862288584908e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 108
+    },
+    {
+      "completion_length": 201.92857360839844,
+      "epoch": 0.07627711686494051,
+      "grad_norm": 1.465742826461792,
+      "kl": 0.010015713982284069,
+      "learning_rate": 4.928563678669387e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 109
+    },
+    {
+      "completion_length": 204.50001525878906,
+      "epoch": 0.07697690692792163,
+      "grad_norm": 1.558184027671814,
+      "kl": 0.008194749243557453,
+      "learning_rate": 4.927253331010543e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 110
+    },
+    {
+      "completion_length": 213.7857208251953,
+      "epoch": 0.07767669699090272,
+      "grad_norm": 0.7771201133728027,
+      "kl": 0.011434059590101242,
+      "learning_rate": 4.92593125194155e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 111
+    },
+    {
+      "completion_length": 163.1428680419922,
+      "epoch": 0.07837648705388384,
+      "grad_norm": 2.267927885055542,
+      "kl": 0.021138539537787437,
+      "learning_rate": 4.924597447852287e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 112
+    },
+    {
+      "completion_length": 215.92857360839844,
+      "epoch": 0.07907627711686493,
+      "grad_norm": 1.186661720275879,
+      "kl": 0.011579162441194057,
+      "learning_rate": 4.9232519251893e-07,
+      "loss": 0.0,
+      "reward": 0.2857142984867096,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.2857142984867096,
+      "step": 113
+    },
+    {
+      "completion_length": 213.85714721679688,
+      "epoch": 0.07977606717984605,
+      "grad_norm": 1.2522072792053223,
+      "kl": 0.01113107893615961,
+      "learning_rate": 4.921894690455776e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 114
+    },
+    {
+      "completion_length": 200.2857208251953,
+      "epoch": 0.08047585724282715,
+      "grad_norm": 0.6697101593017578,
+      "kl": 0.010488255880773067,
+      "learning_rate": 4.920525750211507e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 115
+    },
+    {
+      "completion_length": 165.1428680419922,
+      "epoch": 0.08117564730580826,
+      "grad_norm": 1.1102581024169922,
+      "kl": 0.01489555835723877,
+      "learning_rate": 4.919145111072858e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 116
+    },
+    {
+      "completion_length": 204.85714721679688,
+      "epoch": 0.08187543736878937,
+      "grad_norm": 1.8439916372299194,
+      "kl": 0.013555423356592655,
+      "learning_rate": 4.917752779712743e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 117
+    },
+    {
+      "completion_length": 190.50001525878906,
+      "epoch": 0.08257522743177047,
+      "grad_norm": 1.460869550704956,
+      "kl": 0.022136248648166656,
+      "learning_rate": 4.91634876286058e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 118
+    },
+    {
+      "completion_length": 166.2857208251953,
+      "epoch": 0.08327501749475158,
+      "grad_norm": 2.0857505798339844,
+      "kl": 0.024110617116093636,
+      "learning_rate": 4.914933067302271e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 119
+    },
+    {
+      "completion_length": 191.57144165039062,
+      "epoch": 0.08397480755773268,
+      "grad_norm": 0.8973117470741272,
+      "kl": 0.011640184558928013,
+      "learning_rate": 4.91350569988016e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 120
+    },
+    {
+      "completion_length": 167.5,
+      "epoch": 0.08467459762071379,
+      "grad_norm": 2.02925705909729,
+      "kl": 0.02297617308795452,
+      "learning_rate": 4.912066667493005e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.5050762891769409,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 121
+    },
+    {
+      "completion_length": 226.4285888671875,
+      "epoch": 0.08537438768369489,
+      "grad_norm": 0.7617030739784241,
+      "kl": 0.006312475074082613,
+      "learning_rate": 4.910615977095942e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 122
+    },
+    {
+      "completion_length": 163.57144165039062,
+      "epoch": 0.086074177746676,
+      "grad_norm": 0.9568012356758118,
+      "kl": 0.026632316410541534,
+      "learning_rate": 4.909153635700454e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 123
+    },
+    {
+      "completion_length": 193.50001525878906,
+      "epoch": 0.0867739678096571,
+      "grad_norm": 1.9485886096954346,
+      "kl": 0.020928634330630302,
+      "learning_rate": 4.907679650374336e-07,
+      "loss": 0.0,
+      "reward": 0.1428571492433548,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.1428571492433548,
+      "step": 124
+    },
+    {
+      "completion_length": 218.57144165039062,
+      "epoch": 0.08747375787263821,
+      "grad_norm": 1.3334918022155762,
+      "kl": 0.011499721556901932,
+      "learning_rate": 4.906194028241659e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 125
+    },
+    {
+      "completion_length": 180.57144165039062,
+      "epoch": 0.08817354793561931,
+      "grad_norm": 2.280923843383789,
+      "kl": 0.016467615962028503,
+      "learning_rate": 4.904696776482737e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 126
+    },
+    {
+      "completion_length": 221.21429443359375,
+      "epoch": 0.08887333799860042,
+      "grad_norm": 1.539788842201233,
+      "kl": 0.007166714873164892,
+      "learning_rate": 4.903187902334094e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 127
+    },
+    {
+      "completion_length": 195.1428680419922,
+      "epoch": 0.08957312806158152,
+      "grad_norm": 1.1616483926773071,
+      "kl": 0.031080516055226326,
+      "learning_rate": 4.901667413088425e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 128
+    },
+    {
+      "completion_length": 186.35714721679688,
+      "epoch": 0.09027291812456263,
+      "grad_norm": 2.2133805751800537,
+      "kl": 0.01747089996933937,
+      "learning_rate": 4.900135316094566e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 129
+    },
+    {
+      "completion_length": 191.6428680419922,
+      "epoch": 0.09097270818754374,
+      "grad_norm": 1.893270492553711,
+      "kl": 0.02181846648454666,
+      "learning_rate": 4.898591618757453e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 130
+    },
+    {
+      "completion_length": 156.0,
+      "epoch": 0.09167249825052484,
+      "grad_norm": 1.7143210172653198,
+      "kl": 0.04193011671304703,
+      "learning_rate": 4.897036328538091e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 131
+    },
+    {
+      "completion_length": 142.2857208251953,
+      "epoch": 0.09237228831350595,
+      "grad_norm": 0.0073611014522612095,
+      "kl": 0.0435887835919857,
+      "learning_rate": 4.895469452953513e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 132
+    },
+    {
+      "completion_length": 160.35714721679688,
+      "epoch": 0.09307207837648705,
+      "grad_norm": 2.0896999835968018,
+      "kl": 0.03058517538011074,
+      "learning_rate": 4.893890999576749e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 133
+    },
+    {
+      "completion_length": 220.00001525878906,
+      "epoch": 0.09377186843946816,
+      "grad_norm": 1.3652797937393188,
+      "kl": 0.024748124182224274,
+      "learning_rate": 4.892300976036786e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 134
+    },
+    {
+      "completion_length": 191.1428680419922,
+      "epoch": 0.09447165850244926,
+      "grad_norm": 1.4164782762527466,
+      "kl": 0.03566557914018631,
+      "learning_rate": 4.890699390018533e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 135
+    },
+    {
+      "completion_length": 166.42857360839844,
+      "epoch": 0.09517144856543037,
+      "grad_norm": 1.777478814125061,
+      "kl": 0.03295962139964104,
+      "learning_rate": 4.889086249262779e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 136
+    },
+    {
+      "completion_length": 171.00001525878906,
+      "epoch": 0.09587123862841147,
+      "grad_norm": 1.9500823020935059,
+      "kl": 0.04803250730037689,
+      "learning_rate": 4.887461561566165e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 137
+    },
+    {
+      "completion_length": 176.42857360839844,
+      "epoch": 0.09657102869139259,
+      "grad_norm": 1.932502031326294,
+      "kl": 0.028310805559158325,
+      "learning_rate": 4.885825334781136e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 138
+    },
+    {
+      "completion_length": 186.85714721679688,
+      "epoch": 0.09727081875437368,
+      "grad_norm": 1.4214417934417725,
+      "kl": 0.02100592665374279,
+      "learning_rate": 4.884177576815911e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 139
+    },
+    {
+      "completion_length": 200.57144165039062,
+      "epoch": 0.0979706088173548,
+      "grad_norm": 1.6438137292861938,
+      "kl": 0.01962038315832615,
+      "learning_rate": 4.882518295634438e-07,
+      "loss": 0.0,
+      "reward": 0.5,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 140
+    },
+    {
+      "completion_length": 181.35714721679688,
+      "epoch": 0.0986703988803359,
+      "grad_norm": 1.0898855924606323,
+      "kl": 0.03357081487774849,
+      "learning_rate": 4.880847499256363e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 141
+    },
+    {
+      "completion_length": 198.7857208251953,
+      "epoch": 0.099370188943317,
+      "grad_norm": 0.8553615212440491,
+      "kl": 0.020783616229891777,
+      "learning_rate": 4.879165195756985e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 142
+    },
+    {
+      "completion_length": 163.1428680419922,
+      "epoch": 0.1000699790062981,
+      "grad_norm": 2.111443042755127,
+      "kl": 0.04269000142812729,
+      "learning_rate": 4.87747139326722e-07,
+      "loss": 0.0,
+      "reward": 0.3571428656578064,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.3571428656578064,
+      "step": 143
+    },
+    {
+      "completion_length": 166.2857208251953,
+      "epoch": 0.10076976906927922,
+      "grad_norm": 1.4155843257904053,
+      "kl": 0.04325467720627785,
+      "learning_rate": 4.87576609997356e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 144
+    },
+    {
+      "completion_length": 183.07144165039062,
+      "epoch": 0.10146955913226033,
+      "grad_norm": 1.320349931716919,
+      "kl": 0.04014229029417038,
+      "learning_rate": 4.874049324118036e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 145
+    },
+    {
+      "completion_length": 173.35714721679688,
+      "epoch": 0.10216934919524143,
+      "grad_norm": 2.3059661388397217,
+      "kl": 0.0478234700858593,
+      "learning_rate": 4.872321073998174e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 146
+    },
+    {
+      "completion_length": 179.1428680419922,
+      "epoch": 0.10286913925822254,
+      "grad_norm": 1.71186363697052,
+      "kl": 0.030521634966135025,
+      "learning_rate": 4.870581357966961e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 147
+    },
+    {
+      "completion_length": 156.1428680419922,
+      "epoch": 0.10356892932120364,
+      "grad_norm": 1.8213680982589722,
+      "kl": 0.029109062626957893,
+      "learning_rate": 4.868830184432799e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 148
+    },
+    {
+      "completion_length": 183.07144165039062,
+      "epoch": 0.10426871938418475,
+      "grad_norm": 2.07926344871521,
+      "kl": 0.031393494457006454,
+      "learning_rate": 4.867067561859467e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 149
+    },
+    {
+      "completion_length": 160.2857208251953,
+      "epoch": 0.10496850944716585,
+      "grad_norm": 1.52970290184021,
+      "kl": 0.05355866253376007,
+      "learning_rate": 4.865293498766077e-07,
+      "loss": 0.0001,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 150
+    },
+    {
+      "completion_length": 201.85714721679688,
+      "epoch": 0.10566829951014696,
+      "grad_norm": 0.8261334300041199,
+      "kl": 0.026441525667905807,
+      "learning_rate": 4.86350800372704e-07,
+      "loss": 0.0,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 151
+    },
+    {
+      "completion_length": 164.7857208251953,
+      "epoch": 0.10636808957312806,
+      "grad_norm": 1.560228705406189,
+      "kl": 0.03294193744659424,
+      "learning_rate": 4.861711085372015e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 152
+    },
+    {
+      "completion_length": 221.1428680419922,
+      "epoch": 0.10706787963610917,
+      "grad_norm": 1.467367172241211,
+      "kl": 0.02558579109609127,
+      "learning_rate": 4.859902752385879e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 153
+    },
+    {
+      "completion_length": 196.21429443359375,
+      "epoch": 0.10776766969909027,
+      "grad_norm": 0.007789432071149349,
+      "kl": 0.04791080579161644,
+      "learning_rate": 4.858083013508669e-07,
+      "loss": 0.0,
+      "reward": 0.4285714626312256,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.4285714626312256,
+      "step": 154
+    },
+    {
+      "completion_length": 167.85714721679688,
+      "epoch": 0.10846745976207138,
+      "grad_norm": 1.4503986835479736,
+      "kl": 0.0463978573679924,
+      "learning_rate": 4.856251877535556e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 155
+    },
+    {
+      "completion_length": 168.1428680419922,
+      "epoch": 0.10916724982505248,
+      "grad_norm": 1.077260971069336,
+      "kl": 0.04970019310712814,
+      "learning_rate": 4.854409353316796e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 156
+    },
+    {
+      "completion_length": 202.92857360839844,
+      "epoch": 0.10986703988803359,
+      "grad_norm": 1.7790058851242065,
+      "kl": 0.03502151742577553,
+      "learning_rate": 4.852555449757679e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 157
+    },
+    {
+      "completion_length": 146.07144165039062,
+      "epoch": 0.11056682995101469,
+      "grad_norm": 3.6491763591766357,
+      "kl": 0.08282416313886642,
+      "learning_rate": 4.850690175818503e-07,
+      "loss": 0.0001,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.6060914993286133,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 158
+    },
+    {
+      "completion_length": 175.50001525878906,
+      "epoch": 0.1112666200139958,
+      "grad_norm": 1.9410632848739624,
+      "kl": 0.04635734483599663,
+      "learning_rate": 4.848813540514516e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 159
+    },
+    {
+      "completion_length": 193.07144165039062,
+      "epoch": 0.11196641007697691,
+      "grad_norm": 1.0959712266921997,
+      "kl": 0.03846450522542,
+      "learning_rate": 4.846925552915878e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 160
+    },
+    {
+      "completion_length": 194.1428680419922,
+      "epoch": 0.11266620013995801,
+      "grad_norm": 1.617163896560669,
+      "kl": 0.04549946263432503,
+      "learning_rate": 4.845026222147619e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 161
+    },
+    {
+      "completion_length": 221.9285888671875,
+      "epoch": 0.11336599020293912,
+      "grad_norm": 0.004491452127695084,
+      "kl": 0.03957492858171463,
+      "learning_rate": 4.843115557389591e-07,
+      "loss": 0.0,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 162
+    },
+    {
+      "completion_length": 192.42857360839844,
+      "epoch": 0.11406578026592022,
+      "grad_norm": 0.7011159658432007,
+      "kl": 0.04245857894420624,
+      "learning_rate": 4.841193567876428e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 163
+    },
+    {
+      "completion_length": 136.0,
+      "epoch": 0.11476557032890133,
+      "grad_norm": 1.3152964115142822,
+      "kl": 0.06837064027786255,
+      "learning_rate": 4.839260262897494e-07,
+      "loss": 0.0001,
+      "reward": 0.5,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.5,
+      "step": 164
+    },
+    {
+      "completion_length": 160.92857360839844,
+      "epoch": 0.11546536039188243,
+      "grad_norm": 1.6138628721237183,
+      "kl": 0.04630711302161217,
+      "learning_rate": 4.83731565179685e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 165
+    },
+    {
+      "completion_length": 204.35714721679688,
+      "epoch": 0.11616515045486354,
+      "grad_norm": 2.033738136291504,
+      "kl": 0.041600391268730164,
+      "learning_rate": 4.835359743973194e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 166
+    },
+    {
+      "completion_length": 206.00001525878906,
+      "epoch": 0.11686494051784464,
+      "grad_norm": 1.2452963590621948,
+      "kl": 0.03693629428744316,
+      "learning_rate": 4.833392548879829e-07,
+      "loss": 0.0,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 167
+    },
+    {
+      "completion_length": 160.5,
+      "epoch": 0.11756473058082575,
+      "grad_norm": 2.5279667377471924,
+      "kl": 0.07246419787406921,
+      "learning_rate": 4.831414076024611e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 168
+    },
+    {
+      "completion_length": 226.4285888671875,
+      "epoch": 0.11826452064380685,
+      "grad_norm": 0.5257318019866943,
+      "kl": 0.009776223450899124,
+      "learning_rate": 4.829424334969902e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 169
+    },
+    {
+      "completion_length": 208.35714721679688,
+      "epoch": 0.11896431070678797,
+      "grad_norm": 1.4458142518997192,
+      "kl": 0.04920278489589691,
+      "learning_rate": 4.827423335332524e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 170
+    },
+    {
+      "completion_length": 195.42857360839844,
+      "epoch": 0.11966410076976906,
+      "grad_norm": 1.7298688888549805,
+      "kl": 0.04254806786775589,
+      "learning_rate": 4.825411086783718e-07,
+      "loss": 0.0,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 171
+    },
+    {
+      "completion_length": 187.35714721679688,
+      "epoch": 0.12036389083275018,
+      "grad_norm": 0.3279581069946289,
+      "kl": 0.05654177814722061,
+      "learning_rate": 4.823387599049092e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 172
+    },
+    {
+      "completion_length": 186.42857360839844,
+      "epoch": 0.12106368089573127,
+      "grad_norm": 1.4074788093566895,
+      "kl": 0.06294237822294235,
+      "learning_rate": 4.821352881908575e-07,
+      "loss": 0.0001,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 173
+    },
+    {
+      "completion_length": 186.92857360839844,
+      "epoch": 0.12176347095871239,
+      "grad_norm": 1.5504415035247803,
+      "kl": 0.06913281977176666,
+      "learning_rate": 4.819306945196367e-07,
+      "loss": 0.0001,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 174
+    },
+    {
+      "completion_length": 204.00001525878906,
+      "epoch": 0.1224632610216935,
+      "grad_norm": 1.8601367473602295,
+      "kl": 0.04214514046907425,
+      "learning_rate": 4.817249798800898e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 175
+    },
+    {
+      "completion_length": 195.07144165039062,
+      "epoch": 0.1231630510846746,
+      "grad_norm": 2.3070361614227295,
+      "kl": 0.04426455870270729,
+      "learning_rate": 4.81518145266478e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 176
+    },
+    {
+      "completion_length": 179.2857208251953,
+      "epoch": 0.12386284114765571,
+      "grad_norm": 1.0684874057769775,
+      "kl": 0.052644453942775726,
+      "learning_rate": 4.813101916784745e-07,
+      "loss": 0.0001,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 177
+    },
+    {
+      "completion_length": 204.57144165039062,
+      "epoch": 0.1245626312106368,
+      "grad_norm": 1.765725016593933,
+      "kl": 0.03909705579280853,
+      "learning_rate": 4.811011201211619e-07,
+      "loss": 0.0,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 178
+    },
+    {
+      "completion_length": 187.42857360839844,
+      "epoch": 0.12526242127361792,
+      "grad_norm": 2.2498366832733154,
+      "kl": 0.052292656153440475,
+      "learning_rate": 4.808909316050253e-07,
+      "loss": 0.0001,
+      "reward": 0.5714285969734192,
+      "reward_std": 0.4040610194206238,
+      "rewards/check_gptzero_func": 0.5714285969734192,
+      "step": 179
+    },
+    {
+      "completion_length": 156.57144165039062,
+      "epoch": 0.12596221133659902,
+      "grad_norm": 0.8897135853767395,
+      "kl": 0.07806211709976196,
+      "learning_rate": 4.80679627145949e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 180
+    },
+    {
+      "completion_length": 196.42857360839844,
+      "epoch": 0.12666200139958012,
+      "grad_norm": 1.9912126064300537,
+      "kl": 0.05071377381682396,
+      "learning_rate": 4.804672077652102e-07,
+      "loss": 0.0001,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 181
+    },
+    {
+      "completion_length": 210.50001525878906,
+      "epoch": 0.12736179146256124,
+      "grad_norm": 1.0759501457214355,
+      "kl": 0.05055666342377663,
+      "learning_rate": 4.802536744894753e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 182
+    },
+    {
+      "completion_length": 208.57144165039062,
+      "epoch": 0.12806158152554234,
+      "grad_norm": 1.1025447845458984,
+      "kl": 0.06112780049443245,
+      "learning_rate": 4.80039028350794e-07,
+      "loss": 0.0001,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 183
+    },
+    {
+      "completion_length": 177.92857360839844,
+      "epoch": 0.12876137158852344,
+      "grad_norm": 1.1993169784545898,
+      "kl": 0.06688597798347473,
+      "learning_rate": 4.79823270386595e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 184
+    },
+    {
+      "completion_length": 180.50001525878906,
+      "epoch": 0.12946116165150454,
+      "grad_norm": 0.008792253211140633,
+      "kl": 0.0775587409734726,
+      "learning_rate": 4.796064016396803e-07,
+      "loss": 0.0001,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 1.0,
+      "step": 185
+    },
+    {
+      "completion_length": 201.21429443359375,
+      "epoch": 0.13016095171448566,
+      "grad_norm": 0.8877134919166565,
+      "kl": 0.058806754648685455,
+      "learning_rate": 4.793884231582209e-07,
+      "loss": 0.0001,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 186
+    },
+    {
+      "completion_length": 205.6428680419922,
+      "epoch": 0.13086074177746676,
+      "grad_norm": 1.8853565454483032,
+      "kl": 0.04727332293987274,
+      "learning_rate": 4.791693359957512e-07,
+      "loss": 0.0,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 187
+    },
+    {
+      "completion_length": 172.85714721679688,
+      "epoch": 0.13156053184044786,
+      "grad_norm": 1.3133251667022705,
+      "kl": 0.11437404900789261,
+      "learning_rate": 4.789491412111643e-07,
+      "loss": 0.0001,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 188
+    },
+    {
+      "completion_length": 198.07144165039062,
+      "epoch": 0.13226032190342898,
+      "grad_norm": 2.346076726913452,
+      "kl": 0.0714813843369484,
+      "learning_rate": 4.787278398687061e-07,
+      "loss": 0.0001,
+      "reward": 0.6428571939468384,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.6428571939468384,
+      "step": 189
+    },
+    {
+      "completion_length": 176.7857208251953,
+      "epoch": 0.13296011196641008,
+      "grad_norm": 2.2410197257995605,
+      "kl": 0.06597181409597397,
+      "learning_rate": 4.785054330379715e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 190
+    },
+    {
+      "completion_length": 175.1428680419922,
+      "epoch": 0.13365990202939118,
+      "grad_norm": 1.9752206802368164,
+      "kl": 0.061408672481775284,
+      "learning_rate": 4.782819217938978e-07,
+      "loss": 0.0001,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 191
+    },
+    {
+      "completion_length": 174.42857360839844,
+      "epoch": 0.13435969209237228,
+      "grad_norm": 1.4264745712280273,
+      "kl": 0.09011290967464447,
+      "learning_rate": 4.780573072167606e-07,
+      "loss": 0.0001,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 192
+    },
+    {
+      "completion_length": 180.35714721679688,
+      "epoch": 0.1350594821553534,
+      "grad_norm": 1.7050994634628296,
+      "kl": 0.060319699347019196,
+      "learning_rate": 4.778315903921676e-07,
+      "loss": 0.0001,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 193
+    },
+    {
+      "completion_length": 173.42857360839844,
+      "epoch": 0.1357592722183345,
+      "grad_norm": 1.6260625123977661,
+      "kl": 0.09306792914867401,
+      "learning_rate": 4.776047724110545e-07,
+      "loss": 0.0001,
+      "reward": 0.7142857313156128,
+      "reward_std": 0.2020305097103119,
+      "rewards/check_gptzero_func": 0.7142857313156128,
+      "step": 194
+    },
+    {
+      "completion_length": 185.35714721679688,
+      "epoch": 0.1364590622813156,
+      "grad_norm": 0.016425790265202522,
+      "kl": 0.0992843434214592,
+      "learning_rate": 4.773768543696789e-07,
+      "loss": 0.0001,
+      "reward": 0.8571429252624512,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 0.8571429252624512,
+      "step": 195
+    },
+    {
+      "completion_length": 158.92857360839844,
+      "epoch": 0.1371588523442967,
+      "grad_norm": 2.4321110248565674,
+      "kl": 0.10799706727266312,
+      "learning_rate": 4.771478373696149e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 196
+    },
+    {
+      "completion_length": 176.85714721679688,
+      "epoch": 0.13785864240727783,
+      "grad_norm": 2.087998867034912,
+      "kl": 0.05710326135158539,
+      "learning_rate": 4.769177225177486e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 197
+    },
+    {
+      "completion_length": 190.21429443359375,
+      "epoch": 0.13855843247025892,
+      "grad_norm": 0.00513538857921958,
+      "kl": 0.047487739473581314,
+      "learning_rate": 4.766865109262719e-07,
+      "loss": 0.0,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/check_gptzero_func": 1.0,
+      "step": 198
+    },
+    {
+      "completion_length": 160.92857360839844,
+      "epoch": 0.13925822253324002,
+      "grad_norm": 1.89316725730896,
+      "kl": 0.09987679868936539,
+      "learning_rate": 4.7645420371267744e-07,
+      "loss": 0.0001,
+      "reward": 0.785714328289032,
+      "reward_std": 0.30304574966430664,
+      "rewards/check_gptzero_func": 0.785714328289032,
+      "step": 199
+    },
+    {
+      "completion_length": 165.1428680419922,
+      "epoch": 0.13995801259622112,
+      "grad_norm": 1.454157829284668,
+      "kl": 0.08893325924873352,
+      "learning_rate": 4.762208019997534e-07,
+      "loss": 0.0001,
+      "reward": 0.9285714626312256,
+      "reward_std": 0.10101525485515594,
+      "rewards/check_gptzero_func": 0.9285714626312256,
+      "step": 200
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1429,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20c97689b05a67707b99fa5c2382baae34fb0ccb8de6e6d74bc3a30ff9cda3b2
+size 5624

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff