Upload Rick dialogue fine-tuned model

Browse files

Files changed (13) hide show

.gitattributes +1 -0
README.md +62 -0
adapter_config.json +46 -0
adapter_model.safetensors +3 -0
added_tokens.json +28 -0
chat_template.jinja +89 -0
merges.txt +0 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
training_args.bin +3 -0
training_history.json +1123 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+base_model: Qwen/Qwen3-4B
+library_name: peft
+model_name: CryptoStatuette-qwen-finetuned
+tags:
+- base_model:adapter:Qwen/Qwen3-4B
+- lora
+- sft
+- transformers
+- trl
+licence: license
+pipeline_tag: text-generation
+---
+# Model Card for CryptoStatuette-qwen-finetuned
+This model is a fine-tuned version of [Qwen/Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with SFT.
+### Framework versions
+- PEFT 0.18.0
+- TRL: 0.25.1
+- Transformers: 4.57.2
+- Pytorch: 2.9.0+cu126
+- Datasets: 4.0.0
+- Tokenizers: 0.22.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen3-4B",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.0",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj"
+  ],
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb061e60695fc070d253b36257beb9a9218e90d31ecb6c0668b3e3f2db5c2177
+size 528550256

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c545c10c0f16ad53a06e19e15dad68399da0e7947fe7e1da741ad9af8c4c1e8d
+size 6225

training_history.json ADDED Viewed

	@@ -0,0 +1,1123 @@

+[
+  {
+    "loss": 4.2889,
+    "grad_norm": 4.082701683044434,
+    "learning_rate": 4.090909090909091e-05,
+    "entropy": 1.8044173419475555,
+    "num_tokens": 4753.0,
+    "mean_token_accuracy": 0.41228369399905207,
+    "epoch": 0.018281535648994516,
+    "step": 10
+  },
+  {
+    "loss": 1.9004,
+    "grad_norm": 1.8841173648834229,
+    "learning_rate": 8.636363636363636e-05,
+    "entropy": 1.8375275656580925,
+    "num_tokens": 9823.0,
+    "mean_token_accuracy": 0.6945700973272324,
+    "epoch": 0.03656307129798903,
+    "step": 20
+  },
+  {
+    "loss": 1.2667,
+    "grad_norm": 3.267770528793335,
+    "learning_rate": 0.0001318181818181818,
+    "entropy": 1.2633977964520455,
+    "num_tokens": 14808.0,
+    "mean_token_accuracy": 0.791448101401329,
+    "epoch": 0.054844606946983544,
+    "step": 30
+  },
+  {
+    "loss": 0.9755,
+    "grad_norm": 1.05254328250885,
+    "learning_rate": 0.00017727272727272728,
+    "entropy": 0.9446997016668319,
+    "num_tokens": 19622.0,
+    "mean_token_accuracy": 0.8207138180732727,
+    "epoch": 0.07312614259597806,
+    "step": 40
+  },
+  {
+    "loss": 1.1448,
+    "grad_norm": 0.906599760055542,
+    "learning_rate": 0.00022272727272727272,
+    "entropy": 1.015735039114952,
+    "num_tokens": 24595.0,
+    "mean_token_accuracy": 0.8062975570559502,
+    "epoch": 0.09140767824497258,
+    "step": 50
+  },
+  {
+    "loss": 1.1366,
+    "grad_norm": 1.0311369895935059,
+    "learning_rate": 0.0002681818181818182,
+    "entropy": 1.041224654763937,
+    "num_tokens": 29587.0,
+    "mean_token_accuracy": 0.8060152858495713,
+    "epoch": 0.10968921389396709,
+    "step": 60
+  },
+  {
+    "loss": 0.7749,
+    "grad_norm": 1.1635301113128662,
+    "learning_rate": 0.00031363636363636365,
+    "entropy": 0.7659586444497108,
+    "num_tokens": 34200.0,
+    "mean_token_accuracy": 0.8529342606663703,
+    "epoch": 0.12797074954296161,
+    "step": 70
+  },
+  {
+    "loss": 1.0122,
+    "grad_norm": 1.0612354278564453,
+    "learning_rate": 0.00035909090909090906,
+    "entropy": 0.8900700502097607,
+    "num_tokens": 38881.0,
+    "mean_token_accuracy": 0.8307199895381927,
+    "epoch": 0.14625228519195613,
+    "step": 80
+  },
+  {
+    "loss": 1.0642,
+    "grad_norm": 0.9732877016067505,
+    "learning_rate": 0.0004045454545454546,
+    "entropy": 0.9888352438807487,
+    "num_tokens": 43786.0,
+    "mean_token_accuracy": 0.8153566777706146,
+    "epoch": 0.16453382084095064,
+    "step": 90
+  },
+  {
+    "loss": 1.0782,
+    "grad_norm": 1.045189619064331,
+    "learning_rate": 0.00045000000000000004,
+    "entropy": 1.0296132363379003,
+    "num_tokens": 48748.0,
+    "mean_token_accuracy": 0.8004682093858719,
+    "epoch": 0.18281535648994515,
+    "step": 100
+  },
+  {
+    "loss": 1.1802,
+    "grad_norm": 1.5044333934783936,
+    "learning_rate": 0.0004954545454545455,
+    "entropy": 1.0957321308553218,
+    "num_tokens": 53965.0,
+    "mean_token_accuracy": 0.7918785288929939,
+    "epoch": 0.20109689213893966,
+    "step": 110
+  },
+  {
+    "loss": 1.0926,
+    "grad_norm": 1.3921072483062744,
+    "learning_rate": 0.0004998968011877129,
+    "entropy": 0.9945384554564953,
+    "num_tokens": 58917.0,
+    "mean_token_accuracy": 0.8105567440390586,
+    "epoch": 0.21937842778793418,
+    "step": 120
+  },
+  {
+    "loss": 1.1154,
+    "grad_norm": 1.3083264827728271,
+    "learning_rate": 0.0004995401739351536,
+    "entropy": 1.0778948426246644,
+    "num_tokens": 63922.0,
+    "mean_token_accuracy": 0.8031231343746186,
+    "epoch": 0.2376599634369287,
+    "step": 130
+  },
+  {
+    "loss": 1.0033,
+    "grad_norm": 2.4141838550567627,
+    "learning_rate": 0.0004989292075819091,
+    "entropy": 0.9672931365668773,
+    "num_tokens": 68697.0,
+    "mean_token_accuracy": 0.8235540971159935,
+    "epoch": 0.25594149908592323,
+    "step": 140
+  },
+  {
+    "loss": 1.1671,
+    "grad_norm": 1.0534119606018066,
+    "learning_rate": 0.0004980645248438745,
+    "entropy": 1.0584807768464088,
+    "num_tokens": 73708.0,
+    "mean_token_accuracy": 0.7992900639772416,
+    "epoch": 0.2742230347349177,
+    "step": 150
+  },
+  {
+    "loss": 0.9638,
+    "grad_norm": 2.2693159580230713,
+    "learning_rate": 0.0004969470070325699,
+    "entropy": 0.926125219464302,
+    "num_tokens": 78399.0,
+    "mean_token_accuracy": 0.8329230979084968,
+    "epoch": 0.29250457038391225,
+    "step": 160
+  },
+  {
+    "loss": 1.1336,
+    "grad_norm": 0.9418737888336182,
+    "learning_rate": 0.0004955777931568797,
+    "entropy": 1.0604520812630653,
+    "num_tokens": 83346.0,
+    "mean_token_accuracy": 0.8043849408626557,
+    "epoch": 0.31078610603290674,
+    "step": 170
+  },
+  {
+    "loss": 1.0936,
+    "grad_norm": 1.2109498977661133,
+    "learning_rate": 0.0004939582787621393,
+    "entropy": 0.9868959777057171,
+    "num_tokens": 88297.0,
+    "mean_token_accuracy": 0.8075228631496429,
+    "epoch": 0.3290676416819013,
+    "step": 180
+  },
+  {
+    "loss": 0.9634,
+    "grad_norm": 1.1354761123657227,
+    "learning_rate": 0.0004920901145077526,
+    "entropy": 0.9269359841942787,
+    "num_tokens": 93120.0,
+    "mean_token_accuracy": 0.8204815790057183,
+    "epoch": 0.3473491773308958,
+    "step": 190
+  },
+  {
+    "loss": 0.902,
+    "grad_norm": 1.1963611841201782,
+    "learning_rate": 0.0004899752044847881,
+    "entropy": 0.809983392059803,
+    "num_tokens": 97836.0,
+    "mean_token_accuracy": 0.8354423463344574,
+    "epoch": 0.3656307129798903,
+    "step": 200
+  },
+  {
+    "loss": 1.0727,
+    "grad_norm": 1.2923297882080078,
+    "learning_rate": 0.0004876157042752697,
+    "entropy": 1.0803617157042027,
+    "num_tokens": 102707.0,
+    "mean_token_accuracy": 0.804425984621048,
+    "epoch": 0.38391224862888484,
+    "step": 210
+  },
+  {
+    "loss": 1.0431,
+    "grad_norm": 1.0821493864059448,
+    "learning_rate": 0.00048501401875514173,
+    "entropy": 0.9232283338904381,
+    "num_tokens": 107578.0,
+    "mean_token_accuracy": 0.8204686373472214,
+    "epoch": 0.40219378427787933,
+    "step": 220
+  },
+  {
+    "loss": 1.0016,
+    "grad_norm": 1.3452186584472656,
+    "learning_rate": 0.0004821727996431435,
+    "entropy": 0.8946781434118748,
+    "num_tokens": 112492.0,
+    "mean_token_accuracy": 0.8133098736405373,
+    "epoch": 0.42047531992687387,
+    "step": 230
+  },
+  {
+    "loss": 0.9545,
+    "grad_norm": 1.3005157709121704,
+    "learning_rate": 0.00047909494279809557,
+    "entropy": 0.9158567085862159,
+    "num_tokens": 117326.0,
+    "mean_token_accuracy": 0.8263604387640953,
+    "epoch": 0.43875685557586835,
+    "step": 240
+  },
+  {
+    "loss": 1.0434,
+    "grad_norm": 1.3348708152770996,
+    "learning_rate": 0.0004757835852673506,
+    "entropy": 0.9666553139686584,
+    "num_tokens": 122188.0,
+    "mean_token_accuracy": 0.8108666554093361,
+    "epoch": 0.4570383912248629,
+    "step": 250
+  },
+  {
+    "loss": 1.5233,
+    "grad_norm": 5.236101150512695,
+    "learning_rate": 0.00047224210208941694,
+    "entropy": 1.3487498432397842,
+    "num_tokens": 127137.0,
+    "mean_token_accuracy": 0.7540628828108311,
+    "epoch": 0.4753199268738574,
+    "step": 260
+  },
+  {
+    "loss": 1.0924,
+    "grad_norm": 2.207545280456543,
+    "learning_rate": 0.0004684741028540146,
+    "entropy": 0.9830687694251538,
+    "num_tokens": 132032.0,
+    "mean_token_accuracy": 0.809441576898098,
+    "epoch": 0.4936014625228519,
+    "step": 270
+  },
+  {
+    "loss": 1.9378,
+    "grad_norm": 1.80031418800354,
+    "learning_rate": 0.0004644834280230692,
+    "entropy": 1.6831681944429875,
+    "num_tokens": 136810.0,
+    "mean_token_accuracy": 0.6984923191368579,
+    "epoch": 0.5118829981718465,
+    "step": 280
+  },
+  {
+    "loss": 1.0963,
+    "grad_norm": 1.824531078338623,
+    "learning_rate": 0.00046027414501639396,
+    "entropy": 0.9923494562506676,
+    "num_tokens": 141832.0,
+    "mean_token_accuracy": 0.7938514590263367,
+    "epoch": 0.5301645338208409,
+    "step": 290
+  },
+  {
+    "loss": 0.9917,
+    "grad_norm": 1.9162729978561401,
+    "learning_rate": 0.00045585054406604866,
+    "entropy": 0.938605896383524,
+    "num_tokens": 146777.0,
+    "mean_token_accuracy": 0.8107017129659653,
+    "epoch": 0.5484460694698354,
+    "step": 300
+  },
+  {
+    "loss": 1.4443,
+    "grad_norm": 9.322174072265625,
+    "learning_rate": 0.0004512171338436021,
+    "entropy": 1.295152136683464,
+    "num_tokens": 151950.0,
+    "mean_token_accuracy": 0.7566543176770211,
+    "epoch": 0.56672760511883,
+    "step": 310
+  },
+  {
+    "loss": 1.0499,
+    "grad_norm": 1.8375171422958374,
+    "learning_rate": 0.000446378636864754,
+    "entropy": 0.9144886791706085,
+    "num_tokens": 156537.0,
+    "mean_token_accuracy": 0.8165208205580712,
+    "epoch": 0.5850091407678245,
+    "step": 320
+  },
+  {
+    "loss": 1.1253,
+    "grad_norm": 1.7732634544372559,
+    "learning_rate": 0.00044133998467599977,
+    "entropy": 1.0305592842400073,
+    "num_tokens": 161418.0,
+    "mean_token_accuracy": 0.7921615049242974,
+    "epoch": 0.603290676416819,
+    "step": 330
+  },
+  {
+    "loss": 1.5316,
+    "grad_norm": 1.4331961870193481,
+    "learning_rate": 0.00043610631282824553,
+    "entropy": 1.325055579841137,
+    "num_tokens": 166279.0,
+    "mean_token_accuracy": 0.7350606312975287,
+    "epoch": 0.6215722120658135,
+    "step": 340
+  },
+  {
+    "loss": 0.9966,
+    "grad_norm": 1.8411200046539307,
+    "learning_rate": 0.0004306829556424948,
+    "entropy": 0.8855753645300866,
+    "num_tokens": 171214.0,
+    "mean_token_accuracy": 0.8123403206467629,
+    "epoch": 0.6398537477148081,
+    "step": 350
+  },
+  {
+    "loss": 1.1294,
+    "grad_norm": 1.0451457500457764,
+    "learning_rate": 0.00042507544077294274,
+    "entropy": 1.0525127850472926,
+    "num_tokens": 176265.0,
+    "mean_token_accuracy": 0.8036296904087067,
+    "epoch": 0.6581352833638026,
+    "step": 360
+  },
+  {
+    "loss": 1.0186,
+    "grad_norm": 1.330788493156433,
+    "learning_rate": 0.00041928948357301935,
+    "entropy": 0.9291763827204704,
+    "num_tokens": 181157.0,
+    "mean_token_accuracy": 0.8202641427516937,
+    "epoch": 0.676416819012797,
+    "step": 370
+  },
+  {
+    "loss": 0.9623,
+    "grad_norm": 1.2461735010147095,
+    "learning_rate": 0.00041333098127012326,
+    "entropy": 0.8654836975038052,
+    "num_tokens": 186130.0,
+    "mean_token_accuracy": 0.8226122915744781,
+    "epoch": 0.6946983546617916,
+    "step": 380
+  },
+  {
+    "loss": 1.277,
+    "grad_norm": 1.0772674083709717,
+    "learning_rate": 0.00040720600695498484,
+    "entropy": 1.1583830490708351,
+    "num_tokens": 191459.0,
+    "mean_token_accuracy": 0.7833705425262452,
+    "epoch": 0.7129798903107861,
+    "step": 390
+  },
+  {
+    "loss": 0.7887,
+    "grad_norm": 0.8381028771400452,
+    "learning_rate": 0.0004009208033917829,
+    "entropy": 0.7390592843294144,
+    "num_tokens": 196161.0,
+    "mean_token_accuracy": 0.8589992865920066,
+    "epoch": 0.7312614259597806,
+    "step": 400
+  },
+  {
+    "loss": 0.9316,
+    "grad_norm": 1.2052291631698608,
+    "learning_rate": 0.00039448177665532574,
+    "entropy": 0.9087510347366333,
+    "num_tokens": 201115.0,
+    "mean_token_accuracy": 0.8239080429077148,
+    "epoch": 0.7495429616087751,
+    "step": 410
+  },
+  {
+    "loss": 0.7695,
+    "grad_norm": 1.2508081197738647,
+    "learning_rate": 0.00038789548960178037,
+    "entropy": 0.7133356228470802,
+    "num_tokens": 205917.0,
+    "mean_token_accuracy": 0.849728773534298,
+    "epoch": 0.7678244972577697,
+    "step": 420
+  },
+  {
+    "loss": 0.9197,
+    "grad_norm": 1.1393840312957764,
+    "learning_rate": 0.0003811686551796058,
+    "entropy": 0.877166099101305,
+    "num_tokens": 210755.0,
+    "mean_token_accuracy": 0.8312482610344887,
+    "epoch": 0.7861060329067642,
+    "step": 430
+  },
+  {
+    "loss": 0.9159,
+    "grad_norm": 0.9043849110603333,
+    "learning_rate": 0.0003743081295875069,
+    "entropy": 0.8492414981126786,
+    "num_tokens": 215637.0,
+    "mean_token_accuracy": 0.8339142099022865,
+    "epoch": 0.8043875685557587,
+    "step": 440
+  },
+  {
+    "loss": 0.8508,
+    "grad_norm": 0.9570634961128235,
+    "learning_rate": 0.0003673209052863843,
+    "entropy": 0.7381240986287594,
+    "num_tokens": 220483.0,
+    "mean_token_accuracy": 0.842980583012104,
+    "epoch": 0.8226691042047533,
+    "step": 450
+  },
+  {
+    "loss": 0.9842,
+    "grad_norm": 1.2218940258026123,
+    "learning_rate": 0.00036021410387240013,
+    "entropy": 0.8695680610835552,
+    "num_tokens": 225469.0,
+    "mean_token_accuracy": 0.8326078191399574,
+    "epoch": 0.8409506398537477,
+    "step": 460
+  },
+  {
+    "loss": 0.9256,
+    "grad_norm": 0.8783425092697144,
+    "learning_rate": 0.0003529949688184265,
+    "entropy": 0.9371243461966514,
+    "num_tokens": 230278.0,
+    "mean_token_accuracy": 0.8261681437492371,
+    "epoch": 0.8592321755027422,
+    "step": 470
+  },
+  {
+    "loss": 0.8089,
+    "grad_norm": 0.9584093689918518,
+    "learning_rate": 0.0003456708580912725,
+    "entropy": 0.7249465331435203,
+    "num_tokens": 234976.0,
+    "mean_token_accuracy": 0.85187376588583,
+    "epoch": 0.8775137111517367,
+    "step": 480
+  },
+  {
+    "loss": 0.9988,
+    "grad_norm": 1.0121896266937256,
+    "learning_rate": 0.0003382492366522158,
+    "entropy": 0.8962770074605941,
+    "num_tokens": 239994.0,
+    "mean_token_accuracy": 0.8272333428263664,
+    "epoch": 0.8957952468007313,
+    "step": 490
+  },
+  {
+    "loss": 0.8,
+    "grad_norm": 1.0218371152877808,
+    "learning_rate": 0.00033073766884848235,
+    "entropy": 0.7547712914645672,
+    "num_tokens": 244672.0,
+    "mean_token_accuracy": 0.8585162028670311,
+    "epoch": 0.9140767824497258,
+    "step": 500
+  },
+  {
+    "loss": 0.7155,
+    "grad_norm": 1.0712863206863403,
+    "learning_rate": 0.00032314381070342813,
+    "entropy": 0.6817032858729363,
+    "num_tokens": 249226.0,
+    "mean_token_accuracy": 0.8629905194044113,
+    "epoch": 0.9323583180987203,
+    "step": 510
+  },
+  {
+    "loss": 0.9886,
+    "grad_norm": 0.9817427396774292,
+    "learning_rate": 0.0003154754021132827,
+    "entropy": 0.9045170530676842,
+    "num_tokens": 254245.0,
+    "mean_token_accuracy": 0.8155439347028732,
+    "epoch": 0.9506398537477148,
+    "step": 520
+  },
+  {
+    "loss": 0.7596,
+    "grad_norm": 0.8646839261054993,
+    "learning_rate": 0.0003077402589584061,
+    "entropy": 0.7170153304934501,
+    "num_tokens": 258959.0,
+    "mean_token_accuracy": 0.8573983281850814,
+    "epoch": 0.9689213893967094,
+    "step": 530
+  },
+  {
+    "loss": 1.0173,
+    "grad_norm": 1.1162272691726685,
+    "learning_rate": 0.00029994626513710085,
+    "entropy": 0.956288554891944,
+    "num_tokens": 263941.0,
+    "mean_token_accuracy": 0.8194100826978683,
+    "epoch": 0.9872029250457038,
+    "step": 540
+  },
+  {
+    "eval_loss": 0.8383127450942993,
+    "eval_runtime": 149.8997,
+    "eval_samples_per_second": 1.628,
+    "eval_steps_per_second": 1.628,
+    "eval_entropy": 0.7990527804024884,
+    "eval_num_tokens": 267313.0,
+    "eval_mean_token_accuracy": 0.8396265785225102,
+    "epoch": 1.0,
+    "step": 547
+  },
+  {
+    "loss": 0.8334,
+    "grad_norm": 0.8393658995628357,
+    "learning_rate": 0.00029210136453009753,
+    "entropy": 0.8176384001970292,
+    "num_tokens": 268869.0,
+    "mean_token_accuracy": 0.8477066770195961,
+    "epoch": 1.0054844606946984,
+    "step": 550
+  },
+  {
+    "loss": 0.6929,
+    "grad_norm": 1.470503568649292,
+    "learning_rate": 0.00028421355290390507,
+    "entropy": 0.601496777124703,
+    "num_tokens": 273700.0,
+    "mean_token_accuracy": 0.8613295748829841,
+    "epoch": 1.023765996343693,
+    "step": 560
+  },
+  {
+    "loss": 0.583,
+    "grad_norm": 0.6013614535331726,
+    "learning_rate": 0.0002762908697612765,
+    "entropy": 0.5732227236032486,
+    "num_tokens": 278597.0,
+    "mean_token_accuracy": 0.8821299687027931,
+    "epoch": 1.0420475319926874,
+    "step": 570
+  },
+  {
+    "loss": 0.7185,
+    "grad_norm": 1.5905576944351196,
+    "learning_rate": 0.0002683413901470984,
+    "entropy": 0.6473550666123629,
+    "num_tokens": 283394.0,
+    "mean_token_accuracy": 0.8632880464196205,
+    "epoch": 1.0603290676416819,
+    "step": 580
+  },
+  {
+    "loss": 0.5452,
+    "grad_norm": 1.0172004699707031,
+    "learning_rate": 0.0002603732164180539,
+    "entropy": 0.5780091550201177,
+    "num_tokens": 288104.0,
+    "mean_token_accuracy": 0.8878793254494667,
+    "epoch": 1.0786106032906764,
+    "step": 590
+  },
+  {
+    "loss": 0.545,
+    "grad_norm": 0.912875235080719,
+    "learning_rate": 0.000252394469984449,
+    "entropy": 0.47236425392329695,
+    "num_tokens": 292815.0,
+    "mean_token_accuracy": 0.8934838846325874,
+    "epoch": 1.0968921389396709,
+    "step": 600
+  },
+  {
+    "loss": 0.6716,
+    "grad_norm": 1.3273028135299683,
+    "learning_rate": 0.0002444132830326187,
+    "entropy": 0.6132044233381748,
+    "num_tokens": 297908.0,
+    "mean_token_accuracy": 0.8674399435520173,
+    "epoch": 1.1151736745886653,
+    "step": 610
+  },
+  {
+    "loss": 0.6113,
+    "grad_norm": 1.288959264755249,
+    "learning_rate": 0.00023643779023634987,
+    "entropy": 0.5818431481719017,
+    "num_tokens": 302705.0,
+    "mean_token_accuracy": 0.8799894049763679,
+    "epoch": 1.13345521023766,
+    "step": 620
+  },
+  {
+    "loss": 0.61,
+    "grad_norm": 0.9242374897003174,
+    "learning_rate": 0.0002284761204657696,
+    "entropy": 0.5832867488265038,
+    "num_tokens": 307457.0,
+    "mean_token_accuracy": 0.8836823180317879,
+    "epoch": 1.1517367458866545,
+    "step": 630
+  },
+  {
+    "loss": 0.5441,
+    "grad_norm": 0.7086995840072632,
+    "learning_rate": 0.00022053638850214703,
+    "entropy": 0.5097997933626175,
+    "num_tokens": 312253.0,
+    "mean_token_accuracy": 0.894115723669529,
+    "epoch": 1.170018281535649,
+    "step": 640
+  },
+  {
+    "loss": 0.5176,
+    "grad_norm": 1.3160265684127808,
+    "learning_rate": 0.00021262668676705695,
+    "entropy": 0.466005721129477,
+    "num_tokens": 316908.0,
+    "mean_token_accuracy": 0.8894715309143066,
+    "epoch": 1.1882998171846435,
+    "step": 650
+  },
+  {
+    "loss": 0.6213,
+    "grad_norm": 0.756281316280365,
+    "learning_rate": 0.00020475507707433177,
+    "entropy": 0.6145222604274749,
+    "num_tokens": 321671.0,
+    "mean_token_accuracy": 0.874506875872612,
+    "epoch": 1.206581352833638,
+    "step": 660
+  },
+  {
+    "loss": 0.6087,
+    "grad_norm": 1.3001129627227783,
+    "learning_rate": 0.0001969295824132107,
+    "entropy": 0.5633690148591995,
+    "num_tokens": 326633.0,
+    "mean_token_accuracy": 0.884332463145256,
+    "epoch": 1.2248628884826325,
+    "step": 670
+  },
+  {
+    "loss": 0.7631,
+    "grad_norm": 1.119253396987915,
+    "learning_rate": 0.00018915817877105927,
+    "entropy": 0.6663524687290192,
+    "num_tokens": 331740.0,
+    "mean_token_accuracy": 0.851144264638424,
+    "epoch": 1.2431444241316272,
+    "step": 680
+  },
+  {
+    "loss": 0.5761,
+    "grad_norm": 0.6832223534584045,
+    "learning_rate": 0.00018144878700399546,
+    "entropy": 0.5777830693870782,
+    "num_tokens": 336945.0,
+    "mean_token_accuracy": 0.886911803483963,
+    "epoch": 1.2614259597806217,
+    "step": 690
+  },
+  {
+    "loss": 0.6277,
+    "grad_norm": 0.8378806114196777,
+    "learning_rate": 0.000173809264763707,
+    "entropy": 0.5720893319696188,
+    "num_tokens": 341819.0,
+    "mean_token_accuracy": 0.8724584490060806,
+    "epoch": 1.2797074954296161,
+    "step": 700
+  },
+  {
+    "loss": 0.6422,
+    "grad_norm": 1.3611880540847778,
+    "learning_rate": 0.00016624739848868853,
+    "entropy": 0.5773471333086491,
+    "num_tokens": 346672.0,
+    "mean_token_accuracy": 0.8712103441357613,
+    "epoch": 1.2979890310786106,
+    "step": 710
+  },
+  {
+    "loss": 0.5019,
+    "grad_norm": 0.6666797399520874,
+    "learning_rate": 0.00015877089546806122,
+    "entropy": 0.5135227143764496,
+    "num_tokens": 351651.0,
+    "mean_token_accuracy": 0.8887041434645653,
+    "epoch": 1.3162705667276051,
+    "step": 720
+  },
+  {
+    "loss": 0.5872,
+    "grad_norm": 0.8829151391983032,
+    "learning_rate": 0.00015138737598606447,
+    "entropy": 0.5499209146946669,
+    "num_tokens": 356663.0,
+    "mean_token_accuracy": 0.8893190011382103,
+    "epoch": 1.3345521023765996,
+    "step": 730
+  },
+  {
+    "loss": 0.5956,
+    "grad_norm": 1.4903333187103271,
+    "learning_rate": 0.0001441043655552252,
+    "entropy": 0.5730689261108637,
+    "num_tokens": 361623.0,
+    "mean_token_accuracy": 0.8744840949773789,
+    "epoch": 1.352833638025594,
+    "step": 740
+  },
+  {
+    "loss": 0.8425,
+    "grad_norm": 1.1822813749313354,
+    "learning_rate": 0.00013692928724612203,
+    "entropy": 0.7603746997192502,
+    "num_tokens": 366800.0,
+    "mean_token_accuracy": 0.8339792802929878,
+    "epoch": 1.3711151736745886,
+    "step": 750
+  },
+  {
+    "loss": 0.5213,
+    "grad_norm": 1.104277491569519,
+    "learning_rate": 0.00012986945412156038,
+    "entropy": 0.5225177899003028,
+    "num_tokens": 371627.0,
+    "mean_token_accuracy": 0.8935010746121407,
+    "epoch": 1.389396709323583,
+    "step": 760
+  },
+  {
+    "loss": 0.5954,
+    "grad_norm": 0.457518607378006,
+    "learning_rate": 0.00012293206178287184,
+    "entropy": 0.5619303321465849,
+    "num_tokens": 376616.0,
+    "mean_token_accuracy": 0.8800176531076431,
+    "epoch": 1.4076782449725778,
+    "step": 770
+  },
+  {
+    "loss": 0.5962,
+    "grad_norm": 1.0970666408538818,
+    "learning_rate": 0.00011612418103593401,
+    "entropy": 0.5024011623114347,
+    "num_tokens": 381540.0,
+    "mean_token_accuracy": 0.88609908670187,
+    "epoch": 1.4259597806215722,
+    "step": 780
+  },
+  {
+    "loss": 0.4754,
+    "grad_norm": 0.6814817190170288,
+    "learning_rate": 0.0001094527506843849,
+    "entropy": 0.4739612426608801,
+    "num_tokens": 386304.0,
+    "mean_token_accuracy": 0.8971261441707611,
+    "epoch": 1.4442413162705667,
+    "step": 790
+  },
+  {
+    "loss": 0.5653,
+    "grad_norm": 1.4108277559280396,
+    "learning_rate": 0.00010292457045737893,
+    "entropy": 0.5391225486993789,
+    "num_tokens": 391148.0,
+    "mean_token_accuracy": 0.884946446120739,
+    "epoch": 1.4625228519195612,
+    "step": 800
+  },
+  {
+    "loss": 0.5766,
+    "grad_norm": 0.701485812664032,
+    "learning_rate": 9.654629407909162e-05,
+    "entropy": 0.5549372952431441,
+    "num_tokens": 396181.0,
+    "mean_token_accuracy": 0.8827219530940056,
+    "epoch": 1.4808043875685557,
+    "step": 810
+  },
+  {
+    "loss": 0.5183,
+    "grad_norm": 1.1837406158447266,
+    "learning_rate": 9.032442248703665e-05,
+    "entropy": 0.521338826790452,
+    "num_tokens": 401065.0,
+    "mean_token_accuracy": 0.8859279066324234,
+    "epoch": 1.4990859232175504,
+    "step": 820
+  },
+  {
+    "loss": 0.4086,
+    "grad_norm": 0.6805317997932434,
+    "learning_rate": 8.426529720610934e-05,
+    "entropy": 0.40612360909581185,
+    "num_tokens": 405858.0,
+    "mean_token_accuracy": 0.9128091052174568,
+    "epoch": 1.517367458866545,
+    "step": 830
+  },
+  {
+    "loss": 0.5668,
+    "grad_norm": 1.0712112188339233,
+    "learning_rate": 7.83750938851061e-05,
+    "entropy": 0.5340927181765437,
+    "num_tokens": 410763.0,
+    "mean_token_accuracy": 0.8831513956189155,
+    "epoch": 1.5356489945155394,
+    "step": 840
+  },
+  {
+    "loss": 0.5611,
+    "grad_norm": 1.1453123092651367,
+    "learning_rate": 7.265981600231233e-05,
+    "entropy": 0.49723163414746524,
+    "num_tokens": 415814.0,
+    "mean_token_accuracy": 0.8880010843276978,
+    "epoch": 1.5539305301645339,
+    "step": 850
+  },
+  {
+    "loss": 0.3383,
+    "grad_norm": 0.4844640791416168,
+    "learning_rate": 6.712528874657012e-05,
+    "entropy": 0.3304383518174291,
+    "num_tokens": 420421.0,
+    "mean_token_accuracy": 0.9282727792859078,
+    "epoch": 1.5722120658135283,
+    "step": 860
+  },
+  {
+    "loss": 0.4785,
+    "grad_norm": 1.027254343032837,
+    "learning_rate": 6.177715308006504e-05,
+    "entropy": 0.46275698505342006,
+    "num_tokens": 425011.0,
+    "mean_token_accuracy": 0.9057738676667213,
+    "epoch": 1.5904936014625228,
+    "step": 870
+  },
+  {
+    "loss": 0.5399,
+    "grad_norm": 0.9211871027946472,
+    "learning_rate": 5.662085998888214e-05,
+    "entropy": 0.5016709078103304,
+    "num_tokens": 429980.0,
+    "mean_token_accuracy": 0.8931746035814285,
+    "epoch": 1.6087751371115173,
+    "step": 880
+  },
+  {
+    "loss": 0.623,
+    "grad_norm": 0.6902950406074524,
+    "learning_rate": 5.1661664927191235e-05,
+    "entropy": 0.566886336915195,
+    "num_tokens": 435007.0,
+    "mean_token_accuracy": 0.8787783816456795,
+    "epoch": 1.6270566727605118,
+    "step": 890
+  },
+  {
+    "loss": 0.5005,
+    "grad_norm": 0.9160484075546265,
+    "learning_rate": 4.690462246072516e-05,
+    "entropy": 0.47696283366531134,
+    "num_tokens": 439747.0,
+    "mean_token_accuracy": 0.8926343008875847,
+    "epoch": 1.6453382084095063,
+    "step": 900
+  },
+  {
+    "loss": 0.6681,
+    "grad_norm": 1.0038708448410034,
+    "learning_rate": 4.23545811150089e-05,
+    "entropy": 0.5537581698969006,
+    "num_tokens": 444847.0,
+    "mean_token_accuracy": 0.8806583434343338,
+    "epoch": 1.6636197440585008,
+    "step": 910
+  },
+  {
+    "loss": 0.4931,
+    "grad_norm": 0.7535556554794312,
+    "learning_rate": 3.8016178433591866e-05,
+    "entropy": 0.4691365586593747,
+    "num_tokens": 449555.0,
+    "mean_token_accuracy": 0.901521198451519,
+    "epoch": 1.6819012797074955,
+    "step": 920
+  },
+  {
+    "loss": 0.5885,
+    "grad_norm": 0.9373224973678589,
+    "learning_rate": 3.389383625131942e-05,
+    "entropy": 0.5948667161166667,
+    "num_tokens": 454448.0,
+    "mean_token_accuracy": 0.8759057343006134,
+    "epoch": 1.70018281535649,
+    "step": 930
+  },
+  {
+    "loss": 0.6568,
+    "grad_norm": 1.0174107551574707,
+    "learning_rate": 2.9991756187461e-05,
+    "entropy": 0.5920586219057441,
+    "num_tokens": 459535.0,
+    "mean_token_accuracy": 0.8757189273834228,
+    "epoch": 1.7184643510054844,
+    "step": 940
+  },
+  {
+    "loss": 0.486,
+    "grad_norm": 0.9126308560371399,
+    "learning_rate": 2.631391536328992e-05,
+    "entropy": 0.4687887070700526,
+    "num_tokens": 464202.0,
+    "mean_token_accuracy": 0.9010345816612244,
+    "epoch": 1.736745886654479,
+    "step": 950
+  },
+  {
+    "loss": 0.4731,
+    "grad_norm": 0.9621142148971558,
+    "learning_rate": 2.2864062348476906e-05,
+    "entropy": 0.47076144628226757,
+    "num_tokens": 469164.0,
+    "mean_token_accuracy": 0.899216802418232,
+    "epoch": 1.7550274223034736,
+    "step": 960
+  },
+  {
+    "loss": 0.5731,
+    "grad_norm": 1.0501958131790161,
+    "learning_rate": 1.9645713340431997e-05,
+    "entropy": 0.5156827673316002,
+    "num_tokens": 474032.0,
+    "mean_token_accuracy": 0.8930515125393867,
+    "epoch": 1.7733089579524681,
+    "step": 970
+  },
+  {
+    "loss": 0.5638,
+    "grad_norm": 1.393446922302246,
+    "learning_rate": 1.6662148580486704e-05,
+    "entropy": 0.5192593608051539,
+    "num_tokens": 479058.0,
+    "mean_token_accuracy": 0.8873833552002907,
+    "epoch": 1.7915904936014626,
+    "step": 980
+  },
+  {
+    "loss": 0.5387,
+    "grad_norm": 1.067104697227478,
+    "learning_rate": 1.3916409010569925e-05,
+    "entropy": 0.4929318675771356,
+    "num_tokens": 483717.0,
+    "mean_token_accuracy": 0.8899582773447037,
+    "epoch": 1.809872029250457,
+    "step": 990
+  },
+  {
+    "loss": 0.474,
+    "grad_norm": 0.7692973017692566,
+    "learning_rate": 1.1411293173785726e-05,
+    "entropy": 0.4536196293309331,
+    "num_tokens": 488517.0,
+    "mean_token_accuracy": 0.9024506390094758,
+    "epoch": 1.8281535648994516,
+    "step": 1000
+  },
+  {
+    "loss": 0.5862,
+    "grad_norm": 0.9886012077331543,
+    "learning_rate": 9.149354362050804e-06,
+    "entropy": 0.5348154939711094,
+    "num_tokens": 493643.0,
+    "mean_token_accuracy": 0.887369342148304,
+    "epoch": 1.846435100548446,
+    "step": 1010
+  },
+  {
+    "loss": 0.4364,
+    "grad_norm": 0.6033039689064026,
+    "learning_rate": 7.13289801370054e-06,
+    "entropy": 0.4438053784891963,
+    "num_tokens": 498402.0,
+    "mean_token_accuracy": 0.9055494770407677,
+    "epoch": 1.8647166361974405,
+    "step": 1020
+  },
+  {
+    "loss": 0.4822,
+    "grad_norm": 1.0783859491348267,
+    "learning_rate": 5.363979363714244e-06,
+    "entropy": 0.44634236562997104,
+    "num_tokens": 503273.0,
+    "mean_token_accuracy": 0.9009472608566285,
+    "epoch": 1.882998171846435,
+    "step": 1030
+  },
+  {
+    "loss": 0.464,
+    "grad_norm": 1.3200268745422363,
+    "learning_rate": 3.844401348955834e-06,
+    "entropy": 0.44374721236526965,
+    "num_tokens": 508179.0,
+    "mean_token_accuracy": 0.9102602645754814,
+    "epoch": 1.9012797074954295,
+    "step": 1040
+  },
+  {
+    "loss": 0.5956,
+    "grad_norm": 0.8053908348083496,
+    "learning_rate": 2.575712770564592e-06,
+    "entropy": 0.567001193203032,
+    "num_tokens": 513289.0,
+    "mean_token_accuracy": 0.8815849825739861,
+    "epoch": 1.919561243144424,
+    "step": 1050
+  },
+  {
+    "loss": 0.6047,
+    "grad_norm": 1.3640791177749634,
+    "learning_rate": 1.559206715368966e-06,
+    "entropy": 0.609914462082088,
+    "num_tokens": 518359.0,
+    "mean_token_accuracy": 0.8840003907680511,
+    "epoch": 1.9378427787934185,
+    "step": 1060
+  },
+  {
+    "loss": 0.4451,
+    "grad_norm": 1.2007508277893066,
+    "learning_rate": 7.959192379322078e-07,
+    "entropy": 0.43388587329536676,
+    "num_tokens": 523015.0,
+    "mean_token_accuracy": 0.9105660766363144,
+    "epoch": 1.9561243144424132,
+    "step": 1070
+  },
+  {
+    "loss": 0.4733,
+    "grad_norm": 0.7846450209617615,
+    "learning_rate": 2.8662830457340526e-07,
+    "entropy": 0.46208970360457896,
+    "num_tokens": 527800.0,
+    "mean_token_accuracy": 0.9034222677350044,
+    "epoch": 1.9744058500914077,
+    "step": 1080
+  },
+  {
+    "loss": 0.5183,
+    "grad_norm": 0.9528534412384033,
+    "learning_rate": 3.1853000439951984e-08,
+    "entropy": 0.47328052408993243,
+    "num_tokens": 532702.0,
+    "mean_token_accuracy": 0.8960653573274613,
+    "epoch": 1.9926873857404022,
+    "step": 1090
+  },
+  {
+    "eval_loss": 0.7137235999107361,
+    "eval_runtime": 149.8883,
+    "eval_samples_per_second": 1.628,
+    "eval_steps_per_second": 1.628,
+    "eval_entropy": 0.5778556458163456,
+    "eval_num_tokens": 534626.0,
+    "eval_mean_token_accuracy": 0.8677698337152356,
+    "epoch": 2.0,
+    "step": 1094
+  },
+  {
+    "train_runtime": 6289.0757,
+    "train_samples_per_second": 0.696,
+    "train_steps_per_second": 0.174,
+    "total_flos": 1.2079230284163072e+16,
+    "train_loss": 0.8425550589395834,
+    "epoch": 2.0,
+    "step": 1094
+  }
+]

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff