Upload LoRA adapter (README written by author)

Browse files

Files changed (10) hide show

.gitattributes +1 -0
README.md +68 -0
adapter_config.json +50 -0
adapter_model.safetensors +3 -0
added_tokens.json +28 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
trainer_state.json +1410 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: Qwen/Qwen3-4B-Instruct-2507
+datasets:
+- u-10bei/structured_data_with_cot_dataset_512_v2
+- daichira/structured-hard-sft-4k
+language:
+- en
+license: apache-2.0
+library_name: peft
+pipeline_tag: text-generation
+tags:
+- qlora
+- lora
+- structured-output
+---
+qwen3-4b-structured-output-lora-v5
+This repository provides a **LoRA adapter** fine-tuned from
+**Qwen/Qwen3-4B-Instruct-2507** using **QLoRA (4-bit, Unsloth)**.
+This repository contains **LoRA adapter weights only**.
+The base model must be loaded separately.
+## Training Objective
+This adapter is trained to improve **structured output accuracy**
+(JSON / YAML / XML / TOML / CSV).
+Loss is applied only to the final assistant output,
+while intermediate reasoning (Chain-of-Thought) is masked.
+## Training Configuration
+- Base model: Qwen/Qwen3-4B-Instruct-2507
+- Method: QLoRA (4-bit)
+- Max sequence length: 1024
+- Epochs: 4
+- Learning rate: 1e-06
+- LoRA: r=64, alpha=128
+## Usage
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
+import torch
+base = "Qwen/Qwen3-4B-Instruct-2507"
+adapter = "your_id/your-repo"
+tokenizer = AutoTokenizer.from_pretrained(base)
+model = AutoModelForCausalLM.from_pretrained(
+    base,
+    torch_dtype=torch.float16,
+    device_map="auto",
+)
+model = PeftModel.from_pretrained(model, adapter)
+```
+## Sources & Terms (IMPORTANT)
+Training data:
+- u-10bei/structured_data_with_cot_dataset_512_v2
+- daichira/structured-hard-sft-4k
+Dataset License: MIT License. This dataset is used and distributed under the terms of the MIT License.
+Compliance: Users must comply with the MIT license (including copyright notice) and the base model's original terms of use.

adapter_config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": {
+    "base_model_class": "Qwen3ForCausalLM",
+    "parent_library": "transformers.models.qwen3.modeling_qwen3",
+    "unsloth_fixed": true
+  },
+  "base_model_name_or_path": "unsloth/qwen3-4b-instruct-2507-unsloth-bnb-4bit",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "o_proj",
+    "q_proj",
+    "gate_proj",
+    "v_proj",
+    "k_proj"
+  ],
+  "target_parameters": null,
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82760ce0d2511d9cc5cd7fe7e6c1b571bf1c8f3b3dfae80791046c9ec0fafa50
+size 528550256

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1410 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.5248070562293274,
+  "eval_steps": 50,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022050716648291068,
+      "grad_norm": 2.091796398162842,
+      "learning_rate": 4.9450549450549446e-08,
+      "loss": 1.3103,
+      "step": 10
+    },
+    {
+      "epoch": 0.044101433296582136,
+      "grad_norm": 2.3156776428222656,
+      "learning_rate": 1.0439560439560439e-07,
+      "loss": 1.4355,
+      "step": 20
+    },
+    {
+      "epoch": 0.06615214994487321,
+      "grad_norm": 1.8849185705184937,
+      "learning_rate": 1.5934065934065932e-07,
+      "loss": 1.3735,
+      "step": 30
+    },
+    {
+      "epoch": 0.08820286659316427,
+      "grad_norm": 2.9574432373046875,
+      "learning_rate": 2.1428571428571426e-07,
+      "loss": 1.4364,
+      "step": 40
+    },
+    {
+      "epoch": 0.11025358324145534,
+      "grad_norm": 2.344658136367798,
+      "learning_rate": 2.692307692307692e-07,
+      "loss": 1.516,
+      "step": 50
+    },
+    {
+      "epoch": 0.11025358324145534,
+      "eval_loss": 1.4678384065628052,
+      "eval_runtime": 30.9931,
+      "eval_samples_per_second": 12.487,
+      "eval_steps_per_second": 6.259,
+      "step": 50
+    },
+    {
+      "epoch": 0.13230429988974643,
+      "grad_norm": 1.638563632965088,
+      "learning_rate": 3.2417582417582416e-07,
+      "loss": 1.3533,
+      "step": 60
+    },
+    {
+      "epoch": 0.1543550165380375,
+      "grad_norm": 2.478177547454834,
+      "learning_rate": 3.791208791208791e-07,
+      "loss": 1.3557,
+      "step": 70
+    },
+    {
+      "epoch": 0.17640573318632854,
+      "grad_norm": 1.6685155630111694,
+      "learning_rate": 4.3406593406593404e-07,
+      "loss": 1.2135,
+      "step": 80
+    },
+    {
+      "epoch": 0.19845644983461963,
+      "grad_norm": 1.918034553527832,
+      "learning_rate": 4.890109890109889e-07,
+      "loss": 1.4055,
+      "step": 90
+    },
+    {
+      "epoch": 0.2205071664829107,
+      "grad_norm": 2.07231068611145,
+      "learning_rate": 5.439560439560439e-07,
+      "loss": 1.2006,
+      "step": 100
+    },
+    {
+      "epoch": 0.2205071664829107,
+      "eval_loss": 1.4129432439804077,
+      "eval_runtime": 31.1241,
+      "eval_samples_per_second": 12.434,
+      "eval_steps_per_second": 6.233,
+      "step": 100
+    },
+    {
+      "epoch": 0.24255788313120177,
+      "grad_norm": 1.890555739402771,
+      "learning_rate": 5.989010989010988e-07,
+      "loss": 1.288,
+      "step": 110
+    },
+    {
+      "epoch": 0.26460859977949286,
+      "grad_norm": 1.5374747514724731,
+      "learning_rate": 6.538461538461538e-07,
+      "loss": 1.3875,
+      "step": 120
+    },
+    {
+      "epoch": 0.2866593164277839,
+      "grad_norm": 1.4329373836517334,
+      "learning_rate": 7.087912087912088e-07,
+      "loss": 1.1613,
+      "step": 130
+    },
+    {
+      "epoch": 0.308710033076075,
+      "grad_norm": 2.4291820526123047,
+      "learning_rate": 7.637362637362636e-07,
+      "loss": 1.2108,
+      "step": 140
+    },
+    {
+      "epoch": 0.33076074972436603,
+      "grad_norm": 2.4429850578308105,
+      "learning_rate": 8.186813186813187e-07,
+      "loss": 1.2541,
+      "step": 150
+    },
+    {
+      "epoch": 0.33076074972436603,
+      "eval_loss": 1.2611055374145508,
+      "eval_runtime": 30.9842,
+      "eval_samples_per_second": 12.49,
+      "eval_steps_per_second": 6.261,
+      "step": 150
+    },
+    {
+      "epoch": 0.3528114663726571,
+      "grad_norm": 1.2373392581939697,
+      "learning_rate": 8.736263736263736e-07,
+      "loss": 1.0923,
+      "step": 160
+    },
+    {
+      "epoch": 0.3748621830209482,
+      "grad_norm": 1.0209314823150635,
+      "learning_rate": 9.285714285714285e-07,
+      "loss": 1.214,
+      "step": 170
+    },
+    {
+      "epoch": 0.39691289966923926,
+      "grad_norm": 0.8216220140457153,
+      "learning_rate": 9.835164835164834e-07,
+      "loss": 0.9525,
+      "step": 180
+    },
+    {
+      "epoch": 0.4189636163175303,
+      "grad_norm": 1.5757627487182617,
+      "learning_rate": 9.999547180444195e-07,
+      "loss": 0.9399,
+      "step": 190
+    },
+    {
+      "epoch": 0.4410143329658214,
+      "grad_norm": 1.2908568382263184,
+      "learning_rate": 9.997329486184973e-07,
+      "loss": 1.0129,
+      "step": 200
+    },
+    {
+      "epoch": 0.4410143329658214,
+      "eval_loss": 1.1076371669769287,
+      "eval_runtime": 31.0875,
+      "eval_samples_per_second": 12.449,
+      "eval_steps_per_second": 6.24,
+      "step": 200
+    },
+    {
+      "epoch": 0.46306504961411243,
+      "grad_norm": 0.6605131030082703,
+      "learning_rate": 9.993264565013427e-07,
+      "loss": 0.8898,
+      "step": 210
+    },
+    {
+      "epoch": 0.48511576626240355,
+      "grad_norm": 0.5790239572525024,
+      "learning_rate": 9.98735391949844e-07,
+      "loss": 1.0172,
+      "step": 220
+    },
+    {
+      "epoch": 0.5071664829106945,
+      "grad_norm": 0.7017053961753845,
+      "learning_rate": 9.979599734467628e-07,
+      "loss": 0.9997,
+      "step": 230
+    },
+    {
+      "epoch": 0.5292171995589857,
+      "grad_norm": 0.5328222513198853,
+      "learning_rate": 9.97000487619973e-07,
+      "loss": 0.9148,
+      "step": 240
+    },
+    {
+      "epoch": 0.5512679162072768,
+      "grad_norm": 0.4753032326698303,
+      "learning_rate": 9.958572891365115e-07,
+      "loss": 0.9804,
+      "step": 250
+    },
+    {
+      "epoch": 0.5512679162072768,
+      "eval_loss": 1.0351777076721191,
+      "eval_runtime": 30.7039,
+      "eval_samples_per_second": 12.604,
+      "eval_steps_per_second": 6.318,
+      "step": 250
+    },
+    {
+      "epoch": 0.5733186328555678,
+      "grad_norm": 0.4930404722690582,
+      "learning_rate": 9.945308005714784e-07,
+      "loss": 0.9634,
+      "step": 260
+    },
+    {
+      "epoch": 0.5953693495038589,
+      "grad_norm": 0.48022523522377014,
+      "learning_rate": 9.93021512251833e-07,
+      "loss": 0.9131,
+      "step": 270
+    },
+    {
+      "epoch": 0.61742006615215,
+      "grad_norm": 1.1264078617095947,
+      "learning_rate": 9.913299820751512e-07,
+      "loss": 0.9378,
+      "step": 280
+    },
+    {
+      "epoch": 0.639470782800441,
+      "grad_norm": 0.5375543236732483,
+      "learning_rate": 9.894568353033998e-07,
+      "loss": 0.9795,
+      "step": 290
+    },
+    {
+      "epoch": 0.6615214994487321,
+      "grad_norm": 0.5027572512626648,
+      "learning_rate": 9.874027643318147e-07,
+      "loss": 1.0432,
+      "step": 300
+    },
+    {
+      "epoch": 0.6615214994487321,
+      "eval_loss": 0.9879136085510254,
+      "eval_runtime": 31.0824,
+      "eval_samples_per_second": 12.451,
+      "eval_steps_per_second": 6.241,
+      "step": 300
+    },
+    {
+      "epoch": 0.6835722160970231,
+      "grad_norm": 0.6522424221038818,
+      "learning_rate": 9.851685284329612e-07,
+      "loss": 0.9544,
+      "step": 310
+    },
+    {
+      "epoch": 0.7056229327453142,
+      "grad_norm": 0.4375791549682617,
+      "learning_rate": 9.827549534760743e-07,
+      "loss": 0.9337,
+      "step": 320
+    },
+    {
+      "epoch": 0.7276736493936052,
+      "grad_norm": 0.5359438061714172,
+      "learning_rate": 9.801629316217826e-07,
+      "loss": 0.9501,
+      "step": 330
+    },
+    {
+      "epoch": 0.7497243660418964,
+      "grad_norm": 0.5156540870666504,
+      "learning_rate": 9.773934209923273e-07,
+      "loss": 0.9362,
+      "step": 340
+    },
+    {
+      "epoch": 0.7717750826901875,
+      "grad_norm": 0.3920913636684418,
+      "learning_rate": 9.74447445317399e-07,
+      "loss": 0.9031,
+      "step": 350
+    },
+    {
+      "epoch": 0.7717750826901875,
+      "eval_loss": 0.9537778496742249,
+      "eval_runtime": 30.8673,
+      "eval_samples_per_second": 12.538,
+      "eval_steps_per_second": 6.285,
+      "step": 350
+    },
+    {
+      "epoch": 0.7938257993384785,
+      "grad_norm": 0.5934253334999084,
+      "learning_rate": 9.713260935557233e-07,
+      "loss": 0.8994,
+      "step": 360
+    },
+    {
+      "epoch": 0.8158765159867696,
+      "grad_norm": 0.5070703625679016,
+      "learning_rate": 9.680305194925356e-07,
+      "loss": 0.9918,
+      "step": 370
+    },
+    {
+      "epoch": 0.8379272326350606,
+      "grad_norm": 0.4203622043132782,
+      "learning_rate": 9.645619413130921e-07,
+      "loss": 0.9669,
+      "step": 380
+    },
+    {
+      "epoch": 0.8599779492833517,
+      "grad_norm": 0.4589724838733673,
+      "learning_rate": 9.60921641152377e-07,
+      "loss": 0.8177,
+      "step": 390
+    },
+    {
+      "epoch": 0.8820286659316428,
+      "grad_norm": 0.4475689232349396,
+      "learning_rate": 9.571109646211698e-07,
+      "loss": 0.9922,
+      "step": 400
+    },
+    {
+      "epoch": 0.8820286659316428,
+      "eval_loss": 0.9277470707893372,
+      "eval_runtime": 30.9395,
+      "eval_samples_per_second": 12.508,
+      "eval_steps_per_second": 6.27,
+      "step": 400
+    },
+    {
+      "epoch": 0.9040793825799338,
+      "grad_norm": 0.4121669828891754,
+      "learning_rate": 9.531313203086502e-07,
+      "loss": 0.9197,
+      "step": 410
+    },
+    {
+      "epoch": 0.9261300992282249,
+      "grad_norm": 0.3806382417678833,
+      "learning_rate": 9.489841792617239e-07,
+      "loss": 0.9206,
+      "step": 420
+    },
+    {
+      "epoch": 0.948180815876516,
+      "grad_norm": 0.4550821781158447,
+      "learning_rate": 9.446710744412594e-07,
+      "loss": 0.9232,
+      "step": 430
+    },
+    {
+      "epoch": 0.9702315325248071,
+      "grad_norm": 0.49195268750190735,
+      "learning_rate": 9.401936001554413e-07,
+      "loss": 0.8856,
+      "step": 440
+    },
+    {
+      "epoch": 0.9922822491730982,
+      "grad_norm": 0.47510039806365967,
+      "learning_rate": 9.355534114704451e-07,
+      "loss": 0.7298,
+      "step": 450
+    },
+    {
+      "epoch": 0.9922822491730982,
+      "eval_loss": 0.9063670039176941,
+      "eval_runtime": 30.9858,
+      "eval_samples_per_second": 12.49,
+      "eval_steps_per_second": 6.261,
+      "step": 450
+    },
+    {
+      "epoch": 1.0132304299889747,
+      "grad_norm": 0.45156633853912354,
+      "learning_rate": 9.307522235986536e-07,
+      "loss": 0.9249,
+      "step": 460
+    },
+    {
+      "epoch": 1.0352811466372658,
+      "grad_norm": 0.41880857944488525,
+      "learning_rate": 9.25791811264642e-07,
+      "loss": 0.8693,
+      "step": 470
+    },
+    {
+      "epoch": 1.0573318632855568,
+      "grad_norm": 0.418094664812088,
+      "learning_rate": 9.206740080491626e-07,
+      "loss": 0.8577,
+      "step": 480
+    },
+    {
+      "epoch": 1.079382579933848,
+      "grad_norm": 0.5093225836753845,
+      "learning_rate": 9.154007057113755e-07,
+      "loss": 0.7593,
+      "step": 490
+    },
+    {
+      "epoch": 1.101433296582139,
+      "grad_norm": 0.33123084902763367,
+      "learning_rate": 9.099738534895736e-07,
+      "loss": 0.8276,
+      "step": 500
+    },
+    {
+      "epoch": 1.101433296582139,
+      "eval_loss": 0.8895114064216614,
+      "eval_runtime": 30.7938,
+      "eval_samples_per_second": 12.567,
+      "eval_steps_per_second": 6.3,
+      "step": 500
+    },
+    {
+      "epoch": 1.12348401323043,
+      "grad_norm": 0.4701198637485504,
+      "learning_rate": 9.043954573806596e-07,
+      "loss": 0.8623,
+      "step": 510
+    },
+    {
+      "epoch": 1.145534729878721,
+      "grad_norm": 0.4642221927642822,
+      "learning_rate": 8.986675793986451e-07,
+      "loss": 0.8981,
+      "step": 520
+    },
+    {
+      "epoch": 1.1675854465270121,
+      "grad_norm": 0.4403532147407532,
+      "learning_rate": 8.927923368124411e-07,
+      "loss": 0.8752,
+      "step": 530
+    },
+    {
+      "epoch": 1.1896361631753032,
+      "grad_norm": 0.542199969291687,
+      "learning_rate": 8.867719013632246e-07,
+      "loss": 0.831,
+      "step": 540
+    },
+    {
+      "epoch": 1.2116868798235942,
+      "grad_norm": 0.382845014333725,
+      "learning_rate": 8.806084984616712e-07,
+      "loss": 0.887,
+      "step": 550
+    },
+    {
+      "epoch": 1.2116868798235942,
+      "eval_loss": 0.8739157915115356,
+      "eval_runtime": 30.8799,
+      "eval_samples_per_second": 12.532,
+      "eval_steps_per_second": 6.282,
+      "step": 550
+    },
+    {
+      "epoch": 1.2337375964718853,
+      "grad_norm": 0.4585653245449066,
+      "learning_rate": 8.743044063653465e-07,
+      "loss": 0.8997,
+      "step": 560
+    },
+    {
+      "epoch": 1.2557883131201764,
+      "grad_norm": 0.35734766721725464,
+      "learning_rate": 8.678619553365658e-07,
+      "loss": 0.7794,
+      "step": 570
+    },
+    {
+      "epoch": 1.2778390297684674,
+      "grad_norm": 0.38038501143455505,
+      "learning_rate": 8.612835267810286e-07,
+      "loss": 0.7101,
+      "step": 580
+    },
+    {
+      "epoch": 1.2998897464167585,
+      "grad_norm": 0.5496143698692322,
+      "learning_rate": 8.5457155236755e-07,
+      "loss": 0.901,
+      "step": 590
+    },
+    {
+      "epoch": 1.3219404630650495,
+      "grad_norm": 0.36970055103302,
+      "learning_rate": 8.477285131292107e-07,
+      "loss": 0.8555,
+      "step": 600
+    },
+    {
+      "epoch": 1.3219404630650495,
+      "eval_loss": 0.8605629205703735,
+      "eval_runtime": 31.8221,
+      "eval_samples_per_second": 12.161,
+      "eval_steps_per_second": 6.096,
+      "step": 600
+    },
+    {
+      "epoch": 1.3439911797133406,
+      "grad_norm": 0.3344724476337433,
+      "learning_rate": 8.407569385462614e-07,
+      "loss": 0.899,
+      "step": 610
+    },
+    {
+      "epoch": 1.3660418963616316,
+      "grad_norm": 0.359423965215683,
+      "learning_rate": 8.336594056111197e-07,
+      "loss": 0.8091,
+      "step": 620
+    },
+    {
+      "epoch": 1.3880926130099227,
+      "grad_norm": 0.33909741044044495,
+      "learning_rate": 8.264385378758013e-07,
+      "loss": 0.7466,
+      "step": 630
+    },
+    {
+      "epoch": 1.4101433296582138,
+      "grad_norm": 0.3617461025714874,
+      "learning_rate": 8.190970044821446e-07,
+      "loss": 0.7555,
+      "step": 640
+    },
+    {
+      "epoch": 1.432194046306505,
+      "grad_norm": 0.5685471296310425,
+      "learning_rate": 8.116375191751807e-07,
+      "loss": 0.8141,
+      "step": 650
+    },
+    {
+      "epoch": 1.432194046306505,
+      "eval_loss": 0.8483839631080627,
+      "eval_runtime": 31.1689,
+      "eval_samples_per_second": 12.416,
+      "eval_steps_per_second": 6.224,
+      "step": 650
+    },
+    {
+      "epoch": 1.454244762954796,
+      "grad_norm": 0.6284070611000061,
+      "learning_rate": 8.040628393000177e-07,
+      "loss": 0.8376,
+      "step": 660
+    },
+    {
+      "epoch": 1.4762954796030872,
+      "grad_norm": 0.4221034049987793,
+      "learning_rate": 7.963757647826071e-07,
+      "loss": 0.9069,
+      "step": 670
+    },
+    {
+      "epoch": 1.4983461962513782,
+      "grad_norm": 0.4318729341030121,
+      "learning_rate": 7.88579137094772e-07,
+      "loss": 0.8511,
+      "step": 680
+    },
+    {
+      "epoch": 1.5203969128996693,
+      "grad_norm": 0.4035641551017761,
+      "learning_rate": 7.806758382038772e-07,
+      "loss": 0.7949,
+      "step": 690
+    },
+    {
+      "epoch": 1.5424476295479603,
+      "grad_norm": 0.37978196144104004,
+      "learning_rate": 7.726687895075308e-07,
+      "loss": 0.8521,
+      "step": 700
+    },
+    {
+      "epoch": 1.5424476295479603,
+      "eval_loss": 0.8365304470062256,
+      "eval_runtime": 30.9818,
+      "eval_samples_per_second": 12.491,
+      "eval_steps_per_second": 6.262,
+      "step": 700
+    },
+    {
+      "epoch": 1.5644983461962514,
+      "grad_norm": 0.405729204416275,
+      "learning_rate": 7.645609507537105e-07,
+      "loss": 0.8085,
+      "step": 710
+    },
+    {
+      "epoch": 1.5865490628445424,
+      "grad_norm": 1.3865073919296265,
+      "learning_rate": 7.563553189467136e-07,
+      "loss": 0.9756,
+      "step": 720
+    },
+    {
+      "epoch": 1.6085997794928335,
+      "grad_norm": 0.4169498682022095,
+      "learning_rate": 7.480549272393371e-07,
+      "loss": 0.8028,
+      "step": 730
+    },
+    {
+      "epoch": 1.6306504961411246,
+      "grad_norm": 0.7300071716308594,
+      "learning_rate": 7.39662843811693e-07,
+      "loss": 0.8578,
+      "step": 740
+    },
+    {
+      "epoch": 1.6527012127894156,
+      "grad_norm": 0.4267706573009491,
+      "learning_rate": 7.311821707370792e-07,
+      "loss": 0.7597,
+      "step": 750
+    },
+    {
+      "epoch": 1.6527012127894156,
+      "eval_loss": 0.8256433010101318,
+      "eval_runtime": 30.9848,
+      "eval_samples_per_second": 12.49,
+      "eval_steps_per_second": 6.261,
+      "step": 750
+    },
+    {
+      "epoch": 1.6747519294377067,
+      "grad_norm": 0.4179936945438385,
+      "learning_rate": 7.226160428353189e-07,
+      "loss": 0.8828,
+      "step": 760
+    },
+    {
+      "epoch": 1.696802646085998,
+      "grad_norm": 0.5068164467811584,
+      "learning_rate": 7.139676265139985e-07,
+      "loss": 0.7515,
+      "step": 770
+    },
+    {
+      "epoch": 1.718853362734289,
+      "grad_norm": 0.4229294955730438,
+      "learning_rate": 7.05240118598026e-07,
+      "loss": 0.766,
+      "step": 780
+    },
+    {
+      "epoch": 1.74090407938258,
+      "grad_norm": 0.43405506014823914,
+      "learning_rate": 6.964367451479497e-07,
+      "loss": 0.7944,
+      "step": 790
+    },
+    {
+      "epoch": 1.7629547960308711,
+      "grad_norm": 0.6145793199539185,
+      "learning_rate": 6.875607602674665e-07,
+      "loss": 0.76,
+      "step": 800
+    },
+    {
+      "epoch": 1.7629547960308711,
+      "eval_loss": 0.8161342144012451,
+      "eval_runtime": 31.0504,
+      "eval_samples_per_second": 12.464,
+      "eval_steps_per_second": 6.248,
+      "step": 800
+    },
+    {
+      "epoch": 1.7850055126791622,
+      "grad_norm": 0.5480120182037354,
+      "learning_rate": 6.786154449005663e-07,
+      "loss": 0.6947,
+      "step": 810
+    },
+    {
+      "epoch": 1.8070562293274532,
+      "grad_norm": 0.4307333827018738,
+      "learning_rate": 6.696041056187554e-07,
+      "loss": 0.8518,
+      "step": 820
+    },
+    {
+      "epoch": 1.8291069459757443,
+      "grad_norm": 0.48760783672332764,
+      "learning_rate": 6.605300733988051e-07,
+      "loss": 0.9018,
+      "step": 830
+    },
+    {
+      "epoch": 1.8511576626240354,
+      "grad_norm": 0.4379078447818756,
+      "learning_rate": 6.513967023914807e-07,
+      "loss": 0.7699,
+      "step": 840
+    },
+    {
+      "epoch": 1.8732083792723264,
+      "grad_norm": 0.5063772201538086,
+      "learning_rate": 6.422073686817032e-07,
+      "loss": 0.7034,
+      "step": 850
+    },
+    {
+      "epoch": 1.8732083792723264,
+      "eval_loss": 0.8075295090675354,
+      "eval_runtime": 31.4599,
+      "eval_samples_per_second": 12.301,
+      "eval_steps_per_second": 6.167,
+      "step": 850
+    },
+    {
+      "epoch": 1.8952590959206175,
+      "grad_norm": 0.39252328872680664,
+      "learning_rate": 6.329654690406045e-07,
+      "loss": 0.7019,
+      "step": 860
+    },
+    {
+      "epoch": 1.9173098125689085,
+      "grad_norm": 1.636116862297058,
+      "learning_rate": 6.236744196699353e-07,
+      "loss": 0.7102,
+      "step": 870
+    },
+    {
+      "epoch": 1.9393605292171996,
+      "grad_norm": 0.3736509084701538,
+      "learning_rate": 6.143376549392898e-07,
+      "loss": 0.8171,
+      "step": 880
+    },
+    {
+      "epoch": 1.9614112458654906,
+      "grad_norm": 0.4188951551914215,
+      "learning_rate": 6.049586261166168e-07,
+      "loss": 0.7083,
+      "step": 890
+    },
+    {
+      "epoch": 1.9834619625137817,
+      "grad_norm": 0.5519161224365234,
+      "learning_rate": 5.955408000924826e-07,
+      "loss": 0.8761,
+      "step": 900
+    },
+    {
+      "epoch": 1.9834619625137817,
+      "eval_loss": 0.7999474406242371,
+      "eval_runtime": 31.2242,
+      "eval_samples_per_second": 12.394,
+      "eval_steps_per_second": 6.213,
+      "step": 900
+    },
+    {
+      "epoch": 2.0044101433296584,
+      "grad_norm": 0.48845574259757996,
+      "learning_rate": 5.860876580985605e-07,
+      "loss": 0.7645,
+      "step": 910
+    },
+    {
+      "epoch": 2.0264608599779494,
+      "grad_norm": 0.4153165817260742,
+      "learning_rate": 5.766026944208171e-07,
+      "loss": 0.7235,
+      "step": 920
+    },
+    {
+      "epoch": 2.0485115766262405,
+      "grad_norm": 0.4561828076839447,
+      "learning_rate": 5.670894151078768e-07,
+      "loss": 0.8001,
+      "step": 930
+    },
+    {
+      "epoch": 2.0705622932745316,
+      "grad_norm": 0.45872876048088074,
+      "learning_rate": 5.575513366750338e-07,
+      "loss": 0.6565,
+      "step": 940
+    },
+    {
+      "epoch": 2.0926130099228226,
+      "grad_norm": 0.49032464623451233,
+      "learning_rate": 5.479919848044e-07,
+      "loss": 0.7339,
+      "step": 950
+    },
+    {
+      "epoch": 2.0926130099228226,
+      "eval_loss": 0.7934562563896179,
+      "eval_runtime": 31.4243,
+      "eval_samples_per_second": 12.315,
+      "eval_steps_per_second": 6.174,
+      "step": 950
+    },
+    {
+      "epoch": 2.1146637265711137,
+      "grad_norm": 0.4034031629562378,
+      "learning_rate": 5.384148930416592e-07,
+      "loss": 0.7465,
+      "step": 960
+    },
+    {
+      "epoch": 2.1367144432194047,
+      "grad_norm": 0.5809303522109985,
+      "learning_rate": 5.288236014899199e-07,
+      "loss": 0.7062,
+      "step": 970
+    },
+    {
+      "epoch": 2.158765159867696,
+      "grad_norm": 0.5515176653862,
+      "learning_rate": 5.1922165550114e-07,
+      "loss": 0.7657,
+      "step": 980
+    },
+    {
+      "epoch": 2.180815876515987,
+      "grad_norm": 0.4212632477283478,
+      "learning_rate": 5.096126043656131e-07,
+      "loss": 0.7649,
+      "step": 990
+    },
+    {
+      "epoch": 2.202866593164278,
+      "grad_norm": 0.43177521228790283,
+      "learning_rate": 5e-07,
+      "loss": 0.7089,
+      "step": 1000
+    },
+    {
+      "epoch": 2.202866593164278,
+      "eval_loss": 0.7877091765403748,
+      "eval_runtime": 31.443,
+      "eval_samples_per_second": 12.308,
+      "eval_steps_per_second": 6.17,
+      "step": 1000
+    },
+    {
+      "epoch": 2.224917309812569,
+      "grad_norm": 1.1922564506530762,
+      "learning_rate": 4.903873956343869e-07,
+      "loss": 0.776,
+      "step": 1010
+    },
+    {
+      "epoch": 2.24696802646086,
+      "grad_norm": 0.4026447832584381,
+      "learning_rate": 4.8077834449886e-07,
+      "loss": 0.7671,
+      "step": 1020
+    },
+    {
+      "epoch": 2.269018743109151,
+      "grad_norm": 0.4751526415348053,
+      "learning_rate": 4.711763985100801e-07,
+      "loss": 0.6684,
+      "step": 1030
+    },
+    {
+      "epoch": 2.291069459757442,
+      "grad_norm": 0.6750423312187195,
+      "learning_rate": 4.6158510695834073e-07,
+      "loss": 0.8802,
+      "step": 1040
+    },
+    {
+      "epoch": 2.313120176405733,
+      "grad_norm": 0.6013314723968506,
+      "learning_rate": 4.520080151956001e-07,
+      "loss": 0.7591,
+      "step": 1050
+    },
+    {
+      "epoch": 2.313120176405733,
+      "eval_loss": 0.7824860215187073,
+      "eval_runtime": 30.8951,
+      "eval_samples_per_second": 12.526,
+      "eval_steps_per_second": 6.279,
+      "step": 1050
+    },
+    {
+      "epoch": 2.3351708930540243,
+      "grad_norm": 0.6955768465995789,
+      "learning_rate": 4.4244866332496606e-07,
+      "loss": 0.8971,
+      "step": 1060
+    },
+    {
+      "epoch": 2.3572216097023153,
+      "grad_norm": 0.5380210876464844,
+      "learning_rate": 4.329105848921233e-07,
+      "loss": 0.7925,
+      "step": 1070
+    },
+    {
+      "epoch": 2.3792723263506064,
+      "grad_norm": 0.5366503000259399,
+      "learning_rate": 4.23397305579183e-07,
+      "loss": 0.7786,
+      "step": 1080
+    },
+    {
+      "epoch": 2.4013230429988974,
+      "grad_norm": 0.5527025461196899,
+      "learning_rate": 4.139123419014396e-07,
+      "loss": 0.8109,
+      "step": 1090
+    },
+    {
+      "epoch": 2.4233737596471885,
+      "grad_norm": 0.4577449560165405,
+      "learning_rate": 4.044591999075172e-07,
+      "loss": 0.6928,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4233737596471885,
+      "eval_loss": 0.7777835130691528,
+      "eval_runtime": 31.369,
+      "eval_samples_per_second": 12.337,
+      "eval_steps_per_second": 6.184,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4454244762954795,
+      "grad_norm": 0.5419116616249084,
+      "learning_rate": 3.950413738833831e-07,
+      "loss": 0.9256,
+      "step": 1110
+    },
+    {
+      "epoch": 2.4674751929437706,
+      "grad_norm": 0.6707462072372437,
+      "learning_rate": 3.8566234506071025e-07,
+      "loss": 0.6892,
+      "step": 1120
+    },
+    {
+      "epoch": 2.4895259095920617,
+      "grad_norm": 0.5671144723892212,
+      "learning_rate": 3.763255803300646e-07,
+      "loss": 0.711,
+      "step": 1130
+    },
+    {
+      "epoch": 2.5115766262403527,
+      "grad_norm": 0.45249974727630615,
+      "learning_rate": 3.670345309593954e-07,
+      "loss": 0.8348,
+      "step": 1140
+    },
+    {
+      "epoch": 2.5336273428886438,
+      "grad_norm": 0.42139536142349243,
+      "learning_rate": 3.5779263131829687e-07,
+      "loss": 0.7553,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5336273428886438,
+      "eval_loss": 0.7735557556152344,
+      "eval_runtime": 31.1989,
+      "eval_samples_per_second": 12.404,
+      "eval_steps_per_second": 6.218,
+      "step": 1150
+    },
+    {
+      "epoch": 2.555678059536935,
+      "grad_norm": 0.44612178206443787,
+      "learning_rate": 3.4860329760851946e-07,
+      "loss": 0.7264,
+      "step": 1160
+    },
+    {
+      "epoch": 2.577728776185226,
+      "grad_norm": 0.40486013889312744,
+      "learning_rate": 3.3946992660119466e-07,
+      "loss": 0.6216,
+      "step": 1170
+    },
+    {
+      "epoch": 2.599779492833517,
+      "grad_norm": 0.4542286694049835,
+      "learning_rate": 3.303958943812445e-07,
+      "loss": 0.7504,
+      "step": 1180
+    },
+    {
+      "epoch": 2.621830209481808,
+      "grad_norm": 0.4070703387260437,
+      "learning_rate": 3.213845550994336e-07,
+      "loss": 0.6421,
+      "step": 1190
+    },
+    {
+      "epoch": 2.643880926130099,
+      "grad_norm": 0.6060696840286255,
+      "learning_rate": 3.1243923973253363e-07,
+      "loss": 0.7927,
+      "step": 1200
+    },
+    {
+      "epoch": 2.643880926130099,
+      "eval_loss": 0.770568311214447,
+      "eval_runtime": 31.178,
+      "eval_samples_per_second": 12.413,
+      "eval_steps_per_second": 6.222,
+      "step": 1200
+    },
+    {
+      "epoch": 2.66593164277839,
+      "grad_norm": 0.5011975765228271,
+      "learning_rate": 3.035632548520502e-07,
+      "loss": 0.768,
+      "step": 1210
+    },
+    {
+      "epoch": 2.687982359426681,
+      "grad_norm": 0.49224653840065,
+      "learning_rate": 2.9475988140197396e-07,
+      "loss": 0.7311,
+      "step": 1220
+    },
+    {
+      "epoch": 2.7100330760749722,
+      "grad_norm": 0.3389280140399933,
+      "learning_rate": 2.860323734860016e-07,
+      "loss": 0.7756,
+      "step": 1230
+    },
+    {
+      "epoch": 2.7320837927232633,
+      "grad_norm": 0.49108514189720154,
+      "learning_rate": 2.7738395716468117e-07,
+      "loss": 0.7258,
+      "step": 1240
+    },
+    {
+      "epoch": 2.7541345093715544,
+      "grad_norm": 0.6292597055435181,
+      "learning_rate": 2.6881782926292083e-07,
+      "loss": 0.797,
+      "step": 1250
+    },
+    {
+      "epoch": 2.7541345093715544,
+      "eval_loss": 0.7677077054977417,
+      "eval_runtime": 31.885,
+      "eval_samples_per_second": 12.137,
+      "eval_steps_per_second": 6.084,
+      "step": 1250
+    },
+    {
+      "epoch": 2.7761852260198454,
+      "grad_norm": 0.626222550868988,
+      "learning_rate": 2.6033715618830693e-07,
+      "loss": 0.834,
+      "step": 1260
+    },
+    {
+      "epoch": 2.7982359426681365,
+      "grad_norm": 0.6133826375007629,
+      "learning_rate": 2.51945072760663e-07,
+      "loss": 0.8028,
+      "step": 1270
+    },
+    {
+      "epoch": 2.8202866593164275,
+      "grad_norm": 0.5342646241188049,
+      "learning_rate": 2.4364468105328633e-07,
+      "loss": 0.7708,
+      "step": 1280
+    },
+    {
+      "epoch": 2.8423373759647186,
+      "grad_norm": 0.39017361402511597,
+      "learning_rate": 2.3543904924628961e-07,
+      "loss": 0.6769,
+      "step": 1290
+    },
+    {
+      "epoch": 2.86438809261301,
+      "grad_norm": 0.6175335049629211,
+      "learning_rate": 2.2733121049246912e-07,
+      "loss": 0.7685,
+      "step": 1300
+    },
+    {
+      "epoch": 2.86438809261301,
+      "eval_loss": 0.7651455402374268,
+      "eval_runtime": 32.1286,
+      "eval_samples_per_second": 12.045,
+      "eval_steps_per_second": 6.038,
+      "step": 1300
+    },
+    {
+      "epoch": 2.886438809261301,
+      "grad_norm": 0.6804171204566956,
+      "learning_rate": 2.1932416179612284e-07,
+      "loss": 0.7988,
+      "step": 1310
+    },
+    {
+      "epoch": 2.908489525909592,
+      "grad_norm": 0.4666235148906708,
+      "learning_rate": 2.1142086290522798e-07,
+      "loss": 0.7256,
+      "step": 1320
+    },
+    {
+      "epoch": 2.9305402425578833,
+      "grad_norm": 0.4415511190891266,
+      "learning_rate": 2.036242352173928e-07,
+      "loss": 0.8247,
+      "step": 1330
+    },
+    {
+      "epoch": 2.9525909592061743,
+      "grad_norm": 0.7598405480384827,
+      "learning_rate": 1.959371606999823e-07,
+      "loss": 0.7665,
+      "step": 1340
+    },
+    {
+      "epoch": 2.9746416758544654,
+      "grad_norm": 0.8235193490982056,
+      "learning_rate": 1.8836248082481932e-07,
+      "loss": 0.7006,
+      "step": 1350
+    },
+    {
+      "epoch": 2.9746416758544654,
+      "eval_loss": 0.7628360986709595,
+      "eval_runtime": 31.6956,
+      "eval_samples_per_second": 12.21,
+      "eval_steps_per_second": 6.121,
+      "step": 1350
+    },
+    {
+      "epoch": 2.9966923925027564,
+      "grad_norm": 0.47277387976646423,
+      "learning_rate": 1.8090299551785543e-07,
+      "loss": 0.7231,
+      "step": 1360
+    },
+    {
+      "epoch": 3.0176405733186327,
+      "grad_norm": 0.46243688464164734,
+      "learning_rate": 1.7356146212419865e-07,
+      "loss": 0.7582,
+      "step": 1370
+    },
+    {
+      "epoch": 3.0396912899669237,
+      "grad_norm": 0.5353012084960938,
+      "learning_rate": 1.6634059438888032e-07,
+      "loss": 0.6686,
+      "step": 1380
+    },
+    {
+      "epoch": 3.061742006615215,
+      "grad_norm": 0.5801079869270325,
+      "learning_rate": 1.5924306145373845e-07,
+      "loss": 0.7798,
+      "step": 1390
+    },
+    {
+      "epoch": 3.083792723263506,
+      "grad_norm": 0.49165478348731995,
+      "learning_rate": 1.5227148687078943e-07,
+      "loss": 0.7124,
+      "step": 1400
+    },
+    {
+      "epoch": 3.083792723263506,
+      "eval_loss": 0.761391818523407,
+      "eval_runtime": 32.2827,
+      "eval_samples_per_second": 11.988,
+      "eval_steps_per_second": 6.009,
+      "step": 1400
+    },
+    {
+      "epoch": 3.1058434399117973,
+      "grad_norm": 0.5716243982315063,
+      "learning_rate": 1.4542844763245e-07,
+      "loss": 0.7299,
+      "step": 1410
+    },
+    {
+      "epoch": 3.1278941565600884,
+      "grad_norm": 0.43414145708084106,
+      "learning_rate": 1.3871647321897134e-07,
+      "loss": 0.8703,
+      "step": 1420
+    },
+    {
+      "epoch": 3.1499448732083795,
+      "grad_norm": 0.4742828905582428,
+      "learning_rate": 1.321380446634342e-07,
+      "loss": 0.7103,
+      "step": 1430
+    },
+    {
+      "epoch": 3.1719955898566705,
+      "grad_norm": 0.4828404188156128,
+      "learning_rate": 1.2569559363465349e-07,
+      "loss": 0.7584,
+      "step": 1440
+    },
+    {
+      "epoch": 3.1940463065049616,
+      "grad_norm": 0.5527871251106262,
+      "learning_rate": 1.1939150153832878e-07,
+      "loss": 0.6797,
+      "step": 1450
+    },
+    {
+      "epoch": 3.1940463065049616,
+      "eval_loss": 0.7600497603416443,
+      "eval_runtime": 31.6186,
+      "eval_samples_per_second": 12.24,
+      "eval_steps_per_second": 6.136,
+      "step": 1450
+    },
+    {
+      "epoch": 3.2160970231532526,
+      "grad_norm": 0.6190243363380432,
+      "learning_rate": 1.132280986367754e-07,
+      "loss": 0.8045,
+      "step": 1460
+    },
+    {
+      "epoch": 3.2381477398015437,
+      "grad_norm": 0.4672952890396118,
+      "learning_rate": 1.0720766318755897e-07,
+      "loss": 0.6964,
+      "step": 1470
+    },
+    {
+      "epoch": 3.2601984564498347,
+      "grad_norm": 0.5040985345840454,
+      "learning_rate": 1.01332420601355e-07,
+      "loss": 0.6955,
+      "step": 1480
+    },
+    {
+      "epoch": 3.282249173098126,
+      "grad_norm": 0.4153273403644562,
+      "learning_rate": 9.560454261934048e-08,
+      "loss": 0.684,
+      "step": 1490
+    },
+    {
+      "epoch": 3.304299889746417,
+      "grad_norm": 0.6224635243415833,
+      "learning_rate": 9.00261465104264e-08,
+      "loss": 0.8161,
+      "step": 1500
+    },
+    {
+      "epoch": 3.304299889746417,
+      "eval_loss": 0.7590056657791138,
+      "eval_runtime": 31.0884,
+      "eval_samples_per_second": 12.448,
+      "eval_steps_per_second": 6.24,
+      "step": 1500
+    },
+    {
+      "epoch": 3.326350606394708,
+      "grad_norm": 0.49411261081695557,
+      "learning_rate": 8.45992942886244e-08,
+      "loss": 0.7435,
+      "step": 1510
+    },
+    {
+      "epoch": 3.348401323042999,
+      "grad_norm": 0.5820800065994263,
+      "learning_rate": 7.932599195083744e-08,
+      "loss": 0.6804,
+      "step": 1520
+    },
+    {
+      "epoch": 3.37045203969129,
+      "grad_norm": 0.4719645380973816,
+      "learning_rate": 7.4208188735358e-08,
+      "loss": 0.6657,
+      "step": 1530
+    },
+    {
+      "epoch": 3.392502756339581,
+      "grad_norm": 0.48559075593948364,
+      "learning_rate": 6.924777640134627e-08,
+      "loss": 0.7233,
+      "step": 1540
+    },
+    {
+      "epoch": 3.414553472987872,
+      "grad_norm": 0.4606567621231079,
+      "learning_rate": 6.444658852955492e-08,
+      "loss": 0.786,
+      "step": 1550
+    },
+    {
+      "epoch": 3.414553472987872,
+      "eval_loss": 0.7584723830223083,
+      "eval_runtime": 31.5971,
+      "eval_samples_per_second": 12.248,
+      "eval_steps_per_second": 6.14,
+      "step": 1550
+    },
+    {
+      "epoch": 3.436604189636163,
+      "grad_norm": 0.6529830098152161,
+      "learning_rate": 5.98063998445587e-08,
+      "loss": 0.7732,
+      "step": 1560
+    },
+    {
+      "epoch": 3.4586549062844543,
+      "grad_norm": 0.538375973701477,
+      "learning_rate": 5.532892555874058e-08,
+      "loss": 0.7632,
+      "step": 1570
+    },
+    {
+      "epoch": 3.4807056229327453,
+      "grad_norm": 0.5255725383758545,
+      "learning_rate": 5.1015820738276095e-08,
+      "loss": 0.7578,
+      "step": 1580
+    },
+    {
+      "epoch": 3.5027563395810364,
+      "grad_norm": 0.44121870398521423,
+      "learning_rate": 4.6868679691349775e-08,
+      "loss": 0.61,
+      "step": 1590
+    },
+    {
+      "epoch": 3.5248070562293274,
+      "grad_norm": 0.6190388798713684,
+      "learning_rate": 4.288903537883021e-08,
+      "loss": 0.7699,
+      "step": 1600
+    },
+    {
+      "epoch": 3.5248070562293274,
+      "eval_loss": 0.7578777074813843,
+      "eval_runtime": 30.8062,
+      "eval_samples_per_second": 12.562,
+      "eval_steps_per_second": 6.297,
+      "step": 1600
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1816,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.874293166149386e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff