cryptom commited on Apr 3, 2023

Commit

c908b27

1 Parent(s): 8637c1a

Upload alpaca-lora-based-origin-llama7b with huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

alpaca-lora-based-origin-llama7b/finetune.py +164 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/adapter_config.json +18 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/adapter_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/rng_state_0.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/rng_state_1.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/scaler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/scheduler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/trainer_state.json +4164 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/training_args.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/rng_state_0.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/rng_state_1.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/scaler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/scheduler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/trainer_state.json +4232 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/training_args.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/rng_state_0.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/rng_state_1.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/scaler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/scheduler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/trainer_state.json +4300 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/training_args.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-35-50_autodl-container-a629119d3c-e4df2c26/1679643354.1908646/events.out.tfevents.1679643354.autodl-container-a629119d3c-e4df2c26.49450.1 +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-35-50_autodl-container-a629119d3c-e4df2c26/events.out.tfevents.1679643354.autodl-container-a629119d3c-e4df2c26.49450.0 +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-45-35_autodl-container-a629119d3c-e4df2c26/1679643935.915997/events.out.tfevents.1679643935.autodl-container-a629119d3c-e4df2c26.51017.1 +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-45-35_autodl-container-a629119d3c-e4df2c26/events.out.tfevents.1679643935.autodl-container-a629119d3c-e4df2c26.51017.0 +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/adapter_config.json +18 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/adapter_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/rng_state.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/scaler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/scheduler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/trainer_state.json +0 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/training_args.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/rng_state.pth +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/scaler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/scheduler.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/trainer_state.json +0 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/training_args.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/optimizer.pt +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/pytorch_model.bin +3 -0
alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/rng_state.pth +3 -0

alpaca-lora-based-origin-llama7b/finetune.py ADDED Viewed

	@@ -0,0 +1,164 @@

+import os
+import sys
+import torch
+import torch.nn as nn
+import bitsandbytes as bnb
+from datasets import load_dataset
+import transformers
+from peft import PeftModel
+import wandb
+assert (
+    "LlamaTokenizer" in transformers._import_structure["models.llama"]
+), "LLaMA is now in HuggingFace's main branch.\nPlease reinstall it: pip uninstall transformers && pip install git+https://github.com/huggingface/transformers.git"
+from transformers import LlamaForCausalLM, LlamaTokenizer
+from peft import (
+    prepare_model_for_int8_training,
+    LoraConfig,
+    get_peft_model,
+    get_peft_model_state_dict,
+)
+# optimized for RTX 4090. for larger GPUs, increase some of these?
+MICRO_BATCH_SIZE = 64  # this could actually be 5 but i like powers of 2
+BATCH_SIZE = 128
+GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
+EPOCHS = 2  # we don't always need 3 tbh
+LEARNING_RATE = 3e-4  # the Karpathy constant
+CUTOFF_LEN = 256  # 256 accounts for about 96% of the data
+LORA_R = 8
+LORA_ALPHA = 16
+LORA_DROPOUT = 0.05
+VAL_SET_SIZE = 2000
+TARGET_MODULES = [
+    "q_proj",
+    "v_proj",
+]
+DATA_PATH = "alpaca_data.json"
+DATA_PATH = "belle_open_source_1M.train.json"
+OUTPUT_DIR = "lora-alpaca"
+device_map = "auto"
+world_size = int(os.environ.get("WORLD_SIZE", 1))
+ddp = world_size != 1
+if ddp:
+    device_map = {"": int(os.environ.get("LOCAL_RANK") or 0)}
+    GRADIENT_ACCUMULATION_STEPS = GRADIENT_ACCUMULATION_STEPS // world_size
+model = LlamaForCausalLM.from_pretrained(
+    "/ndk/ai-repos/train-llama/models/7b_hf",
+    load_in_8bit=True,
+    device_map=device_map,
+)
+tokenizer = LlamaTokenizer.from_pretrained(
+    "/ndk/ai-repos/train-llama/models/7b_hf", add_eos_token=True
+)
+model = prepare_model_for_int8_training(model)
+config = LoraConfig(
+    r=LORA_R,
+    lora_alpha=LORA_ALPHA,
+    target_modules=TARGET_MODULES,
+    lora_dropout=LORA_DROPOUT,
+    bias="none",
+    task_type="CAUSAL_LM",
+)
+#model = get_peft_model(model, config)
+model = PeftModel.from_pretrained (
+    model,
+    "./lora-alpaca-cn-remote",
+    torch_dtype=torch.float16,
+)
+tokenizer.pad_token_id = 0  # unk. we want this to be different from the eos token
+data = load_dataset("json", data_files=DATA_PATH)
+def generate_prompt(data_point):
+    # sorry about the formatting disaster gotta move fast
+    return f"""以下是描述任务的说明。 编写适当地完成请求的响应。
+### 输入:
+{data_point["input"]}
+### 输出:
+{data_point["target"]}"""
+def tokenize(prompt):
+    # there's probably a way to do this with the tokenizer settings
+    # but again, gotta move fast
+    result = tokenizer(
+        prompt,
+        truncation=True,
+        max_length=CUTOFF_LEN + 1,
+        padding="max_length",
+    )
+    return {
+        "input_ids": result["input_ids"][:-1],
+        "attention_mask": result["attention_mask"][:-1],
+    }
+def generate_and_tokenize_prompt(data_point):
+    prompt = generate_prompt(data_point)
+    return tokenize(prompt)
+if VAL_SET_SIZE > 0:
+    train_val = data["train"].train_test_split(
+        test_size=VAL_SET_SIZE, shuffle=True, seed=42
+    )
+    train_data = train_val["train"].shuffle().map(generate_and_tokenize_prompt)
+    val_data = train_val["test"].shuffle().map(generate_and_tokenize_prompt)
+else:
+    train_data = data["train"].shuffle().map(generate_and_tokenize_prompt)
+    val_data = None
+wandb.init(project="llama-lora")
+trainer = transformers.Trainer(
+    model=model,
+    train_dataset=train_data,
+    eval_dataset=val_data,
+    args=transformers.TrainingArguments(
+        per_device_train_batch_size=MICRO_BATCH_SIZE,
+        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
+        warmup_steps=100,
+        num_train_epochs=EPOCHS,
+        learning_rate=LEARNING_RATE,
+        fp16=True,
+        logging_steps=20,
+        evaluation_strategy="steps" if VAL_SET_SIZE > 0 else "no",
+        save_strategy="steps",
+        eval_steps=200 if VAL_SET_SIZE > 0 else None,
+        save_steps=200,
+        output_dir=OUTPUT_DIR,
+        save_total_limit=3,
+        load_best_model_at_end=True if VAL_SET_SIZE > 0 else False,
+        ddp_find_unused_parameters=False if ddp else None,
+    ),
+    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
+)
+model.config.use_cache = False
+old_state_dict = model.state_dict
+model.state_dict = (
+    lambda self, *_, **__: get_peft_model_state_dict(self, old_state_dict())
+).__get__(model, type(model))
+if torch.__version__ >= "2" and sys.platform != "win32":
+    model = torch.compile(model)
+trainer.train()
+model.save_pretrained(OUTPUT_DIR)
+print("\n If there's a warning about missing keys above, please disregard :)")

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "base_model_name_or_path": "/root/autodl-tmp/llama_hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2948f6764ef3ff5e051d05bbb765f7104f8add4f66f9bd68bc14c3a100b6478d
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d129add58d64413cc002d22d05022822a46a7898208682a5f2510de08324fcb
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f0f5cec0e1f2454b1f8855ee479675477cb79999a84192db56aa3a57a1cb468
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:208b8872c6017de913817448486f5d4838856d2ab3b06abdd852908b8a981947
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d06cca3f3250b22a4e1c303e21fb8d0c7c535b0e993559911d99dcdb93c41c3
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9611887fb095d16dea29537243a8f5ead09cf63a435218000ff5a105864011d6
+size 557

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66a6506cbaa6f775027714b991992b3b6d3e97768b6aaa19b631f657d42b353b
+size 627

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,4164 @@

+{
+  "best_metric": 0.6372544765472412,
+  "best_model_checkpoint": "lora-alpaca-cn/checkpoint-12200",
+  "epoch": 2.884160756501182,
+  "global_step": 12200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.7735,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.1358,
+      "step": 40
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.9749,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.9316,
+      "step": 80
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0003,
+      "loss": 0.9072,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002995234312946783,
+      "loss": 0.8963,
+      "step": 120
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002990468625893566,
+      "loss": 0.8853,
+      "step": 140
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002985702938840349,
+      "loss": 0.8709,
+      "step": 160
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029809372517871323,
+      "loss": 0.8555,
+      "step": 180
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029761715647339156,
+      "loss": 0.8584,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.8360834717750549,
+      "eval_runtime": 49.29,
+      "eval_samples_per_second": 40.576,
+      "eval_steps_per_second": 2.536,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002971405877680699,
+      "loss": 0.859,
+      "step": 220
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029666401906274816,
+      "loss": 0.8511,
+      "step": 240
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002961874503574265,
+      "loss": 0.8401,
+      "step": 260
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002957108816521048,
+      "loss": 0.8357,
+      "step": 280
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029523431294678314,
+      "loss": 0.8413,
+      "step": 300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00029475774424146147,
+      "loss": 0.8283,
+      "step": 320
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002942811755361398,
+      "loss": 0.8202,
+      "step": 340
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029380460683081807,
+      "loss": 0.8222,
+      "step": 360
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002933280381254964,
+      "loss": 0.8178,
+      "step": 380
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002928514694201747,
+      "loss": 0.8177,
+      "step": 400
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.7966175079345703,
+      "eval_runtime": 49.1752,
+      "eval_samples_per_second": 40.671,
+      "eval_steps_per_second": 2.542,
+      "step": 400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029237490071485305,
+      "loss": 0.8057,
+      "step": 420
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002918983320095314,
+      "loss": 0.811,
+      "step": 440
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00029142176330420965,
+      "loss": 0.8056,
+      "step": 460
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.000290945194598888,
+      "loss": 0.7993,
+      "step": 480
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002904686258935663,
+      "loss": 0.7982,
+      "step": 500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002899920571882446,
+      "loss": 0.8023,
+      "step": 520
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028951548848292296,
+      "loss": 0.7968,
+      "step": 540
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028903891977760123,
+      "loss": 0.8029,
+      "step": 560
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00028856235107227956,
+      "loss": 0.7892,
+      "step": 580
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002880857823669579,
+      "loss": 0.7946,
+      "step": 600
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.7735009789466858,
+      "eval_runtime": 49.3305,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00028760921366163616,
+      "loss": 0.782,
+      "step": 620
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002871326449563145,
+      "loss": 0.7799,
+      "step": 640
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002866560762509928,
+      "loss": 0.7782,
+      "step": 660
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00028617950754567114,
+      "loss": 0.7785,
+      "step": 680
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028570293884034947,
+      "loss": 0.785,
+      "step": 700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002852263701350278,
+      "loss": 0.7754,
+      "step": 720
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028474980142970607,
+      "loss": 0.7804,
+      "step": 740
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002842732327243844,
+      "loss": 0.7696,
+      "step": 760
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002837966640190627,
+      "loss": 0.7692,
+      "step": 780
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00028332009531374105,
+      "loss": 0.7752,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7564254403114319,
+      "eval_runtime": 49.106,
+      "eval_samples_per_second": 40.728,
+      "eval_steps_per_second": 2.546,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002828435266084194,
+      "loss": 0.7698,
+      "step": 820
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00028236695790309765,
+      "loss": 0.7699,
+      "step": 840
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000281890389197776,
+      "loss": 0.7718,
+      "step": 860
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002814138204924543,
+      "loss": 0.7644,
+      "step": 880
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00028093725178713263,
+      "loss": 0.7659,
+      "step": 900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028046068308181096,
+      "loss": 0.7641,
+      "step": 920
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00027998411437648923,
+      "loss": 0.7535,
+      "step": 940
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00027950754567116756,
+      "loss": 0.7672,
+      "step": 960
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002790309769658459,
+      "loss": 0.7563,
+      "step": 980
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002785544082605242,
+      "loss": 0.752,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.7433652281761169,
+      "eval_runtime": 48.9945,
+      "eval_samples_per_second": 40.821,
+      "eval_steps_per_second": 2.551,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00027807783955520254,
+      "loss": 0.755,
+      "step": 1020
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027760127084988087,
+      "loss": 0.7563,
+      "step": 1040
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027712470214455914,
+      "loss": 0.7475,
+      "step": 1060
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027664813343923747,
+      "loss": 0.7599,
+      "step": 1080
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002761715647339158,
+      "loss": 0.7533,
+      "step": 1100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027569499602859407,
+      "loss": 0.7488,
+      "step": 1120
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00027521842732327245,
+      "loss": 0.753,
+      "step": 1140
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002747418586179507,
+      "loss": 0.7435,
+      "step": 1160
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00027426528991262905,
+      "loss": 0.7457,
+      "step": 1180
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002737887212073074,
+      "loss": 0.742,
+      "step": 1200
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.7321739792823792,
+      "eval_runtime": 48.8876,
+      "eval_samples_per_second": 40.91,
+      "eval_steps_per_second": 2.557,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00027331215250198565,
+      "loss": 0.7474,
+      "step": 1220
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000272835583796664,
+      "loss": 0.7456,
+      "step": 1240
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002723590150913423,
+      "loss": 0.7406,
+      "step": 1260
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00027188244638602063,
+      "loss": 0.7448,
+      "step": 1280
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027140587768069896,
+      "loss": 0.7445,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027092930897537723,
+      "loss": 0.7349,
+      "step": 1320
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00027045274027005556,
+      "loss": 0.7395,
+      "step": 1340
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002699761715647339,
+      "loss": 0.7382,
+      "step": 1360
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002694996028594122,
+      "loss": 0.7357,
+      "step": 1380
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00026902303415409054,
+      "loss": 0.7409,
+      "step": 1400
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.7235888242721558,
+      "eval_runtime": 49.2145,
+      "eval_samples_per_second": 40.638,
+      "eval_steps_per_second": 2.54,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026854646544876887,
+      "loss": 0.7376,
+      "step": 1420
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026806989674344714,
+      "loss": 0.7298,
+      "step": 1440
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00026759332803812547,
+      "loss": 0.7379,
+      "step": 1460
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002671167593328038,
+      "loss": 0.7354,
+      "step": 1480
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002666401906274821,
+      "loss": 0.7341,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00026616362192216045,
+      "loss": 0.7352,
+      "step": 1520
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002656870532168387,
+      "loss": 0.7321,
+      "step": 1540
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00026521048451151705,
+      "loss": 0.7285,
+      "step": 1560
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002647339158061954,
+      "loss": 0.73,
+      "step": 1580
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026425734710087365,
+      "loss": 0.7304,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.716058611869812,
+      "eval_runtime": 48.9201,
+      "eval_samples_per_second": 40.883,
+      "eval_steps_per_second": 2.555,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026378077839555203,
+      "loss": 0.7314,
+      "step": 1620
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002633042096902303,
+      "loss": 0.7315,
+      "step": 1640
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00026282764098490863,
+      "loss": 0.7239,
+      "step": 1660
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026235107227958696,
+      "loss": 0.73,
+      "step": 1680
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026187450357426523,
+      "loss": 0.7243,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00026139793486894356,
+      "loss": 0.7199,
+      "step": 1720
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002609213661636219,
+      "loss": 0.7216,
+      "step": 1740
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002604447974583002,
+      "loss": 0.7358,
+      "step": 1760
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00025996822875297854,
+      "loss": 0.7313,
+      "step": 1780
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025949166004765687,
+      "loss": 0.7236,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.7097632884979248,
+      "eval_runtime": 49.4908,
+      "eval_samples_per_second": 40.412,
+      "eval_steps_per_second": 2.526,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025901509134233514,
+      "loss": 0.7282,
+      "step": 1820
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025853852263701347,
+      "loss": 0.7187,
+      "step": 1840
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002580619539316918,
+      "loss": 0.7303,
+      "step": 1860
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002575853852263701,
+      "loss": 0.724,
+      "step": 1880
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00025710881652104845,
+      "loss": 0.7248,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002566322478157267,
+      "loss": 0.7195,
+      "step": 1920
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00025615567911040505,
+      "loss": 0.7269,
+      "step": 1940
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002556791104050834,
+      "loss": 0.7209,
+      "step": 1960
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002552025416997617,
+      "loss": 0.7282,
+      "step": 1980
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00025472597299444003,
+      "loss": 0.7195,
+      "step": 2000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.7037709355354309,
+      "eval_runtime": 49.7167,
+      "eval_samples_per_second": 40.228,
+      "eval_steps_per_second": 2.514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002542494042891183,
+      "loss": 0.7229,
+      "step": 2020
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00025377283558379664,
+      "loss": 0.718,
+      "step": 2040
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025329626687847496,
+      "loss": 0.7223,
+      "step": 2060
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025281969817315324,
+      "loss": 0.7209,
+      "step": 2080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002523431294678316,
+      "loss": 0.7151,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002518665607625099,
+      "loss": 0.7141,
+      "step": 2120
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002513899920571882,
+      "loss": 0.7084,
+      "step": 2140
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00025091342335186654,
+      "loss": 0.7075,
+      "step": 2160
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00025043685464654487,
+      "loss": 0.7133,
+      "step": 2180
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024996028594122314,
+      "loss": 0.7092,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.6989386677742004,
+      "eval_runtime": 49.2344,
+      "eval_samples_per_second": 40.622,
+      "eval_steps_per_second": 2.539,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002494837172359015,
+      "loss": 0.7178,
+      "step": 2220
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002490071485305798,
+      "loss": 0.7188,
+      "step": 2240
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002485305798252581,
+      "loss": 0.7161,
+      "step": 2260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00024805401111993645,
+      "loss": 0.7078,
+      "step": 2280
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002475774424146147,
+      "loss": 0.7,
+      "step": 2300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00024710087370929305,
+      "loss": 0.718,
+      "step": 2320
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002466243050039714,
+      "loss": 0.7059,
+      "step": 2340
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002461477362986497,
+      "loss": 0.712,
+      "step": 2360
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00024567116759332804,
+      "loss": 0.7116,
+      "step": 2380
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002451945988880063,
+      "loss": 0.6986,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.6939737796783447,
+      "eval_runtime": 49.459,
+      "eval_samples_per_second": 40.438,
+      "eval_steps_per_second": 2.527,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024471803018268464,
+      "loss": 0.7168,
+      "step": 2420
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024424146147736296,
+      "loss": 0.7141,
+      "step": 2440
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024376489277204126,
+      "loss": 0.7095,
+      "step": 2460
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024328832406671962,
+      "loss": 0.7091,
+      "step": 2480
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024281175536139792,
+      "loss": 0.7015,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024233518665607622,
+      "loss": 0.7109,
+      "step": 2520
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024185861795075455,
+      "loss": 0.7086,
+      "step": 2540
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024138204924543285,
+      "loss": 0.7118,
+      "step": 2560
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024090548054011117,
+      "loss": 0.7033,
+      "step": 2580
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002404289118347895,
+      "loss": 0.7128,
+      "step": 2600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.6901652812957764,
+      "eval_runtime": 49.5038,
+      "eval_samples_per_second": 40.401,
+      "eval_steps_per_second": 2.525,
+      "step": 2600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023995234312946783,
+      "loss": 0.6968,
+      "step": 2620
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023947577442414613,
+      "loss": 0.7109,
+      "step": 2640
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023899920571882443,
+      "loss": 0.7048,
+      "step": 2660
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023852263701350276,
+      "loss": 0.7012,
+      "step": 2680
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00023804606830818106,
+      "loss": 0.7065,
+      "step": 2700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002375694996028594,
+      "loss": 0.7009,
+      "step": 2720
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002370929308975377,
+      "loss": 0.7035,
+      "step": 2740
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00023661636219221604,
+      "loss": 0.6973,
+      "step": 2760
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023613979348689434,
+      "loss": 0.7075,
+      "step": 2780
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023566322478157264,
+      "loss": 0.6952,
+      "step": 2800
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.6865400671958923,
+      "eval_runtime": 49.2814,
+      "eval_samples_per_second": 40.583,
+      "eval_steps_per_second": 2.536,
+      "step": 2800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00023518665607625097,
+      "loss": 0.6979,
+      "step": 2820
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002347100873709293,
+      "loss": 0.6973,
+      "step": 2840
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023423351866560762,
+      "loss": 0.7033,
+      "step": 2860
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023375694996028592,
+      "loss": 0.6964,
+      "step": 2880
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023328038125496422,
+      "loss": 0.7052,
+      "step": 2900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023280381254964255,
+      "loss": 0.6999,
+      "step": 2920
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00023232724384432085,
+      "loss": 0.6963,
+      "step": 2940
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002318506751389992,
+      "loss": 0.7025,
+      "step": 2960
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002313741064336775,
+      "loss": 0.704,
+      "step": 2980
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023089753772835583,
+      "loss": 0.6926,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.6828380227088928,
+      "eval_runtime": 49.5667,
+      "eval_samples_per_second": 40.35,
+      "eval_steps_per_second": 2.522,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023042096902303413,
+      "loss": 0.698,
+      "step": 3020
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022994440031771243,
+      "loss": 0.6893,
+      "step": 3040
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022946783161239076,
+      "loss": 0.6938,
+      "step": 3060
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00022899126290706908,
+      "loss": 0.6974,
+      "step": 3080
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002285146942017474,
+      "loss": 0.6922,
+      "step": 3100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002280381254964257,
+      "loss": 0.7073,
+      "step": 3120
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00022756155679110404,
+      "loss": 0.6895,
+      "step": 3140
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022708498808578234,
+      "loss": 0.7012,
+      "step": 3160
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022660841938046064,
+      "loss": 0.6985,
+      "step": 3180
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.000226131850675139,
+      "loss": 0.6901,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.6807068586349487,
+      "eval_runtime": 49.2421,
+      "eval_samples_per_second": 40.616,
+      "eval_steps_per_second": 2.538,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002256552819698173,
+      "loss": 0.697,
+      "step": 3220
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022517871326449562,
+      "loss": 0.7002,
+      "step": 3240
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022470214455917392,
+      "loss": 0.6918,
+      "step": 3260
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022422557585385225,
+      "loss": 0.6999,
+      "step": 3280
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022374900714853055,
+      "loss": 0.6961,
+      "step": 3300
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002232724384432089,
+      "loss": 0.6888,
+      "step": 3320
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002227958697378872,
+      "loss": 0.695,
+      "step": 3340
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002223193010325655,
+      "loss": 0.6861,
+      "step": 3360
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022184273232724383,
+      "loss": 0.6864,
+      "step": 3380
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022136616362192213,
+      "loss": 0.6917,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.6773961782455444,
+      "eval_runtime": 49.3961,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 3400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022088959491660043,
+      "loss": 0.679,
+      "step": 3420
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022041302621127879,
+      "loss": 0.6915,
+      "step": 3440
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00021993645750595709,
+      "loss": 0.6937,
+      "step": 3460
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002194598888006354,
+      "loss": 0.6831,
+      "step": 3480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002189833200953137,
+      "loss": 0.6875,
+      "step": 3500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00021850675138999204,
+      "loss": 0.6916,
+      "step": 3520
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00021803018268467034,
+      "loss": 0.6896,
+      "step": 3540
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002175536139793487,
+      "loss": 0.6986,
+      "step": 3560
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000217077045274027,
+      "loss": 0.693,
+      "step": 3580
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002166004765687053,
+      "loss": 0.6893,
+      "step": 3600
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.6753410696983337,
+      "eval_runtime": 49.3307,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 3600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021612390786338362,
+      "loss": 0.6872,
+      "step": 3620
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021564733915806192,
+      "loss": 0.6862,
+      "step": 3640
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021517077045274025,
+      "loss": 0.6943,
+      "step": 3660
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021469420174741858,
+      "loss": 0.6896,
+      "step": 3680
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002142176330420969,
+      "loss": 0.6912,
+      "step": 3700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002137410643367752,
+      "loss": 0.6859,
+      "step": 3720
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002132644956314535,
+      "loss": 0.6791,
+      "step": 3740
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021278792692613183,
+      "loss": 0.6882,
+      "step": 3760
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021231135822081013,
+      "loss": 0.6823,
+      "step": 3780
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002118347895154885,
+      "loss": 0.6831,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.6738302707672119,
+      "eval_runtime": 49.4648,
+      "eval_samples_per_second": 40.433,
+      "eval_steps_per_second": 2.527,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002113582208101668,
+      "loss": 0.6818,
+      "step": 3820
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002108816521048451,
+      "loss": 0.6912,
+      "step": 3840
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00021040508339952341,
+      "loss": 0.6884,
+      "step": 3860
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020992851469420171,
+      "loss": 0.6888,
+      "step": 3880
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020945194598888004,
+      "loss": 0.6822,
+      "step": 3900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00020897537728355837,
+      "loss": 0.6879,
+      "step": 3920
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002084988085782367,
+      "loss": 0.6771,
+      "step": 3940
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000208022239872915,
+      "loss": 0.684,
+      "step": 3960
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002075456711675933,
+      "loss": 0.6878,
+      "step": 3980
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020706910246227162,
+      "loss": 0.6913,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.6711302995681763,
+      "eval_runtime": 49.117,
+      "eval_samples_per_second": 40.719,
+      "eval_steps_per_second": 2.545,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020659253375694992,
+      "loss": 0.683,
+      "step": 4020
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020611596505162828,
+      "loss": 0.6833,
+      "step": 4040
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020563939634630658,
+      "loss": 0.6793,
+      "step": 4060
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002051628276409849,
+      "loss": 0.6843,
+      "step": 4080
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002046862589356632,
+      "loss": 0.6822,
+      "step": 4100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002042096902303415,
+      "loss": 0.6856,
+      "step": 4120
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020373312152501983,
+      "loss": 0.6809,
+      "step": 4140
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020325655281969816,
+      "loss": 0.6843,
+      "step": 4160
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002027799841143765,
+      "loss": 0.6754,
+      "step": 4180
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002023034154090548,
+      "loss": 0.6823,
+      "step": 4200
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.6697036027908325,
+      "eval_runtime": 49.3237,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 4200
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020182684670373312,
+      "loss": 0.6861,
+      "step": 4220
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020135027799841142,
+      "loss": 0.6806,
+      "step": 4240
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020087370929308972,
+      "loss": 0.6823,
+      "step": 4260
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020039714058776807,
+      "loss": 0.6805,
+      "step": 4280
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00019992057188244637,
+      "loss": 0.6813,
+      "step": 4300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001994440031771247,
+      "loss": 0.675,
+      "step": 4320
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.000198967434471803,
+      "loss": 0.6728,
+      "step": 4340
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001984908657664813,
+      "loss": 0.6676,
+      "step": 4360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019801429706115963,
+      "loss": 0.6729,
+      "step": 4380
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019753772835583795,
+      "loss": 0.685,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.6667952537536621,
+      "eval_runtime": 49.3899,
+      "eval_samples_per_second": 40.494,
+      "eval_steps_per_second": 2.531,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019706115965051628,
+      "loss": 0.6786,
+      "step": 4420
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00019658459094519458,
+      "loss": 0.6738,
+      "step": 4440
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0001961080222398729,
+      "loss": 0.686,
+      "step": 4460
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001956314535345512,
+      "loss": 0.6818,
+      "step": 4480
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001951548848292295,
+      "loss": 0.6741,
+      "step": 4500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019467831612390786,
+      "loss": 0.6756,
+      "step": 4520
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019420174741858616,
+      "loss": 0.6851,
+      "step": 4540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001937251787132645,
+      "loss": 0.6784,
+      "step": 4560
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001932486100079428,
+      "loss": 0.6785,
+      "step": 4580
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019277204130262112,
+      "loss": 0.678,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.6655837297439575,
+      "eval_runtime": 49.5019,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019229547259729942,
+      "loss": 0.6782,
+      "step": 4620
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019181890389197777,
+      "loss": 0.6683,
+      "step": 4640
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019134233518665607,
+      "loss": 0.6783,
+      "step": 4660
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00019086576648133437,
+      "loss": 0.675,
+      "step": 4680
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001903891977760127,
+      "loss": 0.6691,
+      "step": 4700
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.000189912629070691,
+      "loss": 0.6726,
+      "step": 4720
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018943606036536933,
+      "loss": 0.68,
+      "step": 4740
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018895949166004763,
+      "loss": 0.6694,
+      "step": 4760
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018848292295472598,
+      "loss": 0.6686,
+      "step": 4780
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018800635424940428,
+      "loss": 0.6766,
+      "step": 4800
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.6646501421928406,
+      "eval_runtime": 49.3188,
+      "eval_samples_per_second": 40.552,
+      "eval_steps_per_second": 2.535,
+      "step": 4800
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00018752978554408258,
+      "loss": 0.6724,
+      "step": 4820
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001870532168387609,
+      "loss": 0.6801,
+      "step": 4840
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001865766481334392,
+      "loss": 0.6698,
+      "step": 4860
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001861000794281175,
+      "loss": 0.6723,
+      "step": 4880
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018562351072279586,
+      "loss": 0.6693,
+      "step": 4900
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018514694201747416,
+      "loss": 0.6716,
+      "step": 4920
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001846703733121525,
+      "loss": 0.674,
+      "step": 4940
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001841938046068308,
+      "loss": 0.6702,
+      "step": 4960
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018371723590150912,
+      "loss": 0.6716,
+      "step": 4980
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018324066719618742,
+      "loss": 0.672,
+      "step": 5000
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.662735104560852,
+      "eval_runtime": 49.275,
+      "eval_samples_per_second": 40.589,
+      "eval_steps_per_second": 2.537,
+      "step": 5000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018276409849086577,
+      "loss": 0.6701,
+      "step": 5020
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018228752978554407,
+      "loss": 0.6663,
+      "step": 5040
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00018181096108022237,
+      "loss": 0.6651,
+      "step": 5060
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001813343923749007,
+      "loss": 0.6708,
+      "step": 5080
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000180857823669579,
+      "loss": 0.6697,
+      "step": 5100
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018038125496425733,
+      "loss": 0.662,
+      "step": 5120
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017990468625893566,
+      "loss": 0.669,
+      "step": 5140
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017942811755361398,
+      "loss": 0.6649,
+      "step": 5160
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017895154884829228,
+      "loss": 0.668,
+      "step": 5180
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00017847498014297058,
+      "loss": 0.6796,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.6609957218170166,
+      "eval_runtime": 49.2394,
+      "eval_samples_per_second": 40.618,
+      "eval_steps_per_second": 2.539,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001779984114376489,
+      "loss": 0.6745,
+      "step": 5220
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001775218427323272,
+      "loss": 0.6646,
+      "step": 5240
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00017704527402700556,
+      "loss": 0.6682,
+      "step": 5260
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017656870532168386,
+      "loss": 0.6713,
+      "step": 5280
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017609213661636216,
+      "loss": 0.6618,
+      "step": 5300
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001756155679110405,
+      "loss": 0.6703,
+      "step": 5320
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001751389992057188,
+      "loss": 0.6652,
+      "step": 5340
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017466243050039712,
+      "loss": 0.6698,
+      "step": 5360
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017418586179507545,
+      "loss": 0.6728,
+      "step": 5380
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017370929308975377,
+      "loss": 0.6752,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.6592395901679993,
+      "eval_runtime": 49.3426,
+      "eval_samples_per_second": 40.533,
+      "eval_steps_per_second": 2.533,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017323272438443207,
+      "loss": 0.6653,
+      "step": 5420
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00017275615567911037,
+      "loss": 0.669,
+      "step": 5440
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001722795869737887,
+      "loss": 0.6698,
+      "step": 5460
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.000171803018268467,
+      "loss": 0.6742,
+      "step": 5480
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017132644956314536,
+      "loss": 0.6596,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017084988085782366,
+      "loss": 0.6699,
+      "step": 5520
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00017037331215250198,
+      "loss": 0.664,
+      "step": 5540
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00016989674344718028,
+      "loss": 0.6673,
+      "step": 5560
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00016942017474185858,
+      "loss": 0.6684,
+      "step": 5580
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001689436060365369,
+      "loss": 0.6769,
+      "step": 5600
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.6582754850387573,
+      "eval_runtime": 49.469,
+      "eval_samples_per_second": 40.429,
+      "eval_steps_per_second": 2.527,
+      "step": 5600
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016846703733121524,
+      "loss": 0.6633,
+      "step": 5620
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016799046862589357,
+      "loss": 0.6679,
+      "step": 5640
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00016751389992057187,
+      "loss": 0.6601,
+      "step": 5660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001670373312152502,
+      "loss": 0.6731,
+      "step": 5680
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001665607625099285,
+      "loss": 0.6638,
+      "step": 5700
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001660841938046068,
+      "loss": 0.6693,
+      "step": 5720
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016560762509928515,
+      "loss": 0.6642,
+      "step": 5740
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016513105639396345,
+      "loss": 0.6649,
+      "step": 5760
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016465448768864178,
+      "loss": 0.663,
+      "step": 5780
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016417791898332008,
+      "loss": 0.6629,
+      "step": 5800
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.6574136018753052,
+      "eval_runtime": 49.3019,
+      "eval_samples_per_second": 40.566,
+      "eval_steps_per_second": 2.535,
+      "step": 5800
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00016370135027799838,
+      "loss": 0.6605,
+      "step": 5820
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001632247815726767,
+      "loss": 0.6707,
+      "step": 5840
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016274821286735503,
+      "loss": 0.6695,
+      "step": 5860
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016227164416203336,
+      "loss": 0.6647,
+      "step": 5880
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016179507545671166,
+      "loss": 0.6657,
+      "step": 5900
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016131850675138999,
+      "loss": 0.6656,
+      "step": 5920
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016084193804606829,
+      "loss": 0.6676,
+      "step": 5940
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00016036536934074659,
+      "loss": 0.6678,
+      "step": 5960
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00015988880063542494,
+      "loss": 0.6639,
+      "step": 5980
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015941223193010324,
+      "loss": 0.6645,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.656126081943512,
+      "eval_runtime": 49.5095,
+      "eval_samples_per_second": 40.396,
+      "eval_steps_per_second": 2.525,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015893566322478157,
+      "loss": 0.6672,
+      "step": 6020
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00015845909451945987,
+      "loss": 0.6678,
+      "step": 6040
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0001579825258141382,
+      "loss": 0.6676,
+      "step": 6060
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001575059571088165,
+      "loss": 0.6717,
+      "step": 6080
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00015702938840349485,
+      "loss": 0.671,
+      "step": 6100
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015655281969817315,
+      "loss": 0.6611,
+      "step": 6120
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015607625099285145,
+      "loss": 0.6606,
+      "step": 6140
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015559968228752978,
+      "loss": 0.6647,
+      "step": 6160
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015512311358220808,
+      "loss": 0.6652,
+      "step": 6180
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001546465448768864,
+      "loss": 0.6629,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.6549723148345947,
+      "eval_runtime": 49.4871,
+      "eval_samples_per_second": 40.415,
+      "eval_steps_per_second": 2.526,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00015416997617156473,
+      "loss": 0.6685,
+      "step": 6220
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015369340746624306,
+      "loss": 0.6578,
+      "step": 6240
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015321683876092136,
+      "loss": 0.6587,
+      "step": 6260
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015274027005559966,
+      "loss": 0.6655,
+      "step": 6280
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.000152263701350278,
+      "loss": 0.6662,
+      "step": 6300
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0001517871326449563,
+      "loss": 0.6648,
+      "step": 6320
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015131056393963464,
+      "loss": 0.6638,
+      "step": 6340
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015083399523431294,
+      "loss": 0.6614,
+      "step": 6360
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00015035742652899124,
+      "loss": 0.6552,
+      "step": 6380
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014988085782366957,
+      "loss": 0.6753,
+      "step": 6400
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.6544620990753174,
+      "eval_runtime": 49.3242,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 6400
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00014940428911834787,
+      "loss": 0.6588,
+      "step": 6420
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001489277204130262,
+      "loss": 0.6609,
+      "step": 6440
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014845115170770452,
+      "loss": 0.6565,
+      "step": 6460
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014797458300238282,
+      "loss": 0.6589,
+      "step": 6480
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014749801429706115,
+      "loss": 0.6585,
+      "step": 6500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014702144559173945,
+      "loss": 0.6737,
+      "step": 6520
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00014654487688641778,
+      "loss": 0.6554,
+      "step": 6540
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001460683081810961,
+      "loss": 0.6603,
+      "step": 6560
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001455917394757744,
+      "loss": 0.6647,
+      "step": 6580
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00014511517077045273,
+      "loss": 0.6632,
+      "step": 6600
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.6527110934257507,
+      "eval_runtime": 49.2622,
+      "eval_samples_per_second": 40.599,
+      "eval_steps_per_second": 2.537,
+      "step": 6600
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014463860206513106,
+      "loss": 0.6705,
+      "step": 6620
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014416203335980936,
+      "loss": 0.6703,
+      "step": 6640
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014368546465448766,
+      "loss": 0.6602,
+      "step": 6660
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.000143208895949166,
+      "loss": 0.6639,
+      "step": 6680
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00014273232724384432,
+      "loss": 0.6645,
+      "step": 6700
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014225575853852262,
+      "loss": 0.6655,
+      "step": 6720
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014177918983320094,
+      "loss": 0.664,
+      "step": 6740
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014130262112787927,
+      "loss": 0.6656,
+      "step": 6760
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014082605242255757,
+      "loss": 0.6658,
+      "step": 6780
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001403494837172359,
+      "loss": 0.6641,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.6513609886169434,
+      "eval_runtime": 49.4424,
+      "eval_samples_per_second": 40.451,
+      "eval_steps_per_second": 2.528,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001398729150119142,
+      "loss": 0.6599,
+      "step": 6820
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013939634630659252,
+      "loss": 0.6552,
+      "step": 6840
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013891977760127085,
+      "loss": 0.6616,
+      "step": 6860
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013844320889594915,
+      "loss": 0.6635,
+      "step": 6880
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013796664019062745,
+      "loss": 0.6608,
+      "step": 6900
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00013749007148530578,
+      "loss": 0.6596,
+      "step": 6920
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0001370135027799841,
+      "loss": 0.6589,
+      "step": 6940
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001365369340746624,
+      "loss": 0.6627,
+      "step": 6960
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013606036536934073,
+      "loss": 0.6606,
+      "step": 6980
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013558379666401906,
+      "loss": 0.6658,
+      "step": 7000
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.6510519981384277,
+      "eval_runtime": 49.5012,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 7000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00013510722795869736,
+      "loss": 0.6571,
+      "step": 7020
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001346306592533757,
+      "loss": 0.6607,
+      "step": 7040
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.000134154090548054,
+      "loss": 0.6562,
+      "step": 7060
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00013367752184273232,
+      "loss": 0.6582,
+      "step": 7080
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013320095313741064,
+      "loss": 0.6635,
+      "step": 7100
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013272438443208894,
+      "loss": 0.6682,
+      "step": 7120
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00013224781572676727,
+      "loss": 0.6633,
+      "step": 7140
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001317712470214456,
+      "loss": 0.6671,
+      "step": 7160
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001312946783161239,
+      "loss": 0.6645,
+      "step": 7180
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001308181096108022,
+      "loss": 0.6699,
+      "step": 7200
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6502068042755127,
+      "eval_runtime": 49.4619,
+      "eval_samples_per_second": 40.435,
+      "eval_steps_per_second": 2.527,
+      "step": 7200
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00013034154090548053,
+      "loss": 0.6617,
+      "step": 7220
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012986497220015885,
+      "loss": 0.6639,
+      "step": 7240
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012938840349483715,
+      "loss": 0.6634,
+      "step": 7260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012891183478951548,
+      "loss": 0.663,
+      "step": 7280
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00012843526608419378,
+      "loss": 0.6653,
+      "step": 7300
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0001279586973788721,
+      "loss": 0.6555,
+      "step": 7320
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012748212867355044,
+      "loss": 0.6653,
+      "step": 7340
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012700555996822874,
+      "loss": 0.6573,
+      "step": 7360
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012652899126290706,
+      "loss": 0.658,
+      "step": 7380
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001260524225575854,
+      "loss": 0.6562,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.6491650342941284,
+      "eval_runtime": 49.2463,
+      "eval_samples_per_second": 40.612,
+      "eval_steps_per_second": 2.538,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001255758538522637,
+      "loss": 0.6592,
+      "step": 7420
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.000125099285146942,
+      "loss": 0.6587,
+      "step": 7440
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012462271644162032,
+      "loss": 0.6616,
+      "step": 7460
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012414614773629865,
+      "loss": 0.655,
+      "step": 7480
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012366957903097695,
+      "loss": 0.6591,
+      "step": 7500
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012319301032565527,
+      "loss": 0.6545,
+      "step": 7520
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0001227164416203336,
+      "loss": 0.6673,
+      "step": 7540
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0001222398729150119,
+      "loss": 0.6626,
+      "step": 7560
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012176330420969023,
+      "loss": 0.6663,
+      "step": 7580
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012128673550436854,
+      "loss": 0.6643,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.6482685804367065,
+      "eval_runtime": 49.3591,
+      "eval_samples_per_second": 40.519,
+      "eval_steps_per_second": 2.532,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012081016679904685,
+      "loss": 0.6623,
+      "step": 7620
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00012033359809372518,
+      "loss": 0.6636,
+      "step": 7640
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00011985702938840348,
+      "loss": 0.6598,
+      "step": 7660
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0001193804606830818,
+      "loss": 0.6521,
+      "step": 7680
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00011890389197776012,
+      "loss": 0.664,
+      "step": 7700
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011842732327243844,
+      "loss": 0.6529,
+      "step": 7720
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011795075456711675,
+      "loss": 0.6622,
+      "step": 7740
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011747418586179508,
+      "loss": 0.6608,
+      "step": 7760
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011699761715647338,
+      "loss": 0.6556,
+      "step": 7780
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011652104845115169,
+      "loss": 0.6643,
+      "step": 7800
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.6474015116691589,
+      "eval_runtime": 49.3608,
+      "eval_samples_per_second": 40.518,
+      "eval_steps_per_second": 2.532,
+      "step": 7800
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011604447974583002,
+      "loss": 0.6541,
+      "step": 7820
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011556791104050833,
+      "loss": 0.6614,
+      "step": 7840
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011509134233518665,
+      "loss": 0.6499,
+      "step": 7860
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011461477362986497,
+      "loss": 0.6563,
+      "step": 7880
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011413820492454327,
+      "loss": 0.6589,
+      "step": 7900
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011366163621922159,
+      "loss": 0.6544,
+      "step": 7920
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011318506751389992,
+      "loss": 0.6606,
+      "step": 7940
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011270849880857823,
+      "loss": 0.657,
+      "step": 7960
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011223193010325654,
+      "loss": 0.6608,
+      "step": 7980
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011175536139793487,
+      "loss": 0.6595,
+      "step": 8000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.6469079256057739,
+      "eval_runtime": 49.3012,
+      "eval_samples_per_second": 40.567,
+      "eval_steps_per_second": 2.535,
+      "step": 8000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011127879269261318,
+      "loss": 0.6563,
+      "step": 8020
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011080222398729148,
+      "loss": 0.6602,
+      "step": 8040
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00011032565528196981,
+      "loss": 0.6603,
+      "step": 8060
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010984908657664812,
+      "loss": 0.6495,
+      "step": 8080
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010937251787132644,
+      "loss": 0.6551,
+      "step": 8100
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010891977760127084,
+      "loss": 0.6497,
+      "step": 8120
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010844320889594917,
+      "loss": 0.6652,
+      "step": 8140
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010796664019062747,
+      "loss": 0.6497,
+      "step": 8160
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010749007148530578,
+      "loss": 0.6554,
+      "step": 8180
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010701350277998411,
+      "loss": 0.6563,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.645990252494812,
+      "eval_runtime": 49.3957,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010653693407466242,
+      "loss": 0.6572,
+      "step": 8220
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010606036536934074,
+      "loss": 0.6563,
+      "step": 8240
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010558379666401906,
+      "loss": 0.6535,
+      "step": 8260
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010510722795869736,
+      "loss": 0.655,
+      "step": 8280
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010463065925337568,
+      "loss": 0.6554,
+      "step": 8300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.000104154090548054,
+      "loss": 0.6559,
+      "step": 8320
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00010367752184273232,
+      "loss": 0.6522,
+      "step": 8340
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010320095313741063,
+      "loss": 0.6568,
+      "step": 8360
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010272438443208896,
+      "loss": 0.6566,
+      "step": 8380
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010224781572676727,
+      "loss": 0.6496,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.6457875967025757,
+      "eval_runtime": 49.0201,
+      "eval_samples_per_second": 40.8,
+      "eval_steps_per_second": 2.55,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010177124702144557,
+      "loss": 0.66,
+      "step": 8420
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001012946783161239,
+      "loss": 0.6457,
+      "step": 8440
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001008419380460683,
+      "loss": 0.6349,
+      "step": 8460
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010036536934074662,
+      "loss": 0.6545,
+      "step": 8480
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.988880063542493e-05,
+      "loss": 0.6515,
+      "step": 8500
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.941223193010326e-05,
+      "loss": 0.6459,
+      "step": 8520
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.893566322478156e-05,
+      "loss": 0.6494,
+      "step": 8540
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.845909451945987e-05,
+      "loss": 0.6608,
+      "step": 8560
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.79825258141382e-05,
+      "loss": 0.6485,
+      "step": 8580
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.750595710881651e-05,
+      "loss": 0.6461,
+      "step": 8600
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 0.6450995802879333,
+      "eval_runtime": 49.2592,
+      "eval_samples_per_second": 40.602,
+      "eval_steps_per_second": 2.538,
+      "step": 8600
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.702938840349483e-05,
+      "loss": 0.6523,
+      "step": 8620
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.655281969817315e-05,
+      "loss": 0.6565,
+      "step": 8640
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.607625099285145e-05,
+      "loss": 0.6541,
+      "step": 8660
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.559968228752977e-05,
+      "loss": 0.6585,
+      "step": 8680
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.51231135822081e-05,
+      "loss": 0.6531,
+      "step": 8700
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.464654487688641e-05,
+      "loss": 0.6579,
+      "step": 8720
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.416997617156472e-05,
+      "loss": 0.6438,
+      "step": 8740
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.369340746624305e-05,
+      "loss": 0.6516,
+      "step": 8760
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.321683876092136e-05,
+      "loss": 0.6576,
+      "step": 8780
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.274027005559966e-05,
+      "loss": 0.6506,
+      "step": 8800
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.6444578170776367,
+      "eval_runtime": 49.0631,
+      "eval_samples_per_second": 40.764,
+      "eval_steps_per_second": 2.548,
+      "step": 8800
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.226370135027799e-05,
+      "loss": 0.6484,
+      "step": 8820
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.17871326449563e-05,
+      "loss": 0.6566,
+      "step": 8840
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.131056393963462e-05,
+      "loss": 0.6547,
+      "step": 8860
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.083399523431295e-05,
+      "loss": 0.6532,
+      "step": 8880
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.035742652899126e-05,
+      "loss": 0.6532,
+      "step": 8900
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.988085782366956e-05,
+      "loss": 0.6479,
+      "step": 8920
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.940428911834789e-05,
+      "loss": 0.6548,
+      "step": 8940
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.89277204130262e-05,
+      "loss": 0.647,
+      "step": 8960
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.845115170770452e-05,
+      "loss": 0.6478,
+      "step": 8980
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.797458300238284e-05,
+      "loss": 0.6553,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.6433074474334717,
+      "eval_runtime": 49.3831,
+      "eval_samples_per_second": 40.5,
+      "eval_steps_per_second": 2.531,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.749801429706116e-05,
+      "loss": 0.6443,
+      "step": 9020
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.702144559173947e-05,
+      "loss": 0.6518,
+      "step": 9040
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.65448768864178e-05,
+      "loss": 0.6578,
+      "step": 9060
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.60683081810961e-05,
+      "loss": 0.6472,
+      "step": 9080
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.559173947577441e-05,
+      "loss": 0.6471,
+      "step": 9100
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.511517077045274e-05,
+      "loss": 0.6482,
+      "step": 9120
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.463860206513105e-05,
+      "loss": 0.6522,
+      "step": 9140
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.416203335980937e-05,
+      "loss": 0.6584,
+      "step": 9160
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.368546465448769e-05,
+      "loss": 0.6596,
+      "step": 9180
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.320889594916599e-05,
+      "loss": 0.6581,
+      "step": 9200
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.6426697969436646,
+      "eval_runtime": 49.0935,
+      "eval_samples_per_second": 40.739,
+      "eval_steps_per_second": 2.546,
+      "step": 9200
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.273232724384431e-05,
+      "loss": 0.6441,
+      "step": 9220
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.225575853852263e-05,
+      "loss": 0.6509,
+      "step": 9240
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.177918983320095e-05,
+      "loss": 0.6409,
+      "step": 9260
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.130262112787926e-05,
+      "loss": 0.6475,
+      "step": 9280
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.082605242255759e-05,
+      "loss": 0.6597,
+      "step": 9300
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.03494837172359e-05,
+      "loss": 0.6544,
+      "step": 9320
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.98729150119142e-05,
+      "loss": 0.6528,
+      "step": 9340
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.939634630659253e-05,
+      "loss": 0.644,
+      "step": 9360
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.891977760127084e-05,
+      "loss": 0.6552,
+      "step": 9380
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.844320889594916e-05,
+      "loss": 0.6548,
+      "step": 9400
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.6423606276512146,
+      "eval_runtime": 49.6466,
+      "eval_samples_per_second": 40.285,
+      "eval_steps_per_second": 2.518,
+      "step": 9400
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.796664019062748e-05,
+      "loss": 0.6568,
+      "step": 9420
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.74900714853058e-05,
+      "loss": 0.6539,
+      "step": 9440
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.70135027799841e-05,
+      "loss": 0.6468,
+      "step": 9460
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.653693407466243e-05,
+      "loss": 0.6425,
+      "step": 9480
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.606036536934074e-05,
+      "loss": 0.6523,
+      "step": 9500
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.558379666401905e-05,
+      "loss": 0.6468,
+      "step": 9520
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.510722795869738e-05,
+      "loss": 0.6518,
+      "step": 9540
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.46306592533757e-05,
+      "loss": 0.6534,
+      "step": 9560
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.415409054805401e-05,
+      "loss": 0.6471,
+      "step": 9580
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.367752184273232e-05,
+      "loss": 0.6465,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.6418060064315796,
+      "eval_runtime": 49.4954,
+      "eval_samples_per_second": 40.408,
+      "eval_steps_per_second": 2.525,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.320095313741064e-05,
+      "loss": 0.6577,
+      "step": 9620
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.272438443208895e-05,
+      "loss": 0.6453,
+      "step": 9640
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.224781572676726e-05,
+      "loss": 0.6489,
+      "step": 9660
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.177124702144559e-05,
+      "loss": 0.6466,
+      "step": 9680
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.12946783161239e-05,
+      "loss": 0.6493,
+      "step": 9700
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.081810961080222e-05,
+      "loss": 0.6537,
+      "step": 9720
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.034154090548053e-05,
+      "loss": 0.6486,
+      "step": 9740
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.986497220015885e-05,
+      "loss": 0.65,
+      "step": 9760
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.938840349483717e-05,
+      "loss": 0.6387,
+      "step": 9780
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.891183478951549e-05,
+      "loss": 0.6464,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.6412256360054016,
+      "eval_runtime": 49.3752,
+      "eval_samples_per_second": 40.506,
+      "eval_steps_per_second": 2.532,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.84352660841938e-05,
+      "loss": 0.6475,
+      "step": 9820
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.795869737887211e-05,
+      "loss": 0.6543,
+      "step": 9840
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.748212867355043e-05,
+      "loss": 0.6545,
+      "step": 9860
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.700555996822874e-05,
+      "loss": 0.6468,
+      "step": 9880
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.652899126290707e-05,
+      "loss": 0.651,
+      "step": 9900
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.605242255758538e-05,
+      "loss": 0.641,
+      "step": 9920
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.55758538522637e-05,
+      "loss": 0.657,
+      "step": 9940
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.509928514694201e-05,
+      "loss": 0.6481,
+      "step": 9960
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.462271644162034e-05,
+      "loss": 0.6496,
+      "step": 9980
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.414614773629864e-05,
+      "loss": 0.6451,
+      "step": 10000
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.6414454579353333,
+      "eval_runtime": 49.395,
+      "eval_samples_per_second": 40.49,
+      "eval_steps_per_second": 2.531,
+      "step": 10000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.366957903097696e-05,
+      "loss": 0.6555,
+      "step": 10020
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.319301032565528e-05,
+      "loss": 0.6494,
+      "step": 10040
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.271644162033359e-05,
+      "loss": 0.6487,
+      "step": 10060
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.22398729150119e-05,
+      "loss": 0.6544,
+      "step": 10080
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.176330420969023e-05,
+      "loss": 0.6468,
+      "step": 10100
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.128673550436853e-05,
+      "loss": 0.6441,
+      "step": 10120
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.081016679904686e-05,
+      "loss": 0.6478,
+      "step": 10140
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.033359809372518e-05,
+      "loss": 0.6539,
+      "step": 10160
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.985702938840349e-05,
+      "loss": 0.6486,
+      "step": 10180
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.938046068308181e-05,
+      "loss": 0.6467,
+      "step": 10200
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6406835913658142,
+      "eval_runtime": 49.5084,
+      "eval_samples_per_second": 40.397,
+      "eval_steps_per_second": 2.525,
+      "step": 10200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.890389197776013e-05,
+      "loss": 0.6399,
+      "step": 10220
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.8427323272438435e-05,
+      "loss": 0.6519,
+      "step": 10240
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7950754567116756e-05,
+      "loss": 0.6465,
+      "step": 10260
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7474185861795076e-05,
+      "loss": 0.6479,
+      "step": 10280
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.6997617156473383e-05,
+      "loss": 0.6462,
+      "step": 10300
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.6521048451151704e-05,
+      "loss": 0.6451,
+      "step": 10320
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.604447974583002e-05,
+      "loss": 0.6453,
+      "step": 10340
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.556791104050833e-05,
+      "loss": 0.6543,
+      "step": 10360
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.509134233518665e-05,
+      "loss": 0.6428,
+      "step": 10380
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.4614773629864966e-05,
+      "loss": 0.6491,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.6400973796844482,
+      "eval_runtime": 49.3411,
+      "eval_samples_per_second": 40.534,
+      "eval_steps_per_second": 2.533,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.413820492454328e-05,
+      "loss": 0.649,
+      "step": 10420
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.36616362192216e-05,
+      "loss": 0.6494,
+      "step": 10440
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.3185067513899913e-05,
+      "loss": 0.6431,
+      "step": 10460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.2708498808578234e-05,
+      "loss": 0.6478,
+      "step": 10480
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.223193010325655e-05,
+      "loss": 0.6416,
+      "step": 10500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.175536139793486e-05,
+      "loss": 0.6507,
+      "step": 10520
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.127879269261318e-05,
+      "loss": 0.6448,
+      "step": 10540
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.0802223987291496e-05,
+      "loss": 0.6455,
+      "step": 10560
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.032565528196981e-05,
+      "loss": 0.6437,
+      "step": 10580
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.984908657664813e-05,
+      "loss": 0.6488,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.6400858163833618,
+      "eval_runtime": 49.8084,
+      "eval_samples_per_second": 40.154,
+      "eval_steps_per_second": 2.51,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.937251787132645e-05,
+      "loss": 0.6436,
+      "step": 10620
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.889594916600476e-05,
+      "loss": 0.6446,
+      "step": 10640
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.841938046068308e-05,
+      "loss": 0.6488,
+      "step": 10660
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.79428117553614e-05,
+      "loss": 0.6485,
+      "step": 10680
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.7466243050039705e-05,
+      "loss": 0.6524,
+      "step": 10700
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.6989674344718026e-05,
+      "loss": 0.6376,
+      "step": 10720
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.6513105639396346e-05,
+      "loss": 0.649,
+      "step": 10740
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.603653693407465e-05,
+      "loss": 0.6444,
+      "step": 10760
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5559968228752974e-05,
+      "loss": 0.6407,
+      "step": 10780
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5083399523431294e-05,
+      "loss": 0.6448,
+      "step": 10800
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.6392157077789307,
+      "eval_runtime": 49.7963,
+      "eval_samples_per_second": 40.164,
+      "eval_steps_per_second": 2.51,
+      "step": 10800
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.46068308181096e-05,
+      "loss": 0.6454,
+      "step": 10820
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.413026211278792e-05,
+      "loss": 0.6544,
+      "step": 10840
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.365369340746624e-05,
+      "loss": 0.6478,
+      "step": 10860
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.3177124702144556e-05,
+      "loss": 0.6434,
+      "step": 10880
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.270055599682287e-05,
+      "loss": 0.6482,
+      "step": 10900
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.222398729150119e-05,
+      "loss": 0.6403,
+      "step": 10920
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.1747418586179504e-05,
+      "loss": 0.6501,
+      "step": 10940
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.127084988085782e-05,
+      "loss": 0.6507,
+      "step": 10960
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.079428117553614e-05,
+      "loss": 0.6496,
+      "step": 10980
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.031771247021445e-05,
+      "loss": 0.6544,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.6390016078948975,
+      "eval_runtime": 49.6306,
+      "eval_samples_per_second": 40.298,
+      "eval_steps_per_second": 2.519,
+      "step": 11000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.984114376489277e-05,
+      "loss": 0.6405,
+      "step": 11020
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.9364575059571086e-05,
+      "loss": 0.6429,
+      "step": 11040
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.88880063542494e-05,
+      "loss": 0.6403,
+      "step": 11060
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.841143764892772e-05,
+      "loss": 0.6338,
+      "step": 11080
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.7934868943606034e-05,
+      "loss": 0.6417,
+      "step": 11100
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.7458300238284354e-05,
+      "loss": 0.6463,
+      "step": 11120
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.698173153296267e-05,
+      "loss": 0.6498,
+      "step": 11140
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.650516282764098e-05,
+      "loss": 0.6415,
+      "step": 11160
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.6028594122319296e-05,
+      "loss": 0.645,
+      "step": 11180
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.5552025416997616e-05,
+      "loss": 0.6467,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6387213468551636,
+      "eval_runtime": 49.1775,
+      "eval_samples_per_second": 40.669,
+      "eval_steps_per_second": 2.542,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.507545671167593e-05,
+      "loss": 0.6515,
+      "step": 11220
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4598888006354244e-05,
+      "loss": 0.65,
+      "step": 11240
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4122319301032564e-05,
+      "loss": 0.6512,
+      "step": 11260
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.364575059571088e-05,
+      "loss": 0.6443,
+      "step": 11280
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.316918189038919e-05,
+      "loss": 0.6483,
+      "step": 11300
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.269261318506751e-05,
+      "loss": 0.6455,
+      "step": 11320
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.2216044479745826e-05,
+      "loss": 0.6461,
+      "step": 11340
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.173947577442414e-05,
+      "loss": 0.6505,
+      "step": 11360
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.126290706910246e-05,
+      "loss": 0.6517,
+      "step": 11380
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.0786338363780774e-05,
+      "loss": 0.6406,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.6380326151847839,
+      "eval_runtime": 49.4129,
+      "eval_samples_per_second": 40.475,
+      "eval_steps_per_second": 2.53,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.030976965845909e-05,
+      "loss": 0.647,
+      "step": 11420
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 2.9833200953137408e-05,
+      "loss": 0.6495,
+      "step": 11440
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.9356632247815725e-05,
+      "loss": 0.6448,
+      "step": 11460
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.888006354249404e-05,
+      "loss": 0.6447,
+      "step": 11480
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.840349483717236e-05,
+      "loss": 0.6527,
+      "step": 11500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.7926926131850673e-05,
+      "loss": 0.6406,
+      "step": 11520
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.7450357426528987e-05,
+      "loss": 0.6443,
+      "step": 11540
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.6973788721207307e-05,
+      "loss": 0.6351,
+      "step": 11560
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.649722001588562e-05,
+      "loss": 0.6417,
+      "step": 11580
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.6020651310563938e-05,
+      "loss": 0.6356,
+      "step": 11600
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.6381237506866455,
+      "eval_runtime": 49.5534,
+      "eval_samples_per_second": 40.36,
+      "eval_steps_per_second": 2.523,
+      "step": 11600
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.5544082605242255e-05,
+      "loss": 0.6412,
+      "step": 11620
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.506751389992057e-05,
+      "loss": 0.6418,
+      "step": 11640
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4590945194598886e-05,
+      "loss": 0.6426,
+      "step": 11660
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4114376489277203e-05,
+      "loss": 0.6461,
+      "step": 11680
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.363780778395552e-05,
+      "loss": 0.6475,
+      "step": 11700
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.3161239078633834e-05,
+      "loss": 0.6431,
+      "step": 11720
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2684670373312148e-05,
+      "loss": 0.6416,
+      "step": 11740
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2208101667990468e-05,
+      "loss": 0.6495,
+      "step": 11760
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.1731532962668782e-05,
+      "loss": 0.6404,
+      "step": 11780
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.1254964257347096e-05,
+      "loss": 0.6434,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.6377163529396057,
+      "eval_runtime": 49.328,
+      "eval_samples_per_second": 40.545,
+      "eval_steps_per_second": 2.534,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.0778395552025416e-05,
+      "loss": 0.6437,
+      "step": 11820
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.030182684670373e-05,
+      "loss": 0.6393,
+      "step": 11840
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.9825258141382047e-05,
+      "loss": 0.6412,
+      "step": 11860
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.9348689436060364e-05,
+      "loss": 0.6494,
+      "step": 11880
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.887212073073868e-05,
+      "loss": 0.6481,
+      "step": 11900
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.8395552025416998e-05,
+      "loss": 0.6407,
+      "step": 11920
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.7918983320095312e-05,
+      "loss": 0.6422,
+      "step": 11940
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.744241461477363e-05,
+      "loss": 0.6487,
+      "step": 11960
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.6965845909451946e-05,
+      "loss": 0.6478,
+      "step": 11980
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.648927720413026e-05,
+      "loss": 0.6451,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.6374698281288147,
+      "eval_runtime": 49.9107,
+      "eval_samples_per_second": 40.072,
+      "eval_steps_per_second": 2.504,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.6012708498808577e-05,
+      "loss": 0.6454,
+      "step": 12020
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5536139793486894e-05,
+      "loss": 0.6399,
+      "step": 12040
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5059571088165208e-05,
+      "loss": 0.6479,
+      "step": 12060
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4583002382843525e-05,
+      "loss": 0.6412,
+      "step": 12080
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4106433677521842e-05,
+      "loss": 0.65,
+      "step": 12100
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3629864972200157e-05,
+      "loss": 0.6461,
+      "step": 12120
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3153296266878475e-05,
+      "loss": 0.6434,
+      "step": 12140
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.2676727561556788e-05,
+      "loss": 0.6463,
+      "step": 12160
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.2200158856235105e-05,
+      "loss": 0.6399,
+      "step": 12180
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.1723590150913422e-05,
+      "loss": 0.6446,
+      "step": 12200
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.6372544765472412,
+      "eval_runtime": 49.6265,
+      "eval_samples_per_second": 40.301,
+      "eval_steps_per_second": 2.519,
+      "step": 12200
+    }
+  ],
+  "max_steps": 12690,
+  "num_train_epochs": 3,
+  "total_flos": 1.5855992729583485e+19,
+  "trial_name": null,
+  "trial_params": null
+}

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a070370e87c048b60fc888b8736a0166eb94eeb3a75f5f78918edab715d0fb1c
+size 3579

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a44d25fe2c7be3065324779281d2f127b5a642d67f1e6454f19700b42493bdd7
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f507c244cdac0a2a8d4da2999644d1b91a384aa62f543cdb6df0f2076c7edb1f
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ab02d3b0b43bf78678642d9cd5f53765f64014c5978ba11838067362d9bc2ad
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64dd573126e6ce344168cb0149b372652148f70e76d3a1dc6ae6ddf416540e48
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ebe8baa4484dffe2c79d27911cedebee271659822ff874c04a10526e4d03d6f
+size 557

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54bc440119a51d3d80c80b0036e812daff5b98ed0f83403347a0707e66b60f65
+size 627

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,4232 @@

+{
+  "best_metric": 0.6368712186813354,
+  "best_model_checkpoint": "lora-alpaca-cn/checkpoint-12400",
+  "epoch": 2.9314420803782504,
+  "global_step": 12400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.7735,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.1358,
+      "step": 40
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.9749,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.9316,
+      "step": 80
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0003,
+      "loss": 0.9072,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002995234312946783,
+      "loss": 0.8963,
+      "step": 120
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002990468625893566,
+      "loss": 0.8853,
+      "step": 140
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002985702938840349,
+      "loss": 0.8709,
+      "step": 160
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029809372517871323,
+      "loss": 0.8555,
+      "step": 180
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029761715647339156,
+      "loss": 0.8584,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.8360834717750549,
+      "eval_runtime": 49.29,
+      "eval_samples_per_second": 40.576,
+      "eval_steps_per_second": 2.536,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002971405877680699,
+      "loss": 0.859,
+      "step": 220
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029666401906274816,
+      "loss": 0.8511,
+      "step": 240
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002961874503574265,
+      "loss": 0.8401,
+      "step": 260
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002957108816521048,
+      "loss": 0.8357,
+      "step": 280
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029523431294678314,
+      "loss": 0.8413,
+      "step": 300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00029475774424146147,
+      "loss": 0.8283,
+      "step": 320
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002942811755361398,
+      "loss": 0.8202,
+      "step": 340
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029380460683081807,
+      "loss": 0.8222,
+      "step": 360
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002933280381254964,
+      "loss": 0.8178,
+      "step": 380
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002928514694201747,
+      "loss": 0.8177,
+      "step": 400
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.7966175079345703,
+      "eval_runtime": 49.1752,
+      "eval_samples_per_second": 40.671,
+      "eval_steps_per_second": 2.542,
+      "step": 400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029237490071485305,
+      "loss": 0.8057,
+      "step": 420
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002918983320095314,
+      "loss": 0.811,
+      "step": 440
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00029142176330420965,
+      "loss": 0.8056,
+      "step": 460
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.000290945194598888,
+      "loss": 0.7993,
+      "step": 480
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002904686258935663,
+      "loss": 0.7982,
+      "step": 500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002899920571882446,
+      "loss": 0.8023,
+      "step": 520
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028951548848292296,
+      "loss": 0.7968,
+      "step": 540
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028903891977760123,
+      "loss": 0.8029,
+      "step": 560
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00028856235107227956,
+      "loss": 0.7892,
+      "step": 580
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002880857823669579,
+      "loss": 0.7946,
+      "step": 600
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.7735009789466858,
+      "eval_runtime": 49.3305,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00028760921366163616,
+      "loss": 0.782,
+      "step": 620
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002871326449563145,
+      "loss": 0.7799,
+      "step": 640
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002866560762509928,
+      "loss": 0.7782,
+      "step": 660
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00028617950754567114,
+      "loss": 0.7785,
+      "step": 680
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028570293884034947,
+      "loss": 0.785,
+      "step": 700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002852263701350278,
+      "loss": 0.7754,
+      "step": 720
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028474980142970607,
+      "loss": 0.7804,
+      "step": 740
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002842732327243844,
+      "loss": 0.7696,
+      "step": 760
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002837966640190627,
+      "loss": 0.7692,
+      "step": 780
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00028332009531374105,
+      "loss": 0.7752,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7564254403114319,
+      "eval_runtime": 49.106,
+      "eval_samples_per_second": 40.728,
+      "eval_steps_per_second": 2.546,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002828435266084194,
+      "loss": 0.7698,
+      "step": 820
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00028236695790309765,
+      "loss": 0.7699,
+      "step": 840
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000281890389197776,
+      "loss": 0.7718,
+      "step": 860
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002814138204924543,
+      "loss": 0.7644,
+      "step": 880
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00028093725178713263,
+      "loss": 0.7659,
+      "step": 900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028046068308181096,
+      "loss": 0.7641,
+      "step": 920
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00027998411437648923,
+      "loss": 0.7535,
+      "step": 940
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00027950754567116756,
+      "loss": 0.7672,
+      "step": 960
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002790309769658459,
+      "loss": 0.7563,
+      "step": 980
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002785544082605242,
+      "loss": 0.752,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.7433652281761169,
+      "eval_runtime": 48.9945,
+      "eval_samples_per_second": 40.821,
+      "eval_steps_per_second": 2.551,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00027807783955520254,
+      "loss": 0.755,
+      "step": 1020
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027760127084988087,
+      "loss": 0.7563,
+      "step": 1040
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027712470214455914,
+      "loss": 0.7475,
+      "step": 1060
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027664813343923747,
+      "loss": 0.7599,
+      "step": 1080
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002761715647339158,
+      "loss": 0.7533,
+      "step": 1100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027569499602859407,
+      "loss": 0.7488,
+      "step": 1120
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00027521842732327245,
+      "loss": 0.753,
+      "step": 1140
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002747418586179507,
+      "loss": 0.7435,
+      "step": 1160
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00027426528991262905,
+      "loss": 0.7457,
+      "step": 1180
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002737887212073074,
+      "loss": 0.742,
+      "step": 1200
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.7321739792823792,
+      "eval_runtime": 48.8876,
+      "eval_samples_per_second": 40.91,
+      "eval_steps_per_second": 2.557,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00027331215250198565,
+      "loss": 0.7474,
+      "step": 1220
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000272835583796664,
+      "loss": 0.7456,
+      "step": 1240
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002723590150913423,
+      "loss": 0.7406,
+      "step": 1260
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00027188244638602063,
+      "loss": 0.7448,
+      "step": 1280
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027140587768069896,
+      "loss": 0.7445,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027092930897537723,
+      "loss": 0.7349,
+      "step": 1320
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00027045274027005556,
+      "loss": 0.7395,
+      "step": 1340
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002699761715647339,
+      "loss": 0.7382,
+      "step": 1360
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002694996028594122,
+      "loss": 0.7357,
+      "step": 1380
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00026902303415409054,
+      "loss": 0.7409,
+      "step": 1400
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.7235888242721558,
+      "eval_runtime": 49.2145,
+      "eval_samples_per_second": 40.638,
+      "eval_steps_per_second": 2.54,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026854646544876887,
+      "loss": 0.7376,
+      "step": 1420
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026806989674344714,
+      "loss": 0.7298,
+      "step": 1440
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00026759332803812547,
+      "loss": 0.7379,
+      "step": 1460
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002671167593328038,
+      "loss": 0.7354,
+      "step": 1480
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002666401906274821,
+      "loss": 0.7341,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00026616362192216045,
+      "loss": 0.7352,
+      "step": 1520
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002656870532168387,
+      "loss": 0.7321,
+      "step": 1540
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00026521048451151705,
+      "loss": 0.7285,
+      "step": 1560
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002647339158061954,
+      "loss": 0.73,
+      "step": 1580
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026425734710087365,
+      "loss": 0.7304,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.716058611869812,
+      "eval_runtime": 48.9201,
+      "eval_samples_per_second": 40.883,
+      "eval_steps_per_second": 2.555,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026378077839555203,
+      "loss": 0.7314,
+      "step": 1620
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002633042096902303,
+      "loss": 0.7315,
+      "step": 1640
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00026282764098490863,
+      "loss": 0.7239,
+      "step": 1660
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026235107227958696,
+      "loss": 0.73,
+      "step": 1680
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026187450357426523,
+      "loss": 0.7243,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00026139793486894356,
+      "loss": 0.7199,
+      "step": 1720
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002609213661636219,
+      "loss": 0.7216,
+      "step": 1740
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002604447974583002,
+      "loss": 0.7358,
+      "step": 1760
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00025996822875297854,
+      "loss": 0.7313,
+      "step": 1780
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025949166004765687,
+      "loss": 0.7236,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.7097632884979248,
+      "eval_runtime": 49.4908,
+      "eval_samples_per_second": 40.412,
+      "eval_steps_per_second": 2.526,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025901509134233514,
+      "loss": 0.7282,
+      "step": 1820
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025853852263701347,
+      "loss": 0.7187,
+      "step": 1840
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002580619539316918,
+      "loss": 0.7303,
+      "step": 1860
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002575853852263701,
+      "loss": 0.724,
+      "step": 1880
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00025710881652104845,
+      "loss": 0.7248,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002566322478157267,
+      "loss": 0.7195,
+      "step": 1920
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00025615567911040505,
+      "loss": 0.7269,
+      "step": 1940
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002556791104050834,
+      "loss": 0.7209,
+      "step": 1960
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002552025416997617,
+      "loss": 0.7282,
+      "step": 1980
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00025472597299444003,
+      "loss": 0.7195,
+      "step": 2000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.7037709355354309,
+      "eval_runtime": 49.7167,
+      "eval_samples_per_second": 40.228,
+      "eval_steps_per_second": 2.514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002542494042891183,
+      "loss": 0.7229,
+      "step": 2020
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00025377283558379664,
+      "loss": 0.718,
+      "step": 2040
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025329626687847496,
+      "loss": 0.7223,
+      "step": 2060
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025281969817315324,
+      "loss": 0.7209,
+      "step": 2080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002523431294678316,
+      "loss": 0.7151,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002518665607625099,
+      "loss": 0.7141,
+      "step": 2120
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002513899920571882,
+      "loss": 0.7084,
+      "step": 2140
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00025091342335186654,
+      "loss": 0.7075,
+      "step": 2160
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00025043685464654487,
+      "loss": 0.7133,
+      "step": 2180
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024996028594122314,
+      "loss": 0.7092,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.6989386677742004,
+      "eval_runtime": 49.2344,
+      "eval_samples_per_second": 40.622,
+      "eval_steps_per_second": 2.539,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002494837172359015,
+      "loss": 0.7178,
+      "step": 2220
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002490071485305798,
+      "loss": 0.7188,
+      "step": 2240
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002485305798252581,
+      "loss": 0.7161,
+      "step": 2260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00024805401111993645,
+      "loss": 0.7078,
+      "step": 2280
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002475774424146147,
+      "loss": 0.7,
+      "step": 2300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00024710087370929305,
+      "loss": 0.718,
+      "step": 2320
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002466243050039714,
+      "loss": 0.7059,
+      "step": 2340
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002461477362986497,
+      "loss": 0.712,
+      "step": 2360
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00024567116759332804,
+      "loss": 0.7116,
+      "step": 2380
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002451945988880063,
+      "loss": 0.6986,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.6939737796783447,
+      "eval_runtime": 49.459,
+      "eval_samples_per_second": 40.438,
+      "eval_steps_per_second": 2.527,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024471803018268464,
+      "loss": 0.7168,
+      "step": 2420
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024424146147736296,
+      "loss": 0.7141,
+      "step": 2440
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024376489277204126,
+      "loss": 0.7095,
+      "step": 2460
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024328832406671962,
+      "loss": 0.7091,
+      "step": 2480
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024281175536139792,
+      "loss": 0.7015,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024233518665607622,
+      "loss": 0.7109,
+      "step": 2520
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024185861795075455,
+      "loss": 0.7086,
+      "step": 2540
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024138204924543285,
+      "loss": 0.7118,
+      "step": 2560
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024090548054011117,
+      "loss": 0.7033,
+      "step": 2580
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002404289118347895,
+      "loss": 0.7128,
+      "step": 2600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.6901652812957764,
+      "eval_runtime": 49.5038,
+      "eval_samples_per_second": 40.401,
+      "eval_steps_per_second": 2.525,
+      "step": 2600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023995234312946783,
+      "loss": 0.6968,
+      "step": 2620
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023947577442414613,
+      "loss": 0.7109,
+      "step": 2640
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023899920571882443,
+      "loss": 0.7048,
+      "step": 2660
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023852263701350276,
+      "loss": 0.7012,
+      "step": 2680
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00023804606830818106,
+      "loss": 0.7065,
+      "step": 2700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002375694996028594,
+      "loss": 0.7009,
+      "step": 2720
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002370929308975377,
+      "loss": 0.7035,
+      "step": 2740
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00023661636219221604,
+      "loss": 0.6973,
+      "step": 2760
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023613979348689434,
+      "loss": 0.7075,
+      "step": 2780
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023566322478157264,
+      "loss": 0.6952,
+      "step": 2800
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.6865400671958923,
+      "eval_runtime": 49.2814,
+      "eval_samples_per_second": 40.583,
+      "eval_steps_per_second": 2.536,
+      "step": 2800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00023518665607625097,
+      "loss": 0.6979,
+      "step": 2820
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002347100873709293,
+      "loss": 0.6973,
+      "step": 2840
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023423351866560762,
+      "loss": 0.7033,
+      "step": 2860
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023375694996028592,
+      "loss": 0.6964,
+      "step": 2880
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023328038125496422,
+      "loss": 0.7052,
+      "step": 2900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023280381254964255,
+      "loss": 0.6999,
+      "step": 2920
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00023232724384432085,
+      "loss": 0.6963,
+      "step": 2940
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002318506751389992,
+      "loss": 0.7025,
+      "step": 2960
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002313741064336775,
+      "loss": 0.704,
+      "step": 2980
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023089753772835583,
+      "loss": 0.6926,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.6828380227088928,
+      "eval_runtime": 49.5667,
+      "eval_samples_per_second": 40.35,
+      "eval_steps_per_second": 2.522,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023042096902303413,
+      "loss": 0.698,
+      "step": 3020
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022994440031771243,
+      "loss": 0.6893,
+      "step": 3040
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022946783161239076,
+      "loss": 0.6938,
+      "step": 3060
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00022899126290706908,
+      "loss": 0.6974,
+      "step": 3080
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002285146942017474,
+      "loss": 0.6922,
+      "step": 3100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002280381254964257,
+      "loss": 0.7073,
+      "step": 3120
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00022756155679110404,
+      "loss": 0.6895,
+      "step": 3140
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022708498808578234,
+      "loss": 0.7012,
+      "step": 3160
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022660841938046064,
+      "loss": 0.6985,
+      "step": 3180
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.000226131850675139,
+      "loss": 0.6901,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.6807068586349487,
+      "eval_runtime": 49.2421,
+      "eval_samples_per_second": 40.616,
+      "eval_steps_per_second": 2.538,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002256552819698173,
+      "loss": 0.697,
+      "step": 3220
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022517871326449562,
+      "loss": 0.7002,
+      "step": 3240
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022470214455917392,
+      "loss": 0.6918,
+      "step": 3260
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022422557585385225,
+      "loss": 0.6999,
+      "step": 3280
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022374900714853055,
+      "loss": 0.6961,
+      "step": 3300
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002232724384432089,
+      "loss": 0.6888,
+      "step": 3320
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002227958697378872,
+      "loss": 0.695,
+      "step": 3340
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002223193010325655,
+      "loss": 0.6861,
+      "step": 3360
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022184273232724383,
+      "loss": 0.6864,
+      "step": 3380
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022136616362192213,
+      "loss": 0.6917,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.6773961782455444,
+      "eval_runtime": 49.3961,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 3400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022088959491660043,
+      "loss": 0.679,
+      "step": 3420
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022041302621127879,
+      "loss": 0.6915,
+      "step": 3440
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00021993645750595709,
+      "loss": 0.6937,
+      "step": 3460
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002194598888006354,
+      "loss": 0.6831,
+      "step": 3480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002189833200953137,
+      "loss": 0.6875,
+      "step": 3500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00021850675138999204,
+      "loss": 0.6916,
+      "step": 3520
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00021803018268467034,
+      "loss": 0.6896,
+      "step": 3540
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002175536139793487,
+      "loss": 0.6986,
+      "step": 3560
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000217077045274027,
+      "loss": 0.693,
+      "step": 3580
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002166004765687053,
+      "loss": 0.6893,
+      "step": 3600
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.6753410696983337,
+      "eval_runtime": 49.3307,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 3600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021612390786338362,
+      "loss": 0.6872,
+      "step": 3620
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021564733915806192,
+      "loss": 0.6862,
+      "step": 3640
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021517077045274025,
+      "loss": 0.6943,
+      "step": 3660
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021469420174741858,
+      "loss": 0.6896,
+      "step": 3680
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002142176330420969,
+      "loss": 0.6912,
+      "step": 3700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002137410643367752,
+      "loss": 0.6859,
+      "step": 3720
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002132644956314535,
+      "loss": 0.6791,
+      "step": 3740
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021278792692613183,
+      "loss": 0.6882,
+      "step": 3760
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021231135822081013,
+      "loss": 0.6823,
+      "step": 3780
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002118347895154885,
+      "loss": 0.6831,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.6738302707672119,
+      "eval_runtime": 49.4648,
+      "eval_samples_per_second": 40.433,
+      "eval_steps_per_second": 2.527,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002113582208101668,
+      "loss": 0.6818,
+      "step": 3820
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002108816521048451,
+      "loss": 0.6912,
+      "step": 3840
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00021040508339952341,
+      "loss": 0.6884,
+      "step": 3860
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020992851469420171,
+      "loss": 0.6888,
+      "step": 3880
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020945194598888004,
+      "loss": 0.6822,
+      "step": 3900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00020897537728355837,
+      "loss": 0.6879,
+      "step": 3920
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002084988085782367,
+      "loss": 0.6771,
+      "step": 3940
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000208022239872915,
+      "loss": 0.684,
+      "step": 3960
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002075456711675933,
+      "loss": 0.6878,
+      "step": 3980
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020706910246227162,
+      "loss": 0.6913,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.6711302995681763,
+      "eval_runtime": 49.117,
+      "eval_samples_per_second": 40.719,
+      "eval_steps_per_second": 2.545,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020659253375694992,
+      "loss": 0.683,
+      "step": 4020
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020611596505162828,
+      "loss": 0.6833,
+      "step": 4040
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020563939634630658,
+      "loss": 0.6793,
+      "step": 4060
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002051628276409849,
+      "loss": 0.6843,
+      "step": 4080
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002046862589356632,
+      "loss": 0.6822,
+      "step": 4100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002042096902303415,
+      "loss": 0.6856,
+      "step": 4120
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020373312152501983,
+      "loss": 0.6809,
+      "step": 4140
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020325655281969816,
+      "loss": 0.6843,
+      "step": 4160
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002027799841143765,
+      "loss": 0.6754,
+      "step": 4180
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002023034154090548,
+      "loss": 0.6823,
+      "step": 4200
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.6697036027908325,
+      "eval_runtime": 49.3237,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 4200
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020182684670373312,
+      "loss": 0.6861,
+      "step": 4220
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020135027799841142,
+      "loss": 0.6806,
+      "step": 4240
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020087370929308972,
+      "loss": 0.6823,
+      "step": 4260
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020039714058776807,
+      "loss": 0.6805,
+      "step": 4280
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00019992057188244637,
+      "loss": 0.6813,
+      "step": 4300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001994440031771247,
+      "loss": 0.675,
+      "step": 4320
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.000198967434471803,
+      "loss": 0.6728,
+      "step": 4340
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001984908657664813,
+      "loss": 0.6676,
+      "step": 4360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019801429706115963,
+      "loss": 0.6729,
+      "step": 4380
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019753772835583795,
+      "loss": 0.685,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.6667952537536621,
+      "eval_runtime": 49.3899,
+      "eval_samples_per_second": 40.494,
+      "eval_steps_per_second": 2.531,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019706115965051628,
+      "loss": 0.6786,
+      "step": 4420
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00019658459094519458,
+      "loss": 0.6738,
+      "step": 4440
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0001961080222398729,
+      "loss": 0.686,
+      "step": 4460
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001956314535345512,
+      "loss": 0.6818,
+      "step": 4480
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001951548848292295,
+      "loss": 0.6741,
+      "step": 4500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019467831612390786,
+      "loss": 0.6756,
+      "step": 4520
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019420174741858616,
+      "loss": 0.6851,
+      "step": 4540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001937251787132645,
+      "loss": 0.6784,
+      "step": 4560
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001932486100079428,
+      "loss": 0.6785,
+      "step": 4580
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019277204130262112,
+      "loss": 0.678,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.6655837297439575,
+      "eval_runtime": 49.5019,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019229547259729942,
+      "loss": 0.6782,
+      "step": 4620
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019181890389197777,
+      "loss": 0.6683,
+      "step": 4640
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019134233518665607,
+      "loss": 0.6783,
+      "step": 4660
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00019086576648133437,
+      "loss": 0.675,
+      "step": 4680
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001903891977760127,
+      "loss": 0.6691,
+      "step": 4700
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.000189912629070691,
+      "loss": 0.6726,
+      "step": 4720
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018943606036536933,
+      "loss": 0.68,
+      "step": 4740
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018895949166004763,
+      "loss": 0.6694,
+      "step": 4760
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018848292295472598,
+      "loss": 0.6686,
+      "step": 4780
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018800635424940428,
+      "loss": 0.6766,
+      "step": 4800
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.6646501421928406,
+      "eval_runtime": 49.3188,
+      "eval_samples_per_second": 40.552,
+      "eval_steps_per_second": 2.535,
+      "step": 4800
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00018752978554408258,
+      "loss": 0.6724,
+      "step": 4820
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001870532168387609,
+      "loss": 0.6801,
+      "step": 4840
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001865766481334392,
+      "loss": 0.6698,
+      "step": 4860
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001861000794281175,
+      "loss": 0.6723,
+      "step": 4880
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018562351072279586,
+      "loss": 0.6693,
+      "step": 4900
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018514694201747416,
+      "loss": 0.6716,
+      "step": 4920
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001846703733121525,
+      "loss": 0.674,
+      "step": 4940
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001841938046068308,
+      "loss": 0.6702,
+      "step": 4960
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018371723590150912,
+      "loss": 0.6716,
+      "step": 4980
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018324066719618742,
+      "loss": 0.672,
+      "step": 5000
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.662735104560852,
+      "eval_runtime": 49.275,
+      "eval_samples_per_second": 40.589,
+      "eval_steps_per_second": 2.537,
+      "step": 5000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018276409849086577,
+      "loss": 0.6701,
+      "step": 5020
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018228752978554407,
+      "loss": 0.6663,
+      "step": 5040
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00018181096108022237,
+      "loss": 0.6651,
+      "step": 5060
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001813343923749007,
+      "loss": 0.6708,
+      "step": 5080
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000180857823669579,
+      "loss": 0.6697,
+      "step": 5100
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018038125496425733,
+      "loss": 0.662,
+      "step": 5120
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017990468625893566,
+      "loss": 0.669,
+      "step": 5140
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017942811755361398,
+      "loss": 0.6649,
+      "step": 5160
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017895154884829228,
+      "loss": 0.668,
+      "step": 5180
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00017847498014297058,
+      "loss": 0.6796,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.6609957218170166,
+      "eval_runtime": 49.2394,
+      "eval_samples_per_second": 40.618,
+      "eval_steps_per_second": 2.539,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001779984114376489,
+      "loss": 0.6745,
+      "step": 5220
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001775218427323272,
+      "loss": 0.6646,
+      "step": 5240
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00017704527402700556,
+      "loss": 0.6682,
+      "step": 5260
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017656870532168386,
+      "loss": 0.6713,
+      "step": 5280
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017609213661636216,
+      "loss": 0.6618,
+      "step": 5300
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001756155679110405,
+      "loss": 0.6703,
+      "step": 5320
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001751389992057188,
+      "loss": 0.6652,
+      "step": 5340
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017466243050039712,
+      "loss": 0.6698,
+      "step": 5360
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017418586179507545,
+      "loss": 0.6728,
+      "step": 5380
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017370929308975377,
+      "loss": 0.6752,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.6592395901679993,
+      "eval_runtime": 49.3426,
+      "eval_samples_per_second": 40.533,
+      "eval_steps_per_second": 2.533,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017323272438443207,
+      "loss": 0.6653,
+      "step": 5420
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00017275615567911037,
+      "loss": 0.669,
+      "step": 5440
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001722795869737887,
+      "loss": 0.6698,
+      "step": 5460
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.000171803018268467,
+      "loss": 0.6742,
+      "step": 5480
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017132644956314536,
+      "loss": 0.6596,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017084988085782366,
+      "loss": 0.6699,
+      "step": 5520
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00017037331215250198,
+      "loss": 0.664,
+      "step": 5540
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00016989674344718028,
+      "loss": 0.6673,
+      "step": 5560
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00016942017474185858,
+      "loss": 0.6684,
+      "step": 5580
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001689436060365369,
+      "loss": 0.6769,
+      "step": 5600
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.6582754850387573,
+      "eval_runtime": 49.469,
+      "eval_samples_per_second": 40.429,
+      "eval_steps_per_second": 2.527,
+      "step": 5600
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016846703733121524,
+      "loss": 0.6633,
+      "step": 5620
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016799046862589357,
+      "loss": 0.6679,
+      "step": 5640
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00016751389992057187,
+      "loss": 0.6601,
+      "step": 5660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001670373312152502,
+      "loss": 0.6731,
+      "step": 5680
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001665607625099285,
+      "loss": 0.6638,
+      "step": 5700
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001660841938046068,
+      "loss": 0.6693,
+      "step": 5720
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016560762509928515,
+      "loss": 0.6642,
+      "step": 5740
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016513105639396345,
+      "loss": 0.6649,
+      "step": 5760
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016465448768864178,
+      "loss": 0.663,
+      "step": 5780
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016417791898332008,
+      "loss": 0.6629,
+      "step": 5800
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.6574136018753052,
+      "eval_runtime": 49.3019,
+      "eval_samples_per_second": 40.566,
+      "eval_steps_per_second": 2.535,
+      "step": 5800
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00016370135027799838,
+      "loss": 0.6605,
+      "step": 5820
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001632247815726767,
+      "loss": 0.6707,
+      "step": 5840
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016274821286735503,
+      "loss": 0.6695,
+      "step": 5860
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016227164416203336,
+      "loss": 0.6647,
+      "step": 5880
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016179507545671166,
+      "loss": 0.6657,
+      "step": 5900
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016131850675138999,
+      "loss": 0.6656,
+      "step": 5920
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016084193804606829,
+      "loss": 0.6676,
+      "step": 5940
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00016036536934074659,
+      "loss": 0.6678,
+      "step": 5960
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00015988880063542494,
+      "loss": 0.6639,
+      "step": 5980
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015941223193010324,
+      "loss": 0.6645,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.656126081943512,
+      "eval_runtime": 49.5095,
+      "eval_samples_per_second": 40.396,
+      "eval_steps_per_second": 2.525,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015893566322478157,
+      "loss": 0.6672,
+      "step": 6020
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00015845909451945987,
+      "loss": 0.6678,
+      "step": 6040
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0001579825258141382,
+      "loss": 0.6676,
+      "step": 6060
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001575059571088165,
+      "loss": 0.6717,
+      "step": 6080
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00015702938840349485,
+      "loss": 0.671,
+      "step": 6100
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015655281969817315,
+      "loss": 0.6611,
+      "step": 6120
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015607625099285145,
+      "loss": 0.6606,
+      "step": 6140
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015559968228752978,
+      "loss": 0.6647,
+      "step": 6160
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015512311358220808,
+      "loss": 0.6652,
+      "step": 6180
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001546465448768864,
+      "loss": 0.6629,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.6549723148345947,
+      "eval_runtime": 49.4871,
+      "eval_samples_per_second": 40.415,
+      "eval_steps_per_second": 2.526,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00015416997617156473,
+      "loss": 0.6685,
+      "step": 6220
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015369340746624306,
+      "loss": 0.6578,
+      "step": 6240
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015321683876092136,
+      "loss": 0.6587,
+      "step": 6260
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015274027005559966,
+      "loss": 0.6655,
+      "step": 6280
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.000152263701350278,
+      "loss": 0.6662,
+      "step": 6300
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0001517871326449563,
+      "loss": 0.6648,
+      "step": 6320
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015131056393963464,
+      "loss": 0.6638,
+      "step": 6340
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015083399523431294,
+      "loss": 0.6614,
+      "step": 6360
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00015035742652899124,
+      "loss": 0.6552,
+      "step": 6380
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014988085782366957,
+      "loss": 0.6753,
+      "step": 6400
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.6544620990753174,
+      "eval_runtime": 49.3242,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 6400
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00014940428911834787,
+      "loss": 0.6588,
+      "step": 6420
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001489277204130262,
+      "loss": 0.6609,
+      "step": 6440
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014845115170770452,
+      "loss": 0.6565,
+      "step": 6460
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014797458300238282,
+      "loss": 0.6589,
+      "step": 6480
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014749801429706115,
+      "loss": 0.6585,
+      "step": 6500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014702144559173945,
+      "loss": 0.6737,
+      "step": 6520
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00014654487688641778,
+      "loss": 0.6554,
+      "step": 6540
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001460683081810961,
+      "loss": 0.6603,
+      "step": 6560
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001455917394757744,
+      "loss": 0.6647,
+      "step": 6580
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00014511517077045273,
+      "loss": 0.6632,
+      "step": 6600
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.6527110934257507,
+      "eval_runtime": 49.2622,
+      "eval_samples_per_second": 40.599,
+      "eval_steps_per_second": 2.537,
+      "step": 6600
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014463860206513106,
+      "loss": 0.6705,
+      "step": 6620
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014416203335980936,
+      "loss": 0.6703,
+      "step": 6640
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014368546465448766,
+      "loss": 0.6602,
+      "step": 6660
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.000143208895949166,
+      "loss": 0.6639,
+      "step": 6680
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00014273232724384432,
+      "loss": 0.6645,
+      "step": 6700
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014225575853852262,
+      "loss": 0.6655,
+      "step": 6720
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014177918983320094,
+      "loss": 0.664,
+      "step": 6740
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014130262112787927,
+      "loss": 0.6656,
+      "step": 6760
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014082605242255757,
+      "loss": 0.6658,
+      "step": 6780
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001403494837172359,
+      "loss": 0.6641,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.6513609886169434,
+      "eval_runtime": 49.4424,
+      "eval_samples_per_second": 40.451,
+      "eval_steps_per_second": 2.528,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001398729150119142,
+      "loss": 0.6599,
+      "step": 6820
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013939634630659252,
+      "loss": 0.6552,
+      "step": 6840
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013891977760127085,
+      "loss": 0.6616,
+      "step": 6860
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013844320889594915,
+      "loss": 0.6635,
+      "step": 6880
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013796664019062745,
+      "loss": 0.6608,
+      "step": 6900
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00013749007148530578,
+      "loss": 0.6596,
+      "step": 6920
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0001370135027799841,
+      "loss": 0.6589,
+      "step": 6940
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001365369340746624,
+      "loss": 0.6627,
+      "step": 6960
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013606036536934073,
+      "loss": 0.6606,
+      "step": 6980
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013558379666401906,
+      "loss": 0.6658,
+      "step": 7000
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.6510519981384277,
+      "eval_runtime": 49.5012,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 7000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00013510722795869736,
+      "loss": 0.6571,
+      "step": 7020
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001346306592533757,
+      "loss": 0.6607,
+      "step": 7040
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.000134154090548054,
+      "loss": 0.6562,
+      "step": 7060
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00013367752184273232,
+      "loss": 0.6582,
+      "step": 7080
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013320095313741064,
+      "loss": 0.6635,
+      "step": 7100
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013272438443208894,
+      "loss": 0.6682,
+      "step": 7120
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00013224781572676727,
+      "loss": 0.6633,
+      "step": 7140
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001317712470214456,
+      "loss": 0.6671,
+      "step": 7160
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001312946783161239,
+      "loss": 0.6645,
+      "step": 7180
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001308181096108022,
+      "loss": 0.6699,
+      "step": 7200
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6502068042755127,
+      "eval_runtime": 49.4619,
+      "eval_samples_per_second": 40.435,
+      "eval_steps_per_second": 2.527,
+      "step": 7200
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00013034154090548053,
+      "loss": 0.6617,
+      "step": 7220
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012986497220015885,
+      "loss": 0.6639,
+      "step": 7240
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012938840349483715,
+      "loss": 0.6634,
+      "step": 7260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012891183478951548,
+      "loss": 0.663,
+      "step": 7280
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00012843526608419378,
+      "loss": 0.6653,
+      "step": 7300
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0001279586973788721,
+      "loss": 0.6555,
+      "step": 7320
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012748212867355044,
+      "loss": 0.6653,
+      "step": 7340
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012700555996822874,
+      "loss": 0.6573,
+      "step": 7360
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012652899126290706,
+      "loss": 0.658,
+      "step": 7380
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001260524225575854,
+      "loss": 0.6562,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.6491650342941284,
+      "eval_runtime": 49.2463,
+      "eval_samples_per_second": 40.612,
+      "eval_steps_per_second": 2.538,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001255758538522637,
+      "loss": 0.6592,
+      "step": 7420
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.000125099285146942,
+      "loss": 0.6587,
+      "step": 7440
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012462271644162032,
+      "loss": 0.6616,
+      "step": 7460
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012414614773629865,
+      "loss": 0.655,
+      "step": 7480
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012366957903097695,
+      "loss": 0.6591,
+      "step": 7500
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012319301032565527,
+      "loss": 0.6545,
+      "step": 7520
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0001227164416203336,
+      "loss": 0.6673,
+      "step": 7540
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0001222398729150119,
+      "loss": 0.6626,
+      "step": 7560
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012176330420969023,
+      "loss": 0.6663,
+      "step": 7580
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012128673550436854,
+      "loss": 0.6643,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.6482685804367065,
+      "eval_runtime": 49.3591,
+      "eval_samples_per_second": 40.519,
+      "eval_steps_per_second": 2.532,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012081016679904685,
+      "loss": 0.6623,
+      "step": 7620
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00012033359809372518,
+      "loss": 0.6636,
+      "step": 7640
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00011985702938840348,
+      "loss": 0.6598,
+      "step": 7660
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0001193804606830818,
+      "loss": 0.6521,
+      "step": 7680
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00011890389197776012,
+      "loss": 0.664,
+      "step": 7700
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011842732327243844,
+      "loss": 0.6529,
+      "step": 7720
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011795075456711675,
+      "loss": 0.6622,
+      "step": 7740
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011747418586179508,
+      "loss": 0.6608,
+      "step": 7760
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011699761715647338,
+      "loss": 0.6556,
+      "step": 7780
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011652104845115169,
+      "loss": 0.6643,
+      "step": 7800
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.6474015116691589,
+      "eval_runtime": 49.3608,
+      "eval_samples_per_second": 40.518,
+      "eval_steps_per_second": 2.532,
+      "step": 7800
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011604447974583002,
+      "loss": 0.6541,
+      "step": 7820
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011556791104050833,
+      "loss": 0.6614,
+      "step": 7840
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011509134233518665,
+      "loss": 0.6499,
+      "step": 7860
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011461477362986497,
+      "loss": 0.6563,
+      "step": 7880
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011413820492454327,
+      "loss": 0.6589,
+      "step": 7900
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011366163621922159,
+      "loss": 0.6544,
+      "step": 7920
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011318506751389992,
+      "loss": 0.6606,
+      "step": 7940
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011270849880857823,
+      "loss": 0.657,
+      "step": 7960
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011223193010325654,
+      "loss": 0.6608,
+      "step": 7980
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011175536139793487,
+      "loss": 0.6595,
+      "step": 8000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.6469079256057739,
+      "eval_runtime": 49.3012,
+      "eval_samples_per_second": 40.567,
+      "eval_steps_per_second": 2.535,
+      "step": 8000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011127879269261318,
+      "loss": 0.6563,
+      "step": 8020
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011080222398729148,
+      "loss": 0.6602,
+      "step": 8040
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00011032565528196981,
+      "loss": 0.6603,
+      "step": 8060
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010984908657664812,
+      "loss": 0.6495,
+      "step": 8080
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010937251787132644,
+      "loss": 0.6551,
+      "step": 8100
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010891977760127084,
+      "loss": 0.6497,
+      "step": 8120
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010844320889594917,
+      "loss": 0.6652,
+      "step": 8140
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010796664019062747,
+      "loss": 0.6497,
+      "step": 8160
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010749007148530578,
+      "loss": 0.6554,
+      "step": 8180
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010701350277998411,
+      "loss": 0.6563,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.645990252494812,
+      "eval_runtime": 49.3957,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010653693407466242,
+      "loss": 0.6572,
+      "step": 8220
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010606036536934074,
+      "loss": 0.6563,
+      "step": 8240
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010558379666401906,
+      "loss": 0.6535,
+      "step": 8260
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010510722795869736,
+      "loss": 0.655,
+      "step": 8280
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010463065925337568,
+      "loss": 0.6554,
+      "step": 8300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.000104154090548054,
+      "loss": 0.6559,
+      "step": 8320
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00010367752184273232,
+      "loss": 0.6522,
+      "step": 8340
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010320095313741063,
+      "loss": 0.6568,
+      "step": 8360
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010272438443208896,
+      "loss": 0.6566,
+      "step": 8380
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010224781572676727,
+      "loss": 0.6496,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.6457875967025757,
+      "eval_runtime": 49.0201,
+      "eval_samples_per_second": 40.8,
+      "eval_steps_per_second": 2.55,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010177124702144557,
+      "loss": 0.66,
+      "step": 8420
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001012946783161239,
+      "loss": 0.6457,
+      "step": 8440
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001008419380460683,
+      "loss": 0.6349,
+      "step": 8460
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010036536934074662,
+      "loss": 0.6545,
+      "step": 8480
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.988880063542493e-05,
+      "loss": 0.6515,
+      "step": 8500
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.941223193010326e-05,
+      "loss": 0.6459,
+      "step": 8520
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.893566322478156e-05,
+      "loss": 0.6494,
+      "step": 8540
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.845909451945987e-05,
+      "loss": 0.6608,
+      "step": 8560
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.79825258141382e-05,
+      "loss": 0.6485,
+      "step": 8580
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.750595710881651e-05,
+      "loss": 0.6461,
+      "step": 8600
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 0.6450995802879333,
+      "eval_runtime": 49.2592,
+      "eval_samples_per_second": 40.602,
+      "eval_steps_per_second": 2.538,
+      "step": 8600
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.702938840349483e-05,
+      "loss": 0.6523,
+      "step": 8620
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.655281969817315e-05,
+      "loss": 0.6565,
+      "step": 8640
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.607625099285145e-05,
+      "loss": 0.6541,
+      "step": 8660
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.559968228752977e-05,
+      "loss": 0.6585,
+      "step": 8680
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.51231135822081e-05,
+      "loss": 0.6531,
+      "step": 8700
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.464654487688641e-05,
+      "loss": 0.6579,
+      "step": 8720
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.416997617156472e-05,
+      "loss": 0.6438,
+      "step": 8740
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.369340746624305e-05,
+      "loss": 0.6516,
+      "step": 8760
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.321683876092136e-05,
+      "loss": 0.6576,
+      "step": 8780
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.274027005559966e-05,
+      "loss": 0.6506,
+      "step": 8800
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.6444578170776367,
+      "eval_runtime": 49.0631,
+      "eval_samples_per_second": 40.764,
+      "eval_steps_per_second": 2.548,
+      "step": 8800
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.226370135027799e-05,
+      "loss": 0.6484,
+      "step": 8820
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.17871326449563e-05,
+      "loss": 0.6566,
+      "step": 8840
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.131056393963462e-05,
+      "loss": 0.6547,
+      "step": 8860
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.083399523431295e-05,
+      "loss": 0.6532,
+      "step": 8880
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.035742652899126e-05,
+      "loss": 0.6532,
+      "step": 8900
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.988085782366956e-05,
+      "loss": 0.6479,
+      "step": 8920
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.940428911834789e-05,
+      "loss": 0.6548,
+      "step": 8940
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.89277204130262e-05,
+      "loss": 0.647,
+      "step": 8960
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.845115170770452e-05,
+      "loss": 0.6478,
+      "step": 8980
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.797458300238284e-05,
+      "loss": 0.6553,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.6433074474334717,
+      "eval_runtime": 49.3831,
+      "eval_samples_per_second": 40.5,
+      "eval_steps_per_second": 2.531,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.749801429706116e-05,
+      "loss": 0.6443,
+      "step": 9020
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.702144559173947e-05,
+      "loss": 0.6518,
+      "step": 9040
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.65448768864178e-05,
+      "loss": 0.6578,
+      "step": 9060
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.60683081810961e-05,
+      "loss": 0.6472,
+      "step": 9080
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.559173947577441e-05,
+      "loss": 0.6471,
+      "step": 9100
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.511517077045274e-05,
+      "loss": 0.6482,
+      "step": 9120
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.463860206513105e-05,
+      "loss": 0.6522,
+      "step": 9140
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.416203335980937e-05,
+      "loss": 0.6584,
+      "step": 9160
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.368546465448769e-05,
+      "loss": 0.6596,
+      "step": 9180
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.320889594916599e-05,
+      "loss": 0.6581,
+      "step": 9200
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.6426697969436646,
+      "eval_runtime": 49.0935,
+      "eval_samples_per_second": 40.739,
+      "eval_steps_per_second": 2.546,
+      "step": 9200
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.273232724384431e-05,
+      "loss": 0.6441,
+      "step": 9220
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.225575853852263e-05,
+      "loss": 0.6509,
+      "step": 9240
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.177918983320095e-05,
+      "loss": 0.6409,
+      "step": 9260
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.130262112787926e-05,
+      "loss": 0.6475,
+      "step": 9280
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.082605242255759e-05,
+      "loss": 0.6597,
+      "step": 9300
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.03494837172359e-05,
+      "loss": 0.6544,
+      "step": 9320
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.98729150119142e-05,
+      "loss": 0.6528,
+      "step": 9340
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.939634630659253e-05,
+      "loss": 0.644,
+      "step": 9360
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.891977760127084e-05,
+      "loss": 0.6552,
+      "step": 9380
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.844320889594916e-05,
+      "loss": 0.6548,
+      "step": 9400
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.6423606276512146,
+      "eval_runtime": 49.6466,
+      "eval_samples_per_second": 40.285,
+      "eval_steps_per_second": 2.518,
+      "step": 9400
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.796664019062748e-05,
+      "loss": 0.6568,
+      "step": 9420
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.74900714853058e-05,
+      "loss": 0.6539,
+      "step": 9440
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.70135027799841e-05,
+      "loss": 0.6468,
+      "step": 9460
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.653693407466243e-05,
+      "loss": 0.6425,
+      "step": 9480
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.606036536934074e-05,
+      "loss": 0.6523,
+      "step": 9500
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.558379666401905e-05,
+      "loss": 0.6468,
+      "step": 9520
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.510722795869738e-05,
+      "loss": 0.6518,
+      "step": 9540
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.46306592533757e-05,
+      "loss": 0.6534,
+      "step": 9560
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.415409054805401e-05,
+      "loss": 0.6471,
+      "step": 9580
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.367752184273232e-05,
+      "loss": 0.6465,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.6418060064315796,
+      "eval_runtime": 49.4954,
+      "eval_samples_per_second": 40.408,
+      "eval_steps_per_second": 2.525,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.320095313741064e-05,
+      "loss": 0.6577,
+      "step": 9620
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.272438443208895e-05,
+      "loss": 0.6453,
+      "step": 9640
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.224781572676726e-05,
+      "loss": 0.6489,
+      "step": 9660
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.177124702144559e-05,
+      "loss": 0.6466,
+      "step": 9680
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.12946783161239e-05,
+      "loss": 0.6493,
+      "step": 9700
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.081810961080222e-05,
+      "loss": 0.6537,
+      "step": 9720
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.034154090548053e-05,
+      "loss": 0.6486,
+      "step": 9740
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.986497220015885e-05,
+      "loss": 0.65,
+      "step": 9760
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.938840349483717e-05,
+      "loss": 0.6387,
+      "step": 9780
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.891183478951549e-05,
+      "loss": 0.6464,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.6412256360054016,
+      "eval_runtime": 49.3752,
+      "eval_samples_per_second": 40.506,
+      "eval_steps_per_second": 2.532,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.84352660841938e-05,
+      "loss": 0.6475,
+      "step": 9820
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.795869737887211e-05,
+      "loss": 0.6543,
+      "step": 9840
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.748212867355043e-05,
+      "loss": 0.6545,
+      "step": 9860
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.700555996822874e-05,
+      "loss": 0.6468,
+      "step": 9880
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.652899126290707e-05,
+      "loss": 0.651,
+      "step": 9900
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.605242255758538e-05,
+      "loss": 0.641,
+      "step": 9920
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.55758538522637e-05,
+      "loss": 0.657,
+      "step": 9940
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.509928514694201e-05,
+      "loss": 0.6481,
+      "step": 9960
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.462271644162034e-05,
+      "loss": 0.6496,
+      "step": 9980
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.414614773629864e-05,
+      "loss": 0.6451,
+      "step": 10000
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.6414454579353333,
+      "eval_runtime": 49.395,
+      "eval_samples_per_second": 40.49,
+      "eval_steps_per_second": 2.531,
+      "step": 10000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.366957903097696e-05,
+      "loss": 0.6555,
+      "step": 10020
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.319301032565528e-05,
+      "loss": 0.6494,
+      "step": 10040
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.271644162033359e-05,
+      "loss": 0.6487,
+      "step": 10060
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.22398729150119e-05,
+      "loss": 0.6544,
+      "step": 10080
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.176330420969023e-05,
+      "loss": 0.6468,
+      "step": 10100
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.128673550436853e-05,
+      "loss": 0.6441,
+      "step": 10120
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.081016679904686e-05,
+      "loss": 0.6478,
+      "step": 10140
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.033359809372518e-05,
+      "loss": 0.6539,
+      "step": 10160
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.985702938840349e-05,
+      "loss": 0.6486,
+      "step": 10180
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.938046068308181e-05,
+      "loss": 0.6467,
+      "step": 10200
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6406835913658142,
+      "eval_runtime": 49.5084,
+      "eval_samples_per_second": 40.397,
+      "eval_steps_per_second": 2.525,
+      "step": 10200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.890389197776013e-05,
+      "loss": 0.6399,
+      "step": 10220
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.8427323272438435e-05,
+      "loss": 0.6519,
+      "step": 10240
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7950754567116756e-05,
+      "loss": 0.6465,
+      "step": 10260
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7474185861795076e-05,
+      "loss": 0.6479,
+      "step": 10280
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.6997617156473383e-05,
+      "loss": 0.6462,
+      "step": 10300
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.6521048451151704e-05,
+      "loss": 0.6451,
+      "step": 10320
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.604447974583002e-05,
+      "loss": 0.6453,
+      "step": 10340
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.556791104050833e-05,
+      "loss": 0.6543,
+      "step": 10360
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.509134233518665e-05,
+      "loss": 0.6428,
+      "step": 10380
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.4614773629864966e-05,
+      "loss": 0.6491,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.6400973796844482,
+      "eval_runtime": 49.3411,
+      "eval_samples_per_second": 40.534,
+      "eval_steps_per_second": 2.533,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.413820492454328e-05,
+      "loss": 0.649,
+      "step": 10420
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.36616362192216e-05,
+      "loss": 0.6494,
+      "step": 10440
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.3185067513899913e-05,
+      "loss": 0.6431,
+      "step": 10460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.2708498808578234e-05,
+      "loss": 0.6478,
+      "step": 10480
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.223193010325655e-05,
+      "loss": 0.6416,
+      "step": 10500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.175536139793486e-05,
+      "loss": 0.6507,
+      "step": 10520
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.127879269261318e-05,
+      "loss": 0.6448,
+      "step": 10540
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.0802223987291496e-05,
+      "loss": 0.6455,
+      "step": 10560
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.032565528196981e-05,
+      "loss": 0.6437,
+      "step": 10580
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.984908657664813e-05,
+      "loss": 0.6488,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.6400858163833618,
+      "eval_runtime": 49.8084,
+      "eval_samples_per_second": 40.154,
+      "eval_steps_per_second": 2.51,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.937251787132645e-05,
+      "loss": 0.6436,
+      "step": 10620
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.889594916600476e-05,
+      "loss": 0.6446,
+      "step": 10640
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.841938046068308e-05,
+      "loss": 0.6488,
+      "step": 10660
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.79428117553614e-05,
+      "loss": 0.6485,
+      "step": 10680
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.7466243050039705e-05,
+      "loss": 0.6524,
+      "step": 10700
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.6989674344718026e-05,
+      "loss": 0.6376,
+      "step": 10720
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.6513105639396346e-05,
+      "loss": 0.649,
+      "step": 10740
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.603653693407465e-05,
+      "loss": 0.6444,
+      "step": 10760
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5559968228752974e-05,
+      "loss": 0.6407,
+      "step": 10780
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5083399523431294e-05,
+      "loss": 0.6448,
+      "step": 10800
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.6392157077789307,
+      "eval_runtime": 49.7963,
+      "eval_samples_per_second": 40.164,
+      "eval_steps_per_second": 2.51,
+      "step": 10800
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.46068308181096e-05,
+      "loss": 0.6454,
+      "step": 10820
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.413026211278792e-05,
+      "loss": 0.6544,
+      "step": 10840
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.365369340746624e-05,
+      "loss": 0.6478,
+      "step": 10860
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.3177124702144556e-05,
+      "loss": 0.6434,
+      "step": 10880
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.270055599682287e-05,
+      "loss": 0.6482,
+      "step": 10900
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.222398729150119e-05,
+      "loss": 0.6403,
+      "step": 10920
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.1747418586179504e-05,
+      "loss": 0.6501,
+      "step": 10940
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.127084988085782e-05,
+      "loss": 0.6507,
+      "step": 10960
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.079428117553614e-05,
+      "loss": 0.6496,
+      "step": 10980
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.031771247021445e-05,
+      "loss": 0.6544,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.6390016078948975,
+      "eval_runtime": 49.6306,
+      "eval_samples_per_second": 40.298,
+      "eval_steps_per_second": 2.519,
+      "step": 11000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.984114376489277e-05,
+      "loss": 0.6405,
+      "step": 11020
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.9364575059571086e-05,
+      "loss": 0.6429,
+      "step": 11040
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.88880063542494e-05,
+      "loss": 0.6403,
+      "step": 11060
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.841143764892772e-05,
+      "loss": 0.6338,
+      "step": 11080
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.7934868943606034e-05,
+      "loss": 0.6417,
+      "step": 11100
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.7458300238284354e-05,
+      "loss": 0.6463,
+      "step": 11120
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.698173153296267e-05,
+      "loss": 0.6498,
+      "step": 11140
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.650516282764098e-05,
+      "loss": 0.6415,
+      "step": 11160
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.6028594122319296e-05,
+      "loss": 0.645,
+      "step": 11180
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.5552025416997616e-05,
+      "loss": 0.6467,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6387213468551636,
+      "eval_runtime": 49.1775,
+      "eval_samples_per_second": 40.669,
+      "eval_steps_per_second": 2.542,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.507545671167593e-05,
+      "loss": 0.6515,
+      "step": 11220
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4598888006354244e-05,
+      "loss": 0.65,
+      "step": 11240
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4122319301032564e-05,
+      "loss": 0.6512,
+      "step": 11260
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.364575059571088e-05,
+      "loss": 0.6443,
+      "step": 11280
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.316918189038919e-05,
+      "loss": 0.6483,
+      "step": 11300
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.269261318506751e-05,
+      "loss": 0.6455,
+      "step": 11320
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.2216044479745826e-05,
+      "loss": 0.6461,
+      "step": 11340
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.173947577442414e-05,
+      "loss": 0.6505,
+      "step": 11360
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.126290706910246e-05,
+      "loss": 0.6517,
+      "step": 11380
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.0786338363780774e-05,
+      "loss": 0.6406,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.6380326151847839,
+      "eval_runtime": 49.4129,
+      "eval_samples_per_second": 40.475,
+      "eval_steps_per_second": 2.53,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.030976965845909e-05,
+      "loss": 0.647,
+      "step": 11420
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 2.9833200953137408e-05,
+      "loss": 0.6495,
+      "step": 11440
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.9356632247815725e-05,
+      "loss": 0.6448,
+      "step": 11460
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.888006354249404e-05,
+      "loss": 0.6447,
+      "step": 11480
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.840349483717236e-05,
+      "loss": 0.6527,
+      "step": 11500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.7926926131850673e-05,
+      "loss": 0.6406,
+      "step": 11520
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.7450357426528987e-05,
+      "loss": 0.6443,
+      "step": 11540
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.6973788721207307e-05,
+      "loss": 0.6351,
+      "step": 11560
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.649722001588562e-05,
+      "loss": 0.6417,
+      "step": 11580
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.6020651310563938e-05,
+      "loss": 0.6356,
+      "step": 11600
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.6381237506866455,
+      "eval_runtime": 49.5534,
+      "eval_samples_per_second": 40.36,
+      "eval_steps_per_second": 2.523,
+      "step": 11600
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.5544082605242255e-05,
+      "loss": 0.6412,
+      "step": 11620
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.506751389992057e-05,
+      "loss": 0.6418,
+      "step": 11640
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4590945194598886e-05,
+      "loss": 0.6426,
+      "step": 11660
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4114376489277203e-05,
+      "loss": 0.6461,
+      "step": 11680
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.363780778395552e-05,
+      "loss": 0.6475,
+      "step": 11700
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.3161239078633834e-05,
+      "loss": 0.6431,
+      "step": 11720
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2684670373312148e-05,
+      "loss": 0.6416,
+      "step": 11740
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2208101667990468e-05,
+      "loss": 0.6495,
+      "step": 11760
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.1731532962668782e-05,
+      "loss": 0.6404,
+      "step": 11780
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.1254964257347096e-05,
+      "loss": 0.6434,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.6377163529396057,
+      "eval_runtime": 49.328,
+      "eval_samples_per_second": 40.545,
+      "eval_steps_per_second": 2.534,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.0778395552025416e-05,
+      "loss": 0.6437,
+      "step": 11820
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.030182684670373e-05,
+      "loss": 0.6393,
+      "step": 11840
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.9825258141382047e-05,
+      "loss": 0.6412,
+      "step": 11860
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.9348689436060364e-05,
+      "loss": 0.6494,
+      "step": 11880
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.887212073073868e-05,
+      "loss": 0.6481,
+      "step": 11900
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.8395552025416998e-05,
+      "loss": 0.6407,
+      "step": 11920
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.7918983320095312e-05,
+      "loss": 0.6422,
+      "step": 11940
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.744241461477363e-05,
+      "loss": 0.6487,
+      "step": 11960
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.6965845909451946e-05,
+      "loss": 0.6478,
+      "step": 11980
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.648927720413026e-05,
+      "loss": 0.6451,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.6374698281288147,
+      "eval_runtime": 49.9107,
+      "eval_samples_per_second": 40.072,
+      "eval_steps_per_second": 2.504,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.6012708498808577e-05,
+      "loss": 0.6454,
+      "step": 12020
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5536139793486894e-05,
+      "loss": 0.6399,
+      "step": 12040
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5059571088165208e-05,
+      "loss": 0.6479,
+      "step": 12060
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4583002382843525e-05,
+      "loss": 0.6412,
+      "step": 12080
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4106433677521842e-05,
+      "loss": 0.65,
+      "step": 12100
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3629864972200157e-05,
+      "loss": 0.6461,
+      "step": 12120
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3153296266878475e-05,
+      "loss": 0.6434,
+      "step": 12140
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.2676727561556788e-05,
+      "loss": 0.6463,
+      "step": 12160
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.2200158856235105e-05,
+      "loss": 0.6399,
+      "step": 12180
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.1723590150913422e-05,
+      "loss": 0.6446,
+      "step": 12200
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.6372544765472412,
+      "eval_runtime": 49.6265,
+      "eval_samples_per_second": 40.301,
+      "eval_steps_per_second": 2.519,
+      "step": 12200
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.1247021445591738e-05,
+      "loss": 0.6411,
+      "step": 12220
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.0770452740270055e-05,
+      "loss": 0.6523,
+      "step": 12240
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.0293884034948372e-05,
+      "loss": 0.6456,
+      "step": 12260
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 9.817315329626686e-06,
+      "loss": 0.6394,
+      "step": 12280
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 9.340746624305003e-06,
+      "loss": 0.6466,
+      "step": 12300
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 8.864177918983318e-06,
+      "loss": 0.6415,
+      "step": 12320
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 8.387609213661635e-06,
+      "loss": 0.6349,
+      "step": 12340
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.911040508339953e-06,
+      "loss": 0.6415,
+      "step": 12360
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 7.434471803018268e-06,
+      "loss": 0.6484,
+      "step": 12380
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.957903097696583e-06,
+      "loss": 0.6522,
+      "step": 12400
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.6368712186813354,
+      "eval_runtime": 49.0693,
+      "eval_samples_per_second": 40.759,
+      "eval_steps_per_second": 2.547,
+      "step": 12400
+    }
+  ],
+  "max_steps": 12690,
+  "num_train_epochs": 3,
+  "total_flos": 1.6115968989795975e+19,
+  "trial_name": null,
+  "trial_params": null
+}

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a070370e87c048b60fc888b8736a0166eb94eeb3a75f5f78918edab715d0fb1c
+size 3579

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adc421ca0cff089fc9d5410754618990eeffd7211650fedbd4ea6c12ce50487d
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07cb1c0cd175ab3c89d7c1d0757096e6296fb26b15857a8055e81cea1ea2cc09
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fea007e68f1c9bcee110c38f61b818ac2bc4fd40e2301190a645e34c33a0f16
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3f8942b136a5483f01aef18b20bc8e5593a6ffc1c98f568387b2998ae5919ea
+size 14583

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ef71700e98ec366ab46243409e3aae93c95cdbd7ffb98f89074ebd1b9ec3b15
+size 557

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:785a83cf92471c0356ef5051741195c9790867768c86ba3d8a21ba52906bbf2f
+size 627

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,4300 @@

+{
+  "best_metric": 0.636846125125885,
+  "best_model_checkpoint": "lora-alpaca-cn/checkpoint-12600",
+  "epoch": 2.978723404255319,
+  "global_step": 12600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.9999999999999995e-05,
+      "loss": 1.7735,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00011999999999999999,
+      "loss": 1.1358,
+      "step": 40
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.9749,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.9316,
+      "step": 80
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0003,
+      "loss": 0.9072,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002995234312946783,
+      "loss": 0.8963,
+      "step": 120
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002990468625893566,
+      "loss": 0.8853,
+      "step": 140
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002985702938840349,
+      "loss": 0.8709,
+      "step": 160
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00029809372517871323,
+      "loss": 0.8555,
+      "step": 180
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029761715647339156,
+      "loss": 0.8584,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.8360834717750549,
+      "eval_runtime": 49.29,
+      "eval_samples_per_second": 40.576,
+      "eval_steps_per_second": 2.536,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002971405877680699,
+      "loss": 0.859,
+      "step": 220
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00029666401906274816,
+      "loss": 0.8511,
+      "step": 240
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002961874503574265,
+      "loss": 0.8401,
+      "step": 260
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002957108816521048,
+      "loss": 0.8357,
+      "step": 280
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00029523431294678314,
+      "loss": 0.8413,
+      "step": 300
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00029475774424146147,
+      "loss": 0.8283,
+      "step": 320
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002942811755361398,
+      "loss": 0.8202,
+      "step": 340
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029380460683081807,
+      "loss": 0.8222,
+      "step": 360
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002933280381254964,
+      "loss": 0.8178,
+      "step": 380
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002928514694201747,
+      "loss": 0.8177,
+      "step": 400
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.7966175079345703,
+      "eval_runtime": 49.1752,
+      "eval_samples_per_second": 40.671,
+      "eval_steps_per_second": 2.542,
+      "step": 400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00029237490071485305,
+      "loss": 0.8057,
+      "step": 420
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002918983320095314,
+      "loss": 0.811,
+      "step": 440
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00029142176330420965,
+      "loss": 0.8056,
+      "step": 460
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.000290945194598888,
+      "loss": 0.7993,
+      "step": 480
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002904686258935663,
+      "loss": 0.7982,
+      "step": 500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002899920571882446,
+      "loss": 0.8023,
+      "step": 520
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028951548848292296,
+      "loss": 0.7968,
+      "step": 540
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00028903891977760123,
+      "loss": 0.8029,
+      "step": 560
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00028856235107227956,
+      "loss": 0.7892,
+      "step": 580
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002880857823669579,
+      "loss": 0.7946,
+      "step": 600
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.7735009789466858,
+      "eval_runtime": 49.3305,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00028760921366163616,
+      "loss": 0.782,
+      "step": 620
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002871326449563145,
+      "loss": 0.7799,
+      "step": 640
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002866560762509928,
+      "loss": 0.7782,
+      "step": 660
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00028617950754567114,
+      "loss": 0.7785,
+      "step": 680
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028570293884034947,
+      "loss": 0.785,
+      "step": 700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002852263701350278,
+      "loss": 0.7754,
+      "step": 720
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028474980142970607,
+      "loss": 0.7804,
+      "step": 740
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002842732327243844,
+      "loss": 0.7696,
+      "step": 760
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002837966640190627,
+      "loss": 0.7692,
+      "step": 780
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00028332009531374105,
+      "loss": 0.7752,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7564254403114319,
+      "eval_runtime": 49.106,
+      "eval_samples_per_second": 40.728,
+      "eval_steps_per_second": 2.546,
+      "step": 800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002828435266084194,
+      "loss": 0.7698,
+      "step": 820
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00028236695790309765,
+      "loss": 0.7699,
+      "step": 840
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000281890389197776,
+      "loss": 0.7718,
+      "step": 860
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002814138204924543,
+      "loss": 0.7644,
+      "step": 880
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00028093725178713263,
+      "loss": 0.7659,
+      "step": 900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00028046068308181096,
+      "loss": 0.7641,
+      "step": 920
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00027998411437648923,
+      "loss": 0.7535,
+      "step": 940
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00027950754567116756,
+      "loss": 0.7672,
+      "step": 960
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002790309769658459,
+      "loss": 0.7563,
+      "step": 980
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002785544082605242,
+      "loss": 0.752,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.7433652281761169,
+      "eval_runtime": 48.9945,
+      "eval_samples_per_second": 40.821,
+      "eval_steps_per_second": 2.551,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00027807783955520254,
+      "loss": 0.755,
+      "step": 1020
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027760127084988087,
+      "loss": 0.7563,
+      "step": 1040
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00027712470214455914,
+      "loss": 0.7475,
+      "step": 1060
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027664813343923747,
+      "loss": 0.7599,
+      "step": 1080
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002761715647339158,
+      "loss": 0.7533,
+      "step": 1100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00027569499602859407,
+      "loss": 0.7488,
+      "step": 1120
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00027521842732327245,
+      "loss": 0.753,
+      "step": 1140
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002747418586179507,
+      "loss": 0.7435,
+      "step": 1160
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00027426528991262905,
+      "loss": 0.7457,
+      "step": 1180
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002737887212073074,
+      "loss": 0.742,
+      "step": 1200
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.7321739792823792,
+      "eval_runtime": 48.8876,
+      "eval_samples_per_second": 40.91,
+      "eval_steps_per_second": 2.557,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00027331215250198565,
+      "loss": 0.7474,
+      "step": 1220
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000272835583796664,
+      "loss": 0.7456,
+      "step": 1240
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002723590150913423,
+      "loss": 0.7406,
+      "step": 1260
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00027188244638602063,
+      "loss": 0.7448,
+      "step": 1280
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027140587768069896,
+      "loss": 0.7445,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00027092930897537723,
+      "loss": 0.7349,
+      "step": 1320
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00027045274027005556,
+      "loss": 0.7395,
+      "step": 1340
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002699761715647339,
+      "loss": 0.7382,
+      "step": 1360
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002694996028594122,
+      "loss": 0.7357,
+      "step": 1380
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00026902303415409054,
+      "loss": 0.7409,
+      "step": 1400
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.7235888242721558,
+      "eval_runtime": 49.2145,
+      "eval_samples_per_second": 40.638,
+      "eval_steps_per_second": 2.54,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026854646544876887,
+      "loss": 0.7376,
+      "step": 1420
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00026806989674344714,
+      "loss": 0.7298,
+      "step": 1440
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00026759332803812547,
+      "loss": 0.7379,
+      "step": 1460
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002671167593328038,
+      "loss": 0.7354,
+      "step": 1480
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002666401906274821,
+      "loss": 0.7341,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00026616362192216045,
+      "loss": 0.7352,
+      "step": 1520
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002656870532168387,
+      "loss": 0.7321,
+      "step": 1540
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00026521048451151705,
+      "loss": 0.7285,
+      "step": 1560
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002647339158061954,
+      "loss": 0.73,
+      "step": 1580
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026425734710087365,
+      "loss": 0.7304,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.716058611869812,
+      "eval_runtime": 48.9201,
+      "eval_samples_per_second": 40.883,
+      "eval_steps_per_second": 2.555,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00026378077839555203,
+      "loss": 0.7314,
+      "step": 1620
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002633042096902303,
+      "loss": 0.7315,
+      "step": 1640
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00026282764098490863,
+      "loss": 0.7239,
+      "step": 1660
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026235107227958696,
+      "loss": 0.73,
+      "step": 1680
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00026187450357426523,
+      "loss": 0.7243,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00026139793486894356,
+      "loss": 0.7199,
+      "step": 1720
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002609213661636219,
+      "loss": 0.7216,
+      "step": 1740
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002604447974583002,
+      "loss": 0.7358,
+      "step": 1760
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00025996822875297854,
+      "loss": 0.7313,
+      "step": 1780
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025949166004765687,
+      "loss": 0.7236,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.7097632884979248,
+      "eval_runtime": 49.4908,
+      "eval_samples_per_second": 40.412,
+      "eval_steps_per_second": 2.526,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025901509134233514,
+      "loss": 0.7282,
+      "step": 1820
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00025853852263701347,
+      "loss": 0.7187,
+      "step": 1840
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002580619539316918,
+      "loss": 0.7303,
+      "step": 1860
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002575853852263701,
+      "loss": 0.724,
+      "step": 1880
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00025710881652104845,
+      "loss": 0.7248,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002566322478157267,
+      "loss": 0.7195,
+      "step": 1920
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00025615567911040505,
+      "loss": 0.7269,
+      "step": 1940
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002556791104050834,
+      "loss": 0.7209,
+      "step": 1960
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002552025416997617,
+      "loss": 0.7282,
+      "step": 1980
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00025472597299444003,
+      "loss": 0.7195,
+      "step": 2000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.7037709355354309,
+      "eval_runtime": 49.7167,
+      "eval_samples_per_second": 40.228,
+      "eval_steps_per_second": 2.514,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002542494042891183,
+      "loss": 0.7229,
+      "step": 2020
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00025377283558379664,
+      "loss": 0.718,
+      "step": 2040
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025329626687847496,
+      "loss": 0.7223,
+      "step": 2060
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025281969817315324,
+      "loss": 0.7209,
+      "step": 2080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002523431294678316,
+      "loss": 0.7151,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002518665607625099,
+      "loss": 0.7141,
+      "step": 2120
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002513899920571882,
+      "loss": 0.7084,
+      "step": 2140
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00025091342335186654,
+      "loss": 0.7075,
+      "step": 2160
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00025043685464654487,
+      "loss": 0.7133,
+      "step": 2180
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024996028594122314,
+      "loss": 0.7092,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.6989386677742004,
+      "eval_runtime": 49.2344,
+      "eval_samples_per_second": 40.622,
+      "eval_steps_per_second": 2.539,
+      "step": 2200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002494837172359015,
+      "loss": 0.7178,
+      "step": 2220
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002490071485305798,
+      "loss": 0.7188,
+      "step": 2240
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002485305798252581,
+      "loss": 0.7161,
+      "step": 2260
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00024805401111993645,
+      "loss": 0.7078,
+      "step": 2280
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002475774424146147,
+      "loss": 0.7,
+      "step": 2300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00024710087370929305,
+      "loss": 0.718,
+      "step": 2320
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002466243050039714,
+      "loss": 0.7059,
+      "step": 2340
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002461477362986497,
+      "loss": 0.712,
+      "step": 2360
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00024567116759332804,
+      "loss": 0.7116,
+      "step": 2380
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002451945988880063,
+      "loss": 0.6986,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.6939737796783447,
+      "eval_runtime": 49.459,
+      "eval_samples_per_second": 40.438,
+      "eval_steps_per_second": 2.527,
+      "step": 2400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024471803018268464,
+      "loss": 0.7168,
+      "step": 2420
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024424146147736296,
+      "loss": 0.7141,
+      "step": 2440
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024376489277204126,
+      "loss": 0.7095,
+      "step": 2460
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024328832406671962,
+      "loss": 0.7091,
+      "step": 2480
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024281175536139792,
+      "loss": 0.7015,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024233518665607622,
+      "loss": 0.7109,
+      "step": 2520
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024185861795075455,
+      "loss": 0.7086,
+      "step": 2540
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024138204924543285,
+      "loss": 0.7118,
+      "step": 2560
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00024090548054011117,
+      "loss": 0.7033,
+      "step": 2580
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002404289118347895,
+      "loss": 0.7128,
+      "step": 2600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.6901652812957764,
+      "eval_runtime": 49.5038,
+      "eval_samples_per_second": 40.401,
+      "eval_steps_per_second": 2.525,
+      "step": 2600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023995234312946783,
+      "loss": 0.6968,
+      "step": 2620
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023947577442414613,
+      "loss": 0.7109,
+      "step": 2640
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023899920571882443,
+      "loss": 0.7048,
+      "step": 2660
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023852263701350276,
+      "loss": 0.7012,
+      "step": 2680
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00023804606830818106,
+      "loss": 0.7065,
+      "step": 2700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002375694996028594,
+      "loss": 0.7009,
+      "step": 2720
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002370929308975377,
+      "loss": 0.7035,
+      "step": 2740
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00023661636219221604,
+      "loss": 0.6973,
+      "step": 2760
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023613979348689434,
+      "loss": 0.7075,
+      "step": 2780
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023566322478157264,
+      "loss": 0.6952,
+      "step": 2800
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.6865400671958923,
+      "eval_runtime": 49.2814,
+      "eval_samples_per_second": 40.583,
+      "eval_steps_per_second": 2.536,
+      "step": 2800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00023518665607625097,
+      "loss": 0.6979,
+      "step": 2820
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002347100873709293,
+      "loss": 0.6973,
+      "step": 2840
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023423351866560762,
+      "loss": 0.7033,
+      "step": 2860
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023375694996028592,
+      "loss": 0.6964,
+      "step": 2880
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023328038125496422,
+      "loss": 0.7052,
+      "step": 2900
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023280381254964255,
+      "loss": 0.6999,
+      "step": 2920
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00023232724384432085,
+      "loss": 0.6963,
+      "step": 2940
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002318506751389992,
+      "loss": 0.7025,
+      "step": 2960
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002313741064336775,
+      "loss": 0.704,
+      "step": 2980
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023089753772835583,
+      "loss": 0.6926,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.6828380227088928,
+      "eval_runtime": 49.5667,
+      "eval_samples_per_second": 40.35,
+      "eval_steps_per_second": 2.522,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00023042096902303413,
+      "loss": 0.698,
+      "step": 3020
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022994440031771243,
+      "loss": 0.6893,
+      "step": 3040
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00022946783161239076,
+      "loss": 0.6938,
+      "step": 3060
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00022899126290706908,
+      "loss": 0.6974,
+      "step": 3080
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002285146942017474,
+      "loss": 0.6922,
+      "step": 3100
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002280381254964257,
+      "loss": 0.7073,
+      "step": 3120
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00022756155679110404,
+      "loss": 0.6895,
+      "step": 3140
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022708498808578234,
+      "loss": 0.7012,
+      "step": 3160
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022660841938046064,
+      "loss": 0.6985,
+      "step": 3180
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.000226131850675139,
+      "loss": 0.6901,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.6807068586349487,
+      "eval_runtime": 49.2421,
+      "eval_samples_per_second": 40.616,
+      "eval_steps_per_second": 2.538,
+      "step": 3200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002256552819698173,
+      "loss": 0.697,
+      "step": 3220
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022517871326449562,
+      "loss": 0.7002,
+      "step": 3240
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00022470214455917392,
+      "loss": 0.6918,
+      "step": 3260
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022422557585385225,
+      "loss": 0.6999,
+      "step": 3280
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022374900714853055,
+      "loss": 0.6961,
+      "step": 3300
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002232724384432089,
+      "loss": 0.6888,
+      "step": 3320
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002227958697378872,
+      "loss": 0.695,
+      "step": 3340
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002223193010325655,
+      "loss": 0.6861,
+      "step": 3360
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022184273232724383,
+      "loss": 0.6864,
+      "step": 3380
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022136616362192213,
+      "loss": 0.6917,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.6773961782455444,
+      "eval_runtime": 49.3961,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 3400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022088959491660043,
+      "loss": 0.679,
+      "step": 3420
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00022041302621127879,
+      "loss": 0.6915,
+      "step": 3440
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00021993645750595709,
+      "loss": 0.6937,
+      "step": 3460
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002194598888006354,
+      "loss": 0.6831,
+      "step": 3480
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002189833200953137,
+      "loss": 0.6875,
+      "step": 3500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00021850675138999204,
+      "loss": 0.6916,
+      "step": 3520
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00021803018268467034,
+      "loss": 0.6896,
+      "step": 3540
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002175536139793487,
+      "loss": 0.6986,
+      "step": 3560
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.000217077045274027,
+      "loss": 0.693,
+      "step": 3580
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002166004765687053,
+      "loss": 0.6893,
+      "step": 3600
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.6753410696983337,
+      "eval_runtime": 49.3307,
+      "eval_samples_per_second": 40.543,
+      "eval_steps_per_second": 2.534,
+      "step": 3600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021612390786338362,
+      "loss": 0.6872,
+      "step": 3620
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00021564733915806192,
+      "loss": 0.6862,
+      "step": 3640
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021517077045274025,
+      "loss": 0.6943,
+      "step": 3660
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021469420174741858,
+      "loss": 0.6896,
+      "step": 3680
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002142176330420969,
+      "loss": 0.6912,
+      "step": 3700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002137410643367752,
+      "loss": 0.6859,
+      "step": 3720
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002132644956314535,
+      "loss": 0.6791,
+      "step": 3740
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021278792692613183,
+      "loss": 0.6882,
+      "step": 3760
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021231135822081013,
+      "loss": 0.6823,
+      "step": 3780
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002118347895154885,
+      "loss": 0.6831,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.6738302707672119,
+      "eval_runtime": 49.4648,
+      "eval_samples_per_second": 40.433,
+      "eval_steps_per_second": 2.527,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002113582208101668,
+      "loss": 0.6818,
+      "step": 3820
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002108816521048451,
+      "loss": 0.6912,
+      "step": 3840
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00021040508339952341,
+      "loss": 0.6884,
+      "step": 3860
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020992851469420171,
+      "loss": 0.6888,
+      "step": 3880
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020945194598888004,
+      "loss": 0.6822,
+      "step": 3900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00020897537728355837,
+      "loss": 0.6879,
+      "step": 3920
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002084988085782367,
+      "loss": 0.6771,
+      "step": 3940
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000208022239872915,
+      "loss": 0.684,
+      "step": 3960
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002075456711675933,
+      "loss": 0.6878,
+      "step": 3980
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020706910246227162,
+      "loss": 0.6913,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.6711302995681763,
+      "eval_runtime": 49.117,
+      "eval_samples_per_second": 40.719,
+      "eval_steps_per_second": 2.545,
+      "step": 4000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020659253375694992,
+      "loss": 0.683,
+      "step": 4020
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020611596505162828,
+      "loss": 0.6833,
+      "step": 4040
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020563939634630658,
+      "loss": 0.6793,
+      "step": 4060
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002051628276409849,
+      "loss": 0.6843,
+      "step": 4080
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002046862589356632,
+      "loss": 0.6822,
+      "step": 4100
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002042096902303415,
+      "loss": 0.6856,
+      "step": 4120
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020373312152501983,
+      "loss": 0.6809,
+      "step": 4140
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020325655281969816,
+      "loss": 0.6843,
+      "step": 4160
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002027799841143765,
+      "loss": 0.6754,
+      "step": 4180
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002023034154090548,
+      "loss": 0.6823,
+      "step": 4200
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.6697036027908325,
+      "eval_runtime": 49.3237,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 4200
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020182684670373312,
+      "loss": 0.6861,
+      "step": 4220
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00020135027799841142,
+      "loss": 0.6806,
+      "step": 4240
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020087370929308972,
+      "loss": 0.6823,
+      "step": 4260
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00020039714058776807,
+      "loss": 0.6805,
+      "step": 4280
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00019992057188244637,
+      "loss": 0.6813,
+      "step": 4300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001994440031771247,
+      "loss": 0.675,
+      "step": 4320
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.000198967434471803,
+      "loss": 0.6728,
+      "step": 4340
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001984908657664813,
+      "loss": 0.6676,
+      "step": 4360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019801429706115963,
+      "loss": 0.6729,
+      "step": 4380
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019753772835583795,
+      "loss": 0.685,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.6667952537536621,
+      "eval_runtime": 49.3899,
+      "eval_samples_per_second": 40.494,
+      "eval_steps_per_second": 2.531,
+      "step": 4400
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019706115965051628,
+      "loss": 0.6786,
+      "step": 4420
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00019658459094519458,
+      "loss": 0.6738,
+      "step": 4440
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0001961080222398729,
+      "loss": 0.686,
+      "step": 4460
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001956314535345512,
+      "loss": 0.6818,
+      "step": 4480
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001951548848292295,
+      "loss": 0.6741,
+      "step": 4500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019467831612390786,
+      "loss": 0.6756,
+      "step": 4520
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019420174741858616,
+      "loss": 0.6851,
+      "step": 4540
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001937251787132645,
+      "loss": 0.6784,
+      "step": 4560
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001932486100079428,
+      "loss": 0.6785,
+      "step": 4580
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019277204130262112,
+      "loss": 0.678,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.6655837297439575,
+      "eval_runtime": 49.5019,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 4600
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00019229547259729942,
+      "loss": 0.6782,
+      "step": 4620
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019181890389197777,
+      "loss": 0.6683,
+      "step": 4640
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019134233518665607,
+      "loss": 0.6783,
+      "step": 4660
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00019086576648133437,
+      "loss": 0.675,
+      "step": 4680
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001903891977760127,
+      "loss": 0.6691,
+      "step": 4700
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.000189912629070691,
+      "loss": 0.6726,
+      "step": 4720
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018943606036536933,
+      "loss": 0.68,
+      "step": 4740
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018895949166004763,
+      "loss": 0.6694,
+      "step": 4760
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018848292295472598,
+      "loss": 0.6686,
+      "step": 4780
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018800635424940428,
+      "loss": 0.6766,
+      "step": 4800
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.6646501421928406,
+      "eval_runtime": 49.3188,
+      "eval_samples_per_second": 40.552,
+      "eval_steps_per_second": 2.535,
+      "step": 4800
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00018752978554408258,
+      "loss": 0.6724,
+      "step": 4820
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001870532168387609,
+      "loss": 0.6801,
+      "step": 4840
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001865766481334392,
+      "loss": 0.6698,
+      "step": 4860
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0001861000794281175,
+      "loss": 0.6723,
+      "step": 4880
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018562351072279586,
+      "loss": 0.6693,
+      "step": 4900
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018514694201747416,
+      "loss": 0.6716,
+      "step": 4920
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001846703733121525,
+      "loss": 0.674,
+      "step": 4940
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0001841938046068308,
+      "loss": 0.6702,
+      "step": 4960
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018371723590150912,
+      "loss": 0.6716,
+      "step": 4980
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018324066719618742,
+      "loss": 0.672,
+      "step": 5000
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.662735104560852,
+      "eval_runtime": 49.275,
+      "eval_samples_per_second": 40.589,
+      "eval_steps_per_second": 2.537,
+      "step": 5000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018276409849086577,
+      "loss": 0.6701,
+      "step": 5020
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.00018228752978554407,
+      "loss": 0.6663,
+      "step": 5040
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00018181096108022237,
+      "loss": 0.6651,
+      "step": 5060
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001813343923749007,
+      "loss": 0.6708,
+      "step": 5080
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000180857823669579,
+      "loss": 0.6697,
+      "step": 5100
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018038125496425733,
+      "loss": 0.662,
+      "step": 5120
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017990468625893566,
+      "loss": 0.669,
+      "step": 5140
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017942811755361398,
+      "loss": 0.6649,
+      "step": 5160
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017895154884829228,
+      "loss": 0.668,
+      "step": 5180
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00017847498014297058,
+      "loss": 0.6796,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.6609957218170166,
+      "eval_runtime": 49.2394,
+      "eval_samples_per_second": 40.618,
+      "eval_steps_per_second": 2.539,
+      "step": 5200
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001779984114376489,
+      "loss": 0.6745,
+      "step": 5220
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001775218427323272,
+      "loss": 0.6646,
+      "step": 5240
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00017704527402700556,
+      "loss": 0.6682,
+      "step": 5260
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017656870532168386,
+      "loss": 0.6713,
+      "step": 5280
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017609213661636216,
+      "loss": 0.6618,
+      "step": 5300
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001756155679110405,
+      "loss": 0.6703,
+      "step": 5320
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001751389992057188,
+      "loss": 0.6652,
+      "step": 5340
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017466243050039712,
+      "loss": 0.6698,
+      "step": 5360
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017418586179507545,
+      "loss": 0.6728,
+      "step": 5380
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017370929308975377,
+      "loss": 0.6752,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.6592395901679993,
+      "eval_runtime": 49.3426,
+      "eval_samples_per_second": 40.533,
+      "eval_steps_per_second": 2.533,
+      "step": 5400
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017323272438443207,
+      "loss": 0.6653,
+      "step": 5420
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00017275615567911037,
+      "loss": 0.669,
+      "step": 5440
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001722795869737887,
+      "loss": 0.6698,
+      "step": 5460
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.000171803018268467,
+      "loss": 0.6742,
+      "step": 5480
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017132644956314536,
+      "loss": 0.6596,
+      "step": 5500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00017084988085782366,
+      "loss": 0.6699,
+      "step": 5520
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00017037331215250198,
+      "loss": 0.664,
+      "step": 5540
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00016989674344718028,
+      "loss": 0.6673,
+      "step": 5560
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00016942017474185858,
+      "loss": 0.6684,
+      "step": 5580
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001689436060365369,
+      "loss": 0.6769,
+      "step": 5600
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.6582754850387573,
+      "eval_runtime": 49.469,
+      "eval_samples_per_second": 40.429,
+      "eval_steps_per_second": 2.527,
+      "step": 5600
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016846703733121524,
+      "loss": 0.6633,
+      "step": 5620
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00016799046862589357,
+      "loss": 0.6679,
+      "step": 5640
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00016751389992057187,
+      "loss": 0.6601,
+      "step": 5660
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001670373312152502,
+      "loss": 0.6731,
+      "step": 5680
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001665607625099285,
+      "loss": 0.6638,
+      "step": 5700
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0001660841938046068,
+      "loss": 0.6693,
+      "step": 5720
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016560762509928515,
+      "loss": 0.6642,
+      "step": 5740
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00016513105639396345,
+      "loss": 0.6649,
+      "step": 5760
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016465448768864178,
+      "loss": 0.663,
+      "step": 5780
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016417791898332008,
+      "loss": 0.6629,
+      "step": 5800
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.6574136018753052,
+      "eval_runtime": 49.3019,
+      "eval_samples_per_second": 40.566,
+      "eval_steps_per_second": 2.535,
+      "step": 5800
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00016370135027799838,
+      "loss": 0.6605,
+      "step": 5820
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001632247815726767,
+      "loss": 0.6707,
+      "step": 5840
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016274821286735503,
+      "loss": 0.6695,
+      "step": 5860
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016227164416203336,
+      "loss": 0.6647,
+      "step": 5880
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016179507545671166,
+      "loss": 0.6657,
+      "step": 5900
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016131850675138999,
+      "loss": 0.6656,
+      "step": 5920
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016084193804606829,
+      "loss": 0.6676,
+      "step": 5940
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00016036536934074659,
+      "loss": 0.6678,
+      "step": 5960
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00015988880063542494,
+      "loss": 0.6639,
+      "step": 5980
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015941223193010324,
+      "loss": 0.6645,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.656126081943512,
+      "eval_runtime": 49.5095,
+      "eval_samples_per_second": 40.396,
+      "eval_steps_per_second": 2.525,
+      "step": 6000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00015893566322478157,
+      "loss": 0.6672,
+      "step": 6020
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00015845909451945987,
+      "loss": 0.6678,
+      "step": 6040
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0001579825258141382,
+      "loss": 0.6676,
+      "step": 6060
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001575059571088165,
+      "loss": 0.6717,
+      "step": 6080
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00015702938840349485,
+      "loss": 0.671,
+      "step": 6100
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015655281969817315,
+      "loss": 0.6611,
+      "step": 6120
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015607625099285145,
+      "loss": 0.6606,
+      "step": 6140
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015559968228752978,
+      "loss": 0.6647,
+      "step": 6160
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015512311358220808,
+      "loss": 0.6652,
+      "step": 6180
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001546465448768864,
+      "loss": 0.6629,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.6549723148345947,
+      "eval_runtime": 49.4871,
+      "eval_samples_per_second": 40.415,
+      "eval_steps_per_second": 2.526,
+      "step": 6200
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00015416997617156473,
+      "loss": 0.6685,
+      "step": 6220
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015369340746624306,
+      "loss": 0.6578,
+      "step": 6240
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015321683876092136,
+      "loss": 0.6587,
+      "step": 6260
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015274027005559966,
+      "loss": 0.6655,
+      "step": 6280
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.000152263701350278,
+      "loss": 0.6662,
+      "step": 6300
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0001517871326449563,
+      "loss": 0.6648,
+      "step": 6320
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015131056393963464,
+      "loss": 0.6638,
+      "step": 6340
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00015083399523431294,
+      "loss": 0.6614,
+      "step": 6360
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00015035742652899124,
+      "loss": 0.6552,
+      "step": 6380
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014988085782366957,
+      "loss": 0.6753,
+      "step": 6400
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.6544620990753174,
+      "eval_runtime": 49.3242,
+      "eval_samples_per_second": 40.548,
+      "eval_steps_per_second": 2.534,
+      "step": 6400
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00014940428911834787,
+      "loss": 0.6588,
+      "step": 6420
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0001489277204130262,
+      "loss": 0.6609,
+      "step": 6440
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014845115170770452,
+      "loss": 0.6565,
+      "step": 6460
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014797458300238282,
+      "loss": 0.6589,
+      "step": 6480
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014749801429706115,
+      "loss": 0.6585,
+      "step": 6500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014702144559173945,
+      "loss": 0.6737,
+      "step": 6520
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00014654487688641778,
+      "loss": 0.6554,
+      "step": 6540
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001460683081810961,
+      "loss": 0.6603,
+      "step": 6560
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0001455917394757744,
+      "loss": 0.6647,
+      "step": 6580
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00014511517077045273,
+      "loss": 0.6632,
+      "step": 6600
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.6527110934257507,
+      "eval_runtime": 49.2622,
+      "eval_samples_per_second": 40.599,
+      "eval_steps_per_second": 2.537,
+      "step": 6600
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014463860206513106,
+      "loss": 0.6705,
+      "step": 6620
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014416203335980936,
+      "loss": 0.6703,
+      "step": 6640
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014368546465448766,
+      "loss": 0.6602,
+      "step": 6660
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.000143208895949166,
+      "loss": 0.6639,
+      "step": 6680
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00014273232724384432,
+      "loss": 0.6645,
+      "step": 6700
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014225575853852262,
+      "loss": 0.6655,
+      "step": 6720
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014177918983320094,
+      "loss": 0.664,
+      "step": 6740
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014130262112787927,
+      "loss": 0.6656,
+      "step": 6760
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014082605242255757,
+      "loss": 0.6658,
+      "step": 6780
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001403494837172359,
+      "loss": 0.6641,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.6513609886169434,
+      "eval_runtime": 49.4424,
+      "eval_samples_per_second": 40.451,
+      "eval_steps_per_second": 2.528,
+      "step": 6800
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001398729150119142,
+      "loss": 0.6599,
+      "step": 6820
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013939634630659252,
+      "loss": 0.6552,
+      "step": 6840
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013891977760127085,
+      "loss": 0.6616,
+      "step": 6860
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013844320889594915,
+      "loss": 0.6635,
+      "step": 6880
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013796664019062745,
+      "loss": 0.6608,
+      "step": 6900
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00013749007148530578,
+      "loss": 0.6596,
+      "step": 6920
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0001370135027799841,
+      "loss": 0.6589,
+      "step": 6940
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0001365369340746624,
+      "loss": 0.6627,
+      "step": 6960
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013606036536934073,
+      "loss": 0.6606,
+      "step": 6980
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013558379666401906,
+      "loss": 0.6658,
+      "step": 7000
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.6510519981384277,
+      "eval_runtime": 49.5012,
+      "eval_samples_per_second": 40.403,
+      "eval_steps_per_second": 2.525,
+      "step": 7000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00013510722795869736,
+      "loss": 0.6571,
+      "step": 7020
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001346306592533757,
+      "loss": 0.6607,
+      "step": 7040
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.000134154090548054,
+      "loss": 0.6562,
+      "step": 7060
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00013367752184273232,
+      "loss": 0.6582,
+      "step": 7080
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013320095313741064,
+      "loss": 0.6635,
+      "step": 7100
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013272438443208894,
+      "loss": 0.6682,
+      "step": 7120
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00013224781572676727,
+      "loss": 0.6633,
+      "step": 7140
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001317712470214456,
+      "loss": 0.6671,
+      "step": 7160
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001312946783161239,
+      "loss": 0.6645,
+      "step": 7180
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0001308181096108022,
+      "loss": 0.6699,
+      "step": 7200
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6502068042755127,
+      "eval_runtime": 49.4619,
+      "eval_samples_per_second": 40.435,
+      "eval_steps_per_second": 2.527,
+      "step": 7200
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00013034154090548053,
+      "loss": 0.6617,
+      "step": 7220
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012986497220015885,
+      "loss": 0.6639,
+      "step": 7240
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012938840349483715,
+      "loss": 0.6634,
+      "step": 7260
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012891183478951548,
+      "loss": 0.663,
+      "step": 7280
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00012843526608419378,
+      "loss": 0.6653,
+      "step": 7300
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0001279586973788721,
+      "loss": 0.6555,
+      "step": 7320
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012748212867355044,
+      "loss": 0.6653,
+      "step": 7340
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012700555996822874,
+      "loss": 0.6573,
+      "step": 7360
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012652899126290706,
+      "loss": 0.658,
+      "step": 7380
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001260524225575854,
+      "loss": 0.6562,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.6491650342941284,
+      "eval_runtime": 49.2463,
+      "eval_samples_per_second": 40.612,
+      "eval_steps_per_second": 2.538,
+      "step": 7400
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001255758538522637,
+      "loss": 0.6592,
+      "step": 7420
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.000125099285146942,
+      "loss": 0.6587,
+      "step": 7440
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012462271644162032,
+      "loss": 0.6616,
+      "step": 7460
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012414614773629865,
+      "loss": 0.655,
+      "step": 7480
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00012366957903097695,
+      "loss": 0.6591,
+      "step": 7500
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012319301032565527,
+      "loss": 0.6545,
+      "step": 7520
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0001227164416203336,
+      "loss": 0.6673,
+      "step": 7540
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0001222398729150119,
+      "loss": 0.6626,
+      "step": 7560
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012176330420969023,
+      "loss": 0.6663,
+      "step": 7580
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012128673550436854,
+      "loss": 0.6643,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.6482685804367065,
+      "eval_runtime": 49.3591,
+      "eval_samples_per_second": 40.519,
+      "eval_steps_per_second": 2.532,
+      "step": 7600
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012081016679904685,
+      "loss": 0.6623,
+      "step": 7620
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00012033359809372518,
+      "loss": 0.6636,
+      "step": 7640
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00011985702938840348,
+      "loss": 0.6598,
+      "step": 7660
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0001193804606830818,
+      "loss": 0.6521,
+      "step": 7680
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00011890389197776012,
+      "loss": 0.664,
+      "step": 7700
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011842732327243844,
+      "loss": 0.6529,
+      "step": 7720
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011795075456711675,
+      "loss": 0.6622,
+      "step": 7740
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011747418586179508,
+      "loss": 0.6608,
+      "step": 7760
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011699761715647338,
+      "loss": 0.6556,
+      "step": 7780
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011652104845115169,
+      "loss": 0.6643,
+      "step": 7800
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.6474015116691589,
+      "eval_runtime": 49.3608,
+      "eval_samples_per_second": 40.518,
+      "eval_steps_per_second": 2.532,
+      "step": 7800
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011604447974583002,
+      "loss": 0.6541,
+      "step": 7820
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011556791104050833,
+      "loss": 0.6614,
+      "step": 7840
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011509134233518665,
+      "loss": 0.6499,
+      "step": 7860
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011461477362986497,
+      "loss": 0.6563,
+      "step": 7880
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011413820492454327,
+      "loss": 0.6589,
+      "step": 7900
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011366163621922159,
+      "loss": 0.6544,
+      "step": 7920
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011318506751389992,
+      "loss": 0.6606,
+      "step": 7940
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011270849880857823,
+      "loss": 0.657,
+      "step": 7960
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011223193010325654,
+      "loss": 0.6608,
+      "step": 7980
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011175536139793487,
+      "loss": 0.6595,
+      "step": 8000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.6469079256057739,
+      "eval_runtime": 49.3012,
+      "eval_samples_per_second": 40.567,
+      "eval_steps_per_second": 2.535,
+      "step": 8000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011127879269261318,
+      "loss": 0.6563,
+      "step": 8020
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011080222398729148,
+      "loss": 0.6602,
+      "step": 8040
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00011032565528196981,
+      "loss": 0.6603,
+      "step": 8060
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010984908657664812,
+      "loss": 0.6495,
+      "step": 8080
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010937251787132644,
+      "loss": 0.6551,
+      "step": 8100
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010891977760127084,
+      "loss": 0.6497,
+      "step": 8120
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010844320889594917,
+      "loss": 0.6652,
+      "step": 8140
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010796664019062747,
+      "loss": 0.6497,
+      "step": 8160
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010749007148530578,
+      "loss": 0.6554,
+      "step": 8180
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010701350277998411,
+      "loss": 0.6563,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.645990252494812,
+      "eval_runtime": 49.3957,
+      "eval_samples_per_second": 40.489,
+      "eval_steps_per_second": 2.531,
+      "step": 8200
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010653693407466242,
+      "loss": 0.6572,
+      "step": 8220
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010606036536934074,
+      "loss": 0.6563,
+      "step": 8240
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010558379666401906,
+      "loss": 0.6535,
+      "step": 8260
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010510722795869736,
+      "loss": 0.655,
+      "step": 8280
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010463065925337568,
+      "loss": 0.6554,
+      "step": 8300
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.000104154090548054,
+      "loss": 0.6559,
+      "step": 8320
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00010367752184273232,
+      "loss": 0.6522,
+      "step": 8340
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010320095313741063,
+      "loss": 0.6568,
+      "step": 8360
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010272438443208896,
+      "loss": 0.6566,
+      "step": 8380
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010224781572676727,
+      "loss": 0.6496,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.6457875967025757,
+      "eval_runtime": 49.0201,
+      "eval_samples_per_second": 40.8,
+      "eval_steps_per_second": 2.55,
+      "step": 8400
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010177124702144557,
+      "loss": 0.66,
+      "step": 8420
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001012946783161239,
+      "loss": 0.6457,
+      "step": 8440
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0001008419380460683,
+      "loss": 0.6349,
+      "step": 8460
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010036536934074662,
+      "loss": 0.6545,
+      "step": 8480
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.988880063542493e-05,
+      "loss": 0.6515,
+      "step": 8500
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.941223193010326e-05,
+      "loss": 0.6459,
+      "step": 8520
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.893566322478156e-05,
+      "loss": 0.6494,
+      "step": 8540
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.845909451945987e-05,
+      "loss": 0.6608,
+      "step": 8560
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.79825258141382e-05,
+      "loss": 0.6485,
+      "step": 8580
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.750595710881651e-05,
+      "loss": 0.6461,
+      "step": 8600
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 0.6450995802879333,
+      "eval_runtime": 49.2592,
+      "eval_samples_per_second": 40.602,
+      "eval_steps_per_second": 2.538,
+      "step": 8600
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.702938840349483e-05,
+      "loss": 0.6523,
+      "step": 8620
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.655281969817315e-05,
+      "loss": 0.6565,
+      "step": 8640
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.607625099285145e-05,
+      "loss": 0.6541,
+      "step": 8660
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.559968228752977e-05,
+      "loss": 0.6585,
+      "step": 8680
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.51231135822081e-05,
+      "loss": 0.6531,
+      "step": 8700
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.464654487688641e-05,
+      "loss": 0.6579,
+      "step": 8720
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.416997617156472e-05,
+      "loss": 0.6438,
+      "step": 8740
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.369340746624305e-05,
+      "loss": 0.6516,
+      "step": 8760
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.321683876092136e-05,
+      "loss": 0.6576,
+      "step": 8780
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.274027005559966e-05,
+      "loss": 0.6506,
+      "step": 8800
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.6444578170776367,
+      "eval_runtime": 49.0631,
+      "eval_samples_per_second": 40.764,
+      "eval_steps_per_second": 2.548,
+      "step": 8800
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.226370135027799e-05,
+      "loss": 0.6484,
+      "step": 8820
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.17871326449563e-05,
+      "loss": 0.6566,
+      "step": 8840
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.131056393963462e-05,
+      "loss": 0.6547,
+      "step": 8860
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.083399523431295e-05,
+      "loss": 0.6532,
+      "step": 8880
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.035742652899126e-05,
+      "loss": 0.6532,
+      "step": 8900
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.988085782366956e-05,
+      "loss": 0.6479,
+      "step": 8920
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.940428911834789e-05,
+      "loss": 0.6548,
+      "step": 8940
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.89277204130262e-05,
+      "loss": 0.647,
+      "step": 8960
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.845115170770452e-05,
+      "loss": 0.6478,
+      "step": 8980
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.797458300238284e-05,
+      "loss": 0.6553,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.6433074474334717,
+      "eval_runtime": 49.3831,
+      "eval_samples_per_second": 40.5,
+      "eval_steps_per_second": 2.531,
+      "step": 9000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.749801429706116e-05,
+      "loss": 0.6443,
+      "step": 9020
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.702144559173947e-05,
+      "loss": 0.6518,
+      "step": 9040
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.65448768864178e-05,
+      "loss": 0.6578,
+      "step": 9060
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.60683081810961e-05,
+      "loss": 0.6472,
+      "step": 9080
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.559173947577441e-05,
+      "loss": 0.6471,
+      "step": 9100
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.511517077045274e-05,
+      "loss": 0.6482,
+      "step": 9120
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.463860206513105e-05,
+      "loss": 0.6522,
+      "step": 9140
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.416203335980937e-05,
+      "loss": 0.6584,
+      "step": 9160
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.368546465448769e-05,
+      "loss": 0.6596,
+      "step": 9180
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.320889594916599e-05,
+      "loss": 0.6581,
+      "step": 9200
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.6426697969436646,
+      "eval_runtime": 49.0935,
+      "eval_samples_per_second": 40.739,
+      "eval_steps_per_second": 2.546,
+      "step": 9200
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.273232724384431e-05,
+      "loss": 0.6441,
+      "step": 9220
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.225575853852263e-05,
+      "loss": 0.6509,
+      "step": 9240
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.177918983320095e-05,
+      "loss": 0.6409,
+      "step": 9260
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.130262112787926e-05,
+      "loss": 0.6475,
+      "step": 9280
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.082605242255759e-05,
+      "loss": 0.6597,
+      "step": 9300
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.03494837172359e-05,
+      "loss": 0.6544,
+      "step": 9320
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.98729150119142e-05,
+      "loss": 0.6528,
+      "step": 9340
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.939634630659253e-05,
+      "loss": 0.644,
+      "step": 9360
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.891977760127084e-05,
+      "loss": 0.6552,
+      "step": 9380
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.844320889594916e-05,
+      "loss": 0.6548,
+      "step": 9400
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.6423606276512146,
+      "eval_runtime": 49.6466,
+      "eval_samples_per_second": 40.285,
+      "eval_steps_per_second": 2.518,
+      "step": 9400
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.796664019062748e-05,
+      "loss": 0.6568,
+      "step": 9420
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.74900714853058e-05,
+      "loss": 0.6539,
+      "step": 9440
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.70135027799841e-05,
+      "loss": 0.6468,
+      "step": 9460
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.653693407466243e-05,
+      "loss": 0.6425,
+      "step": 9480
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.606036536934074e-05,
+      "loss": 0.6523,
+      "step": 9500
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.558379666401905e-05,
+      "loss": 0.6468,
+      "step": 9520
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.510722795869738e-05,
+      "loss": 0.6518,
+      "step": 9540
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.46306592533757e-05,
+      "loss": 0.6534,
+      "step": 9560
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.415409054805401e-05,
+      "loss": 0.6471,
+      "step": 9580
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.367752184273232e-05,
+      "loss": 0.6465,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.6418060064315796,
+      "eval_runtime": 49.4954,
+      "eval_samples_per_second": 40.408,
+      "eval_steps_per_second": 2.525,
+      "step": 9600
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.320095313741064e-05,
+      "loss": 0.6577,
+      "step": 9620
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.272438443208895e-05,
+      "loss": 0.6453,
+      "step": 9640
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.224781572676726e-05,
+      "loss": 0.6489,
+      "step": 9660
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.177124702144559e-05,
+      "loss": 0.6466,
+      "step": 9680
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.12946783161239e-05,
+      "loss": 0.6493,
+      "step": 9700
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.081810961080222e-05,
+      "loss": 0.6537,
+      "step": 9720
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.034154090548053e-05,
+      "loss": 0.6486,
+      "step": 9740
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.986497220015885e-05,
+      "loss": 0.65,
+      "step": 9760
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.938840349483717e-05,
+      "loss": 0.6387,
+      "step": 9780
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.891183478951549e-05,
+      "loss": 0.6464,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "eval_loss": 0.6412256360054016,
+      "eval_runtime": 49.3752,
+      "eval_samples_per_second": 40.506,
+      "eval_steps_per_second": 2.532,
+      "step": 9800
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.84352660841938e-05,
+      "loss": 0.6475,
+      "step": 9820
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.795869737887211e-05,
+      "loss": 0.6543,
+      "step": 9840
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.748212867355043e-05,
+      "loss": 0.6545,
+      "step": 9860
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.700555996822874e-05,
+      "loss": 0.6468,
+      "step": 9880
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.652899126290707e-05,
+      "loss": 0.651,
+      "step": 9900
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.605242255758538e-05,
+      "loss": 0.641,
+      "step": 9920
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.55758538522637e-05,
+      "loss": 0.657,
+      "step": 9940
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.509928514694201e-05,
+      "loss": 0.6481,
+      "step": 9960
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.462271644162034e-05,
+      "loss": 0.6496,
+      "step": 9980
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.414614773629864e-05,
+      "loss": 0.6451,
+      "step": 10000
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.6414454579353333,
+      "eval_runtime": 49.395,
+      "eval_samples_per_second": 40.49,
+      "eval_steps_per_second": 2.531,
+      "step": 10000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.366957903097696e-05,
+      "loss": 0.6555,
+      "step": 10020
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.319301032565528e-05,
+      "loss": 0.6494,
+      "step": 10040
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.271644162033359e-05,
+      "loss": 0.6487,
+      "step": 10060
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.22398729150119e-05,
+      "loss": 0.6544,
+      "step": 10080
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.176330420969023e-05,
+      "loss": 0.6468,
+      "step": 10100
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.128673550436853e-05,
+      "loss": 0.6441,
+      "step": 10120
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.081016679904686e-05,
+      "loss": 0.6478,
+      "step": 10140
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.033359809372518e-05,
+      "loss": 0.6539,
+      "step": 10160
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.985702938840349e-05,
+      "loss": 0.6486,
+      "step": 10180
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.938046068308181e-05,
+      "loss": 0.6467,
+      "step": 10200
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6406835913658142,
+      "eval_runtime": 49.5084,
+      "eval_samples_per_second": 40.397,
+      "eval_steps_per_second": 2.525,
+      "step": 10200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.890389197776013e-05,
+      "loss": 0.6399,
+      "step": 10220
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.8427323272438435e-05,
+      "loss": 0.6519,
+      "step": 10240
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7950754567116756e-05,
+      "loss": 0.6465,
+      "step": 10260
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.7474185861795076e-05,
+      "loss": 0.6479,
+      "step": 10280
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.6997617156473383e-05,
+      "loss": 0.6462,
+      "step": 10300
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.6521048451151704e-05,
+      "loss": 0.6451,
+      "step": 10320
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.604447974583002e-05,
+      "loss": 0.6453,
+      "step": 10340
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.556791104050833e-05,
+      "loss": 0.6543,
+      "step": 10360
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.509134233518665e-05,
+      "loss": 0.6428,
+      "step": 10380
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.4614773629864966e-05,
+      "loss": 0.6491,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.6400973796844482,
+      "eval_runtime": 49.3411,
+      "eval_samples_per_second": 40.534,
+      "eval_steps_per_second": 2.533,
+      "step": 10400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.413820492454328e-05,
+      "loss": 0.649,
+      "step": 10420
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.36616362192216e-05,
+      "loss": 0.6494,
+      "step": 10440
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.3185067513899913e-05,
+      "loss": 0.6431,
+      "step": 10460
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.2708498808578234e-05,
+      "loss": 0.6478,
+      "step": 10480
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.223193010325655e-05,
+      "loss": 0.6416,
+      "step": 10500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.175536139793486e-05,
+      "loss": 0.6507,
+      "step": 10520
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.127879269261318e-05,
+      "loss": 0.6448,
+      "step": 10540
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.0802223987291496e-05,
+      "loss": 0.6455,
+      "step": 10560
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.032565528196981e-05,
+      "loss": 0.6437,
+      "step": 10580
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.984908657664813e-05,
+      "loss": 0.6488,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.6400858163833618,
+      "eval_runtime": 49.8084,
+      "eval_samples_per_second": 40.154,
+      "eval_steps_per_second": 2.51,
+      "step": 10600
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.937251787132645e-05,
+      "loss": 0.6436,
+      "step": 10620
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.889594916600476e-05,
+      "loss": 0.6446,
+      "step": 10640
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.841938046068308e-05,
+      "loss": 0.6488,
+      "step": 10660
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.79428117553614e-05,
+      "loss": 0.6485,
+      "step": 10680
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.7466243050039705e-05,
+      "loss": 0.6524,
+      "step": 10700
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.6989674344718026e-05,
+      "loss": 0.6376,
+      "step": 10720
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.6513105639396346e-05,
+      "loss": 0.649,
+      "step": 10740
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.603653693407465e-05,
+      "loss": 0.6444,
+      "step": 10760
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5559968228752974e-05,
+      "loss": 0.6407,
+      "step": 10780
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.5083399523431294e-05,
+      "loss": 0.6448,
+      "step": 10800
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.6392157077789307,
+      "eval_runtime": 49.7963,
+      "eval_samples_per_second": 40.164,
+      "eval_steps_per_second": 2.51,
+      "step": 10800
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.46068308181096e-05,
+      "loss": 0.6454,
+      "step": 10820
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.413026211278792e-05,
+      "loss": 0.6544,
+      "step": 10840
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.365369340746624e-05,
+      "loss": 0.6478,
+      "step": 10860
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.3177124702144556e-05,
+      "loss": 0.6434,
+      "step": 10880
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.270055599682287e-05,
+      "loss": 0.6482,
+      "step": 10900
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.222398729150119e-05,
+      "loss": 0.6403,
+      "step": 10920
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.1747418586179504e-05,
+      "loss": 0.6501,
+      "step": 10940
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.127084988085782e-05,
+      "loss": 0.6507,
+      "step": 10960
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.079428117553614e-05,
+      "loss": 0.6496,
+      "step": 10980
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.031771247021445e-05,
+      "loss": 0.6544,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.6390016078948975,
+      "eval_runtime": 49.6306,
+      "eval_samples_per_second": 40.298,
+      "eval_steps_per_second": 2.519,
+      "step": 11000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.984114376489277e-05,
+      "loss": 0.6405,
+      "step": 11020
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.9364575059571086e-05,
+      "loss": 0.6429,
+      "step": 11040
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.88880063542494e-05,
+      "loss": 0.6403,
+      "step": 11060
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.841143764892772e-05,
+      "loss": 0.6338,
+      "step": 11080
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.7934868943606034e-05,
+      "loss": 0.6417,
+      "step": 11100
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.7458300238284354e-05,
+      "loss": 0.6463,
+      "step": 11120
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.698173153296267e-05,
+      "loss": 0.6498,
+      "step": 11140
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.650516282764098e-05,
+      "loss": 0.6415,
+      "step": 11160
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.6028594122319296e-05,
+      "loss": 0.645,
+      "step": 11180
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.5552025416997616e-05,
+      "loss": 0.6467,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6387213468551636,
+      "eval_runtime": 49.1775,
+      "eval_samples_per_second": 40.669,
+      "eval_steps_per_second": 2.542,
+      "step": 11200
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.507545671167593e-05,
+      "loss": 0.6515,
+      "step": 11220
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4598888006354244e-05,
+      "loss": 0.65,
+      "step": 11240
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4122319301032564e-05,
+      "loss": 0.6512,
+      "step": 11260
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.364575059571088e-05,
+      "loss": 0.6443,
+      "step": 11280
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.316918189038919e-05,
+      "loss": 0.6483,
+      "step": 11300
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.269261318506751e-05,
+      "loss": 0.6455,
+      "step": 11320
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.2216044479745826e-05,
+      "loss": 0.6461,
+      "step": 11340
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.173947577442414e-05,
+      "loss": 0.6505,
+      "step": 11360
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.126290706910246e-05,
+      "loss": 0.6517,
+      "step": 11380
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.0786338363780774e-05,
+      "loss": 0.6406,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.6380326151847839,
+      "eval_runtime": 49.4129,
+      "eval_samples_per_second": 40.475,
+      "eval_steps_per_second": 2.53,
+      "step": 11400
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.030976965845909e-05,
+      "loss": 0.647,
+      "step": 11420
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 2.9833200953137408e-05,
+      "loss": 0.6495,
+      "step": 11440
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.9356632247815725e-05,
+      "loss": 0.6448,
+      "step": 11460
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.888006354249404e-05,
+      "loss": 0.6447,
+      "step": 11480
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.840349483717236e-05,
+      "loss": 0.6527,
+      "step": 11500
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.7926926131850673e-05,
+      "loss": 0.6406,
+      "step": 11520
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.7450357426528987e-05,
+      "loss": 0.6443,
+      "step": 11540
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.6973788721207307e-05,
+      "loss": 0.6351,
+      "step": 11560
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.649722001588562e-05,
+      "loss": 0.6417,
+      "step": 11580
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.6020651310563938e-05,
+      "loss": 0.6356,
+      "step": 11600
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.6381237506866455,
+      "eval_runtime": 49.5534,
+      "eval_samples_per_second": 40.36,
+      "eval_steps_per_second": 2.523,
+      "step": 11600
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.5544082605242255e-05,
+      "loss": 0.6412,
+      "step": 11620
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.506751389992057e-05,
+      "loss": 0.6418,
+      "step": 11640
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4590945194598886e-05,
+      "loss": 0.6426,
+      "step": 11660
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.4114376489277203e-05,
+      "loss": 0.6461,
+      "step": 11680
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.363780778395552e-05,
+      "loss": 0.6475,
+      "step": 11700
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.3161239078633834e-05,
+      "loss": 0.6431,
+      "step": 11720
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2684670373312148e-05,
+      "loss": 0.6416,
+      "step": 11740
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2208101667990468e-05,
+      "loss": 0.6495,
+      "step": 11760
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.1731532962668782e-05,
+      "loss": 0.6404,
+      "step": 11780
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.1254964257347096e-05,
+      "loss": 0.6434,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.6377163529396057,
+      "eval_runtime": 49.328,
+      "eval_samples_per_second": 40.545,
+      "eval_steps_per_second": 2.534,
+      "step": 11800
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.0778395552025416e-05,
+      "loss": 0.6437,
+      "step": 11820
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.030182684670373e-05,
+      "loss": 0.6393,
+      "step": 11840
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 1.9825258141382047e-05,
+      "loss": 0.6412,
+      "step": 11860
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.9348689436060364e-05,
+      "loss": 0.6494,
+      "step": 11880
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.887212073073868e-05,
+      "loss": 0.6481,
+      "step": 11900
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.8395552025416998e-05,
+      "loss": 0.6407,
+      "step": 11920
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.7918983320095312e-05,
+      "loss": 0.6422,
+      "step": 11940
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.744241461477363e-05,
+      "loss": 0.6487,
+      "step": 11960
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.6965845909451946e-05,
+      "loss": 0.6478,
+      "step": 11980
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.648927720413026e-05,
+      "loss": 0.6451,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.6374698281288147,
+      "eval_runtime": 49.9107,
+      "eval_samples_per_second": 40.072,
+      "eval_steps_per_second": 2.504,
+      "step": 12000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.6012708498808577e-05,
+      "loss": 0.6454,
+      "step": 12020
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5536139793486894e-05,
+      "loss": 0.6399,
+      "step": 12040
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.5059571088165208e-05,
+      "loss": 0.6479,
+      "step": 12060
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4583002382843525e-05,
+      "loss": 0.6412,
+      "step": 12080
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4106433677521842e-05,
+      "loss": 0.65,
+      "step": 12100
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3629864972200157e-05,
+      "loss": 0.6461,
+      "step": 12120
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3153296266878475e-05,
+      "loss": 0.6434,
+      "step": 12140
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.2676727561556788e-05,
+      "loss": 0.6463,
+      "step": 12160
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.2200158856235105e-05,
+      "loss": 0.6399,
+      "step": 12180
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.1723590150913422e-05,
+      "loss": 0.6446,
+      "step": 12200
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.6372544765472412,
+      "eval_runtime": 49.6265,
+      "eval_samples_per_second": 40.301,
+      "eval_steps_per_second": 2.519,
+      "step": 12200
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.1247021445591738e-05,
+      "loss": 0.6411,
+      "step": 12220
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.0770452740270055e-05,
+      "loss": 0.6523,
+      "step": 12240
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.0293884034948372e-05,
+      "loss": 0.6456,
+      "step": 12260
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 9.817315329626686e-06,
+      "loss": 0.6394,
+      "step": 12280
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 9.340746624305003e-06,
+      "loss": 0.6466,
+      "step": 12300
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 8.864177918983318e-06,
+      "loss": 0.6415,
+      "step": 12320
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 8.387609213661635e-06,
+      "loss": 0.6349,
+      "step": 12340
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 7.911040508339953e-06,
+      "loss": 0.6415,
+      "step": 12360
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 7.434471803018268e-06,
+      "loss": 0.6484,
+      "step": 12380
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.957903097696583e-06,
+      "loss": 0.6522,
+      "step": 12400
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.6368712186813354,
+      "eval_runtime": 49.0693,
+      "eval_samples_per_second": 40.759,
+      "eval_steps_per_second": 2.547,
+      "step": 12400
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 6.4813343923749005e-06,
+      "loss": 0.643,
+      "step": 12420
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 6.004765687053216e-06,
+      "loss": 0.6515,
+      "step": 12440
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.528196981731532e-06,
+      "loss": 0.6512,
+      "step": 12460
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.051628276409849e-06,
+      "loss": 0.6483,
+      "step": 12480
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 4.575059571088165e-06,
+      "loss": 0.6342,
+      "step": 12500
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 4.098490865766481e-06,
+      "loss": 0.6445,
+      "step": 12520
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 3.6219221604447972e-06,
+      "loss": 0.6419,
+      "step": 12540
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.145353455123113e-06,
+      "loss": 0.642,
+      "step": 12560
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 2.6687847498014293e-06,
+      "loss": 0.6541,
+      "step": 12580
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 2.1922160444797456e-06,
+      "loss": 0.6334,
+      "step": 12600
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.636846125125885,
+      "eval_runtime": 49.1332,
+      "eval_samples_per_second": 40.706,
+      "eval_steps_per_second": 2.544,
+      "step": 12600
+    }
+  ],
+  "max_steps": 12690,
+  "num_train_epochs": 3,
+  "total_flos": 1.6375945250008465e+19,
+  "trial_name": null,
+  "trial_params": null
+}

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/checkpoint-12600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a070370e87c048b60fc888b8736a0166eb94eeb3a75f5f78918edab715d0fb1c
+size 3579

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-35-50_autodl-container-a629119d3c-e4df2c26/1679643354.1908646/events.out.tfevents.1679643354.autodl-container-a629119d3c-e4df2c26.49450.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:477b50c5556946ba35aa59cfb080f2a1bd4cac9e4a43341795e805da0cb424a6
+size 5809

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-35-50_autodl-container-a629119d3c-e4df2c26/events.out.tfevents.1679643354.autodl-container-a629119d3c-e4df2c26.49450.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4957dd8c37c2b3f2c2b15760d760ef448dcefee8854fc3a61e4c52f7534aa406
+size 3824

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-45-35_autodl-container-a629119d3c-e4df2c26/1679643935.915997/events.out.tfevents.1679643935.autodl-container-a629119d3c-e4df2c26.51017.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76cc90b5b36269f261f73b916664154bf922abeb27a09f26454bb838f0eb2025
+size 5809

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-0.5m/runs/Mar24_15-45-35_autodl-container-a629119d3c-e4df2c26/events.out.tfevents.1679643935.autodl-container-a629119d3c-e4df2c26.51017.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b7d32319c70ab9cd6397d6b0232d2623e3f4d4a8f70cb92200eb2b7e70054f2
+size 120771

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/adapter_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "base_model_name_or_path": "/root/autodl-tmp/llama_hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a3b43e50220a5244e4f3cdf199c4a63673c716a9ff2d013c0bb1ac7f7c8d916
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7a1e464507a0eb6d65330833b5e6a2f0222aa6a42dc1b421a82bc6b179f11d7
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62816331a190d7783fed48f4fe5472a7cf8d37afe2179e5a1f8f0a8168b1dc96
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbf4148eed691c08b2b9f0a833d08075b124d9054abbfc2f5e7747c2ce5c051f
+size 14575

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e7309791e544e8cb732592406919407855bab183563e2fcbaad5f6249d386dd
+size 557

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3bbb8e74ed1b7ca44a8f95d5cdb8d457c0318daf33eba316ef6fde8a11ee92c
+size 627

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53d327ea9f712be818d41a24603cd835992a4e9e3612a85caf2415ab699d6a50
+size 3579

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8c200bd8422cf044a90c223c0d176459a14cf9687f0e41a37cfe2ab3b8d6a67
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4dcdffef65339b11ffc55279a0ad63ce04e3c09e7247c7f54d1a6bc29d6fff2
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52704287125685e13be49c11d3c17bf338c00ed9fdbcdd6972348fc8e6b6dc29
+size 14575

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d7c2e69e5b3f7cb43530e1cc8336651f8c7f2d08e0e496d6eb190f9cd9c465b
+size 557

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3630575f35c6cb2516d6d68a466f2304033a5a8ec817a07f3f5722bbb0a874c2
+size 627

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53d327ea9f712be818d41a24603cd835992a4e9e3612a85caf2415ab699d6a50
+size 3579

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcc458a10fe82dcee9e9432f212482eba7f9f47f4dbb32c60e5694dcb32c4700
+size 33629893

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfeed223c297fd668bb441bed81e81acc8a3a709064382564a31530dc6cf16ad
+size 16822989

alpaca-lora-based-origin-llama7b/lora-alpaca-cn-remote-1M/checkpoint-15400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b8e5f28f76ff581dd7c3383f28cad3b8c2550aa95227479150b8b3923f20b65
+size 14575