phgrouptechs commited on Mar 9

Commit

75ddade

verified ·

1 Parent(s): 807f6d4

Upload folder using huggingface_hub

Browse files

Files changed (28) hide show

README.md +29 -105
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
checkpoint-100/adapter_config.json +4 -4
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/rng_state.pth +1 -1
checkpoint-100/trainer_state.json +62 -62
checkpoint-200/adapter_config.json +4 -4
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/trainer_state.json +122 -122
checkpoint-300/adapter_config.json +4 -4
checkpoint-300/adapter_model.safetensors +1 -1
checkpoint-300/optimizer.pt +1 -1
checkpoint-300/rng_state.pth +1 -1
checkpoint-300/trainer_state.json +182 -182
checkpoint-400/adapter_config.json +4 -4
checkpoint-400/adapter_model.safetensors +1 -1
checkpoint-400/optimizer.pt +1 -1
checkpoint-400/rng_state.pth +1 -1
checkpoint-400/trainer_state.json +242 -242
checkpoint-500/adapter_config.json +4 -4
checkpoint-500/adapter_model.safetensors +1 -1
checkpoint-500/optimizer.pt +1 -1
checkpoint-500/rng_state.pth +1 -1
checkpoint-500/trainer_state.json +302 -302

README.md CHANGED Viewed

@@ -1,4 +1,5 @@
 ---
 library_name: peft
 model_name: tutor_model_output
 tags:
@@ -7,132 +8,55 @@ tags:
 - sft
 - transformers
 - trl
-- language-tutor
-- english
-- german
-- vietnamese
-- conversational
-- instruct
-language:
-- vi
-- en
-- de
 licence: license
 pipeline_tag: text-generation
 ---
-# 🎓 Denglish-8B-Instruct: AI Language Tutor for Vietnamese Learners
-**Denglish-8B-Instruct** is a fine-tuned LoRA adapter based on `unsloth/llama-3-8b-Instruct-bnb-4bit`. It is specifically designed to act as a strict yet friendly AI Language Tutor, assisting Vietnamese students in learning **English** and **German**.
-This model excels at identifying grammatical, spelling, and contextual errors from user inputs, explaining the mistakes clearly in **Vietnamese**, and providing perfectly corrected sentences in the target language.
-## 🚀 Model Details
-- **Model Type:** Causal Language Model (Fine-tuned LoRA Adapter)
-- **Base Model:** Meta Llama 3 (8B-Instruct 4-bit quantized via Unsloth)
-- **Primary Languages:** Vietnamese (Explanations), English (Target), German (Target)
-- **Training Framework:** `TRL` (Transformer Reinforcement Learning) & `PEFT`
-- **Architecture:** Optimized for multi-modal integrations (Text, OCR/Images, and STT/Voice processing ecosystems).
-## 💡 Intended Uses & Ecosystem
-This model is the core "Brain" of the **Denglish Omnichannel Platform** (integrated via RunPod Serverless, FastAPI, Telegram, and Facebook Messenger).
-It is intended to process inputs such as:
-1. **Direct Text:** User types a sentence in English or German.
-2. **Transcribed Audio (Whisper STT):** Correcting conversational mistakes from spoken language.
-3. **Extracted Text from Images (OCR):** Grading handwritten or printed homework.
-## 🛠️ How to Use (Quick Start)
-Since this is a LoRA adapter, you need to load the base model first and then merge it with this adapter using `peft`.
-### Prerequisites
-```bash
-pip install transformers accelerate bitsandbytes peft
-```
-## Inference Code
 ```python
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-from peft import PeftModel
-# 1. Load Base Model and Tokenizer
-base_model_id = "unsloth/llama-3-8b-Instruct-bnb-4bit"
-lora_model_id = "phgrouptechs/Denglish-8B-Instruct"
-tokenizer = AutoTokenizer.from_pretrained(base_model_id)
-base_model = AutoModelForCausalLM.from_pretrained(
-    base_model_id,
-    torch_dtype=torch.bfloat16,
-    device_map="auto"
-)
-# 2. Load the Denglish LoRA Adapter
-model = PeftModel.from_pretrained(base_model, lora_model_id)
-# 3. Prepare the Chat Prompt
-target_lang = "English" # or "German"
-user_mistake = "Hello, my name is John and I is a student."
-system_prompt = (
-    f"You are a friendly and strict {target_lang} tutor for Vietnamese students. "
-    f"The user provided a {target_lang} input: '{user_mistake}'. "
-    f"Task: 1. Correct any grammatical, spelling, or pronunciation mistakes. "
-    f"2. Explain the corrections clearly in Vietnamese. "
-    f"3. Provide the perfectly corrected sentence in {target_lang} at the very end."
-)
-messages = [
-    {"role": "system", "content": system_prompt},
-    {"role": "user", "content": "Hãy chấm bài và sửa lỗi cho tôi."}
-]
-# 4. Generate Response
-prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
-outputs = model.generate(
-    **inputs,
-    max_new_tokens=400,
-    temperature=0.3, # Low temperature for accurate grammar corrections
-    pad_token_id=tokenizer.eos_token_id
-)
-ai_response = tokenizer.batch_decode(outputs[0][len(inputs.input_ids[0]):], skip_special_tokens=True)[0].strip()
-print(ai_response)
-```
-## 📝 Example Output
-**Input (User):** "Hello, my name is John and I is a student."
-**Target Language:** English
-**Output (AI):**
-Máy phát hiện lỗi sử dụng động từ to be. Chủ ngữ "I" phải đi với "am" thay vì "is".
-Câu đúng: "Hello, my name is John and I am a student."
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/phgrouptechs-phgroup-technology-solutions-co-ltd/my-awesome-project/runs/7vqgjc2u)
 This model was trained with SFT.
-## ⚠️ Limitations
-* **Quantization Constraints:** The base model is 4-bit quantized. While it is highly efficient, extremely complex logical reasoning might be slightly degraded compared to the FP16 base model.
-* **Language Scope:** The model is highly optimized for English/German to Vietnamese explanations. Using it for other language pairs might yield suboptimal results.
 ### Framework versions
 - PEFT 0.18.1
 - TRL: 0.29.0
-- Transformers: 5.2.0
 - Pytorch: 2.8.0+cu128
-- Datasets: 4.6.0
 - Tokenizers: 0.22.2
-## 👨‍💻 Developed by
-**PHGROUP TECHNOLOGY SOLUTIONS CO., LTD** - Building AI-driven educational and omnichannel solutions.

 ---
+base_model: unsloth/llama-3-8b-Instruct-bnb-4bit
 library_name: peft
 model_name: tutor_model_output
 tags:
 - sft
 - transformers
 - trl
 licence: license
 pipeline_tag: text-generation
 ---
+# Model Card for tutor_model_output
+This model is a fine-tuned version of [unsloth/llama-3-8b-Instruct-bnb-4bit](https://huggingface.co/unsloth/llama-3-8b-Instruct-bnb-4bit).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
 ```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/phgrouptechs-phgroup-technology-solutions-co-ltd/my-awesome-project/runs/74x5vj6l)
 This model was trained with SFT.
 ### Framework versions
 - PEFT 0.18.1
 - TRL: 0.29.0
+- Transformers: 5.3.0
 - Pytorch: 2.8.0+cu128
+- Datasets: 4.6.1
 - Tokenizers: 0.22.2
+## Citations
+Cite TRL as:
+```bibtex
+@software{vonwerra2020trl,
+  title   = {{TRL: Transformers Reinforcement Learning}},
+  author  = {von Werra, Leandro and Belkada, Younes and Tunstall, Lewis and Beeching, Edward and Thrush, Tristan and Lambert, Nathan and Huang, Shengyi and Rasul, Kashif and Gallouédec, Quentin},
+  license = {Apache-2.0},
+  url     = {https://github.com/huggingface/trl},
+  year    = {2020}
+}
+```

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27e2e812aa91b0af98fa9af3f5cbd95f3212af35d91ec3ab0e8d1cf1f47b5ba6
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:52c5f909945589d0c78975a1cb4af27dcba08206910975f240e0ceb21013a2e2
 size 83946192

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a2c2b8092d72e36662bbcb939947cb8b00883bb89d3249cfedbc4e6a800463f
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd3571d376b0d67ebe69939a4324b1619b93944194edad7b9e1b8e8503fac290
 size 83946192

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:189d043694baff6a2630a6b1e5a58f07b1e7a255a848278d3f7622fe030eabe4
 size 335817867

 version https://git-lfs.github.com/spec/v1
+oid sha256:2873fdc2d53f293c0fddd0c6945e25936379b8656d7d9730013ad80daac1db00
 size 335817867

checkpoint-100/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:656940eec6948746efc59dba0c191ea5ae91cfbd43a4858cae4f839eac52b6a0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd42335f66aa8837109aed797819fac4d73aa4b840d682d5e72348336f572739
 size 14645

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.010103561505430665,
   "eval_steps": 500,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -10,103 +10,103 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.45259268283844,
-      "epoch": 0.0010103561505430665,
-      "grad_norm": 0.2451171875,
       "learning_rate": 0.0001964,
-      "loss": 1.7130912780761718,
-      "mean_token_accuracy": 0.6436435863375664,
-      "num_tokens": 28151.0,
       "step": 10
     },
     {
-      "entropy": 1.3634081721305846,
-      "epoch": 0.002020712301086133,
-      "grad_norm": 0.484375,
       "learning_rate": 0.00019240000000000001,
-      "loss": 1.3450921058654786,
-      "mean_token_accuracy": 0.686880823969841,
-      "num_tokens": 57374.0,
       "step": 20
     },
     {
-      "entropy": 1.1857430338859558,
-      "epoch": 0.0030310684516291994,
-      "grad_norm": 0.322265625,
       "learning_rate": 0.0001884,
-      "loss": 1.205996608734131,
-      "mean_token_accuracy": 0.706908255815506,
-      "num_tokens": 86755.0,
       "step": 30
     },
     {
-      "entropy": 1.156875231862068,
-      "epoch": 0.004041424602172266,
-      "grad_norm": 0.359375,
       "learning_rate": 0.0001844,
-      "loss": 1.1667716026306152,
-      "mean_token_accuracy": 0.7132074117660523,
-      "num_tokens": 114130.0,
       "step": 40
     },
     {
-      "entropy": 1.083250343799591,
-      "epoch": 0.005051780752715332,
-      "grad_norm": 0.330078125,
       "learning_rate": 0.00018040000000000002,
-      "loss": 1.1047730445861816,
-      "mean_token_accuracy": 0.7196864277124405,
-      "num_tokens": 141768.0,
       "step": 50
     },
     {
-      "entropy": 1.0874410301446915,
-      "epoch": 0.006062136903258399,
-      "grad_norm": 0.265625,
       "learning_rate": 0.0001764,
-      "loss": 1.0894905090332032,
-      "mean_token_accuracy": 0.7210412979125976,
-      "num_tokens": 172272.0,
       "step": 60
     },
     {
-      "entropy": 1.1303296595811845,
-      "epoch": 0.007072493053801465,
-      "grad_norm": 0.25390625,
       "learning_rate": 0.00017240000000000002,
-      "loss": 1.1445048332214356,
-      "mean_token_accuracy": 0.7178041815757752,
-      "num_tokens": 200909.0,
       "step": 70
     },
     {
-      "entropy": 1.0938484042882919,
-      "epoch": 0.008082849204344532,
-      "grad_norm": 0.271484375,
       "learning_rate": 0.0001684,
-      "loss": 1.098367691040039,
-      "mean_token_accuracy": 0.7246084690093995,
-      "num_tokens": 228726.0,
       "step": 80
     },
     {
-      "entropy": 1.0779876083135604,
-      "epoch": 0.009093205354887599,
-      "grad_norm": 0.2216796875,
       "learning_rate": 0.0001644,
-      "loss": 1.0803230285644532,
-      "mean_token_accuracy": 0.720952507853508,
-      "num_tokens": 255181.0,
       "step": 90
     },
     {
-      "entropy": 1.1645614862442017,
-      "epoch": 0.010103561505430665,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.00016040000000000002,
-      "loss": 1.147304630279541,
-      "mean_token_accuracy": 0.7067203193902969,
-      "num_tokens": 283616.0,
       "step": 100
     }
   ],
@@ -127,7 +127,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.9285710718828544e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.401168496482224e-05,
   "eval_steps": 500,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.4767830133438111,
+      "epoch": 7.401168496482225e-06,
+      "grad_norm": 0.578125,
       "learning_rate": 0.0001964,
+      "loss": 1.6877475738525392,
+      "mean_token_accuracy": 0.7061349496245384,
+      "num_tokens": 14911.0,
       "step": 10
     },
     {
+      "entropy": 1.0930627048015595,
+      "epoch": 1.480233699296445e-05,
+      "grad_norm": 0.458984375,
       "learning_rate": 0.00019240000000000001,
+      "loss": 1.0562871932983398,
+      "mean_token_accuracy": 0.8108290940523147,
+      "num_tokens": 28646.0,
       "step": 20
     },
     {
+      "entropy": 0.8788679152727127,
+      "epoch": 2.2203505489446674e-05,
+      "grad_norm": 0.5859375,
       "learning_rate": 0.0001884,
+      "loss": 0.8974875450134278,
+      "mean_token_accuracy": 0.8296987593173981,
+      "num_tokens": 41474.0,
       "step": 30
     },
     {
+      "entropy": 0.8145956963300705,
+      "epoch": 2.96046739859289e-05,
+      "grad_norm": 0.39453125,
       "learning_rate": 0.0001844,
+      "loss": 0.8066701889038086,
+      "mean_token_accuracy": 0.8340015441179276,
+      "num_tokens": 54466.0,
       "step": 40
     },
     {
+      "entropy": 0.7157480388879776,
+      "epoch": 3.700584248241112e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00018040000000000002,
+      "loss": 0.7251500129699707,
+      "mean_token_accuracy": 0.8420351594686508,
+      "num_tokens": 66880.0,
       "step": 50
     },
     {
+      "entropy": 0.7959431439638138,
+      "epoch": 4.440701097889335e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001764,
+      "loss": 0.8049167633056641,
+      "mean_token_accuracy": 0.8289562940597535,
+      "num_tokens": 80036.0,
       "step": 60
     },
     {
+      "entropy": 0.8342548221349716,
+      "epoch": 5.180817947537557e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00017240000000000002,
+      "loss": 0.8336853981018066,
+      "mean_token_accuracy": 0.8279720038175583,
+      "num_tokens": 93357.0,
       "step": 70
     },
     {
+      "entropy": 0.7970967918634415,
+      "epoch": 5.92093479718578e-05,
+      "grad_norm": 0.73046875,
       "learning_rate": 0.0001684,
+      "loss": 0.7949181079864502,
+      "mean_token_accuracy": 0.828959608078003,
+      "num_tokens": 106951.0,
       "step": 80
     },
     {
+      "entropy": 0.7967441529035568,
+      "epoch": 6.661051646834002e-05,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0001644,
+      "loss": 0.8285197257995606,
+      "mean_token_accuracy": 0.8272027671337128,
+      "num_tokens": 120269.0,
       "step": 90
     },
     {
+      "entropy": 0.7741447448730469,
+      "epoch": 7.401168496482224e-05,
+      "grad_norm": 0.271484375,
       "learning_rate": 0.00016040000000000002,
+      "loss": 0.7636381626129151,
+      "mean_token_accuracy": 0.8373189926147461,
+      "num_tokens": 133116.0,
       "step": 100
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 9597079982112768.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09fa87e3d3e86a067d90eaa846ea88c86e8db4d6dfc7c81c48161d222148cc90
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b38a965a78dd2741df9584b07323c6472be2985ef11caf5e56857e87bb65fb4
 size 83946192

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3067ac6f15a78cb59a530f24b6f633438906cff514328780a56664d4019d1cac
 size 335817867

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ae2af00d109790f6a0cae3a0a00c8da0f1d9bb6b988a377f14be3b34936563f
 size 335817867

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f83c2fb90a464d2069f8c9696adef67a1221780665f6aa89b1aee6e5e66a9bb1
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:daadb075e2f031fbda74514b09d5bc1b433960d924ec2d86606ab755c3504c6c
 size 14645

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02020712301086133,
   "eval_steps": 500,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -10,203 +10,203 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.45259268283844,
-      "epoch": 0.0010103561505430665,
-      "grad_norm": 0.2451171875,
       "learning_rate": 0.0001964,
-      "loss": 1.7130912780761718,
-      "mean_token_accuracy": 0.6436435863375664,
-      "num_tokens": 28151.0,
       "step": 10
     },
     {
-      "entropy": 1.3634081721305846,
-      "epoch": 0.002020712301086133,
-      "grad_norm": 0.484375,
       "learning_rate": 0.00019240000000000001,
-      "loss": 1.3450921058654786,
-      "mean_token_accuracy": 0.686880823969841,
-      "num_tokens": 57374.0,
       "step": 20
     },
     {
-      "entropy": 1.1857430338859558,
-      "epoch": 0.0030310684516291994,
-      "grad_norm": 0.322265625,
       "learning_rate": 0.0001884,
-      "loss": 1.205996608734131,
-      "mean_token_accuracy": 0.706908255815506,
-      "num_tokens": 86755.0,
       "step": 30
     },
     {
-      "entropy": 1.156875231862068,
-      "epoch": 0.004041424602172266,
-      "grad_norm": 0.359375,
       "learning_rate": 0.0001844,
-      "loss": 1.1667716026306152,
-      "mean_token_accuracy": 0.7132074117660523,
-      "num_tokens": 114130.0,
       "step": 40
     },
     {
-      "entropy": 1.083250343799591,
-      "epoch": 0.005051780752715332,
-      "grad_norm": 0.330078125,
       "learning_rate": 0.00018040000000000002,
-      "loss": 1.1047730445861816,
-      "mean_token_accuracy": 0.7196864277124405,
-      "num_tokens": 141768.0,
       "step": 50
     },
     {
-      "entropy": 1.0874410301446915,
-      "epoch": 0.006062136903258399,
-      "grad_norm": 0.265625,
       "learning_rate": 0.0001764,
-      "loss": 1.0894905090332032,
-      "mean_token_accuracy": 0.7210412979125976,
-      "num_tokens": 172272.0,
       "step": 60
     },
     {
-      "entropy": 1.1303296595811845,
-      "epoch": 0.007072493053801465,
-      "grad_norm": 0.25390625,
       "learning_rate": 0.00017240000000000002,
-      "loss": 1.1445048332214356,
-      "mean_token_accuracy": 0.7178041815757752,
-      "num_tokens": 200909.0,
       "step": 70
     },
     {
-      "entropy": 1.0938484042882919,
-      "epoch": 0.008082849204344532,
-      "grad_norm": 0.271484375,
       "learning_rate": 0.0001684,
-      "loss": 1.098367691040039,
-      "mean_token_accuracy": 0.7246084690093995,
-      "num_tokens": 228726.0,
       "step": 80
     },
     {
-      "entropy": 1.0779876083135604,
-      "epoch": 0.009093205354887599,
-      "grad_norm": 0.2216796875,
       "learning_rate": 0.0001644,
-      "loss": 1.0803230285644532,
-      "mean_token_accuracy": 0.720952507853508,
-      "num_tokens": 255181.0,
       "step": 90
     },
     {
-      "entropy": 1.1645614862442017,
-      "epoch": 0.010103561505430665,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.00016040000000000002,
-      "loss": 1.147304630279541,
-      "mean_token_accuracy": 0.7067203193902969,
-      "num_tokens": 283616.0,
       "step": 100
     },
     {
-      "entropy": 1.126008078455925,
-      "epoch": 0.011113917655973731,
-      "grad_norm": 0.2001953125,
       "learning_rate": 0.0001564,
-      "loss": 1.1415093421936036,
-      "mean_token_accuracy": 0.7101349741220474,
-      "num_tokens": 312151.0,
       "step": 110
     },
     {
-      "entropy": 1.091178685426712,
-      "epoch": 0.012124273806516797,
-      "grad_norm": 0.1953125,
       "learning_rate": 0.00015240000000000002,
-      "loss": 1.0913947105407715,
-      "mean_token_accuracy": 0.7238801747560502,
-      "num_tokens": 340776.0,
       "step": 120
     },
     {
-      "entropy": 1.2382428109645844,
-      "epoch": 0.013134629957059864,
-      "grad_norm": 0.2099609375,
       "learning_rate": 0.0001484,
-      "loss": 1.2411503791809082,
-      "mean_token_accuracy": 0.697870621085167,
-      "num_tokens": 371270.0,
       "step": 130
     },
     {
-      "entropy": 1.1168828099966048,
-      "epoch": 0.01414498610760293,
-      "grad_norm": 0.220703125,
       "learning_rate": 0.0001444,
-      "loss": 1.1341249465942382,
-      "mean_token_accuracy": 0.7141003280878067,
-      "num_tokens": 400176.0,
       "step": 140
     },
     {
-      "entropy": 1.114673560857773,
-      "epoch": 0.015155342258145996,
-      "grad_norm": 0.2109375,
       "learning_rate": 0.0001404,
-      "loss": 1.1116752624511719,
-      "mean_token_accuracy": 0.7234076589345932,
-      "num_tokens": 427204.0,
       "step": 150
     },
     {
-      "entropy": 1.1378572463989258,
-      "epoch": 0.016165698408689064,
-      "grad_norm": 0.1904296875,
       "learning_rate": 0.0001364,
-      "loss": 1.1589903831481934,
-      "mean_token_accuracy": 0.7053093910217285,
-      "num_tokens": 458094.0,
       "step": 160
     },
     {
-      "entropy": 1.110730269551277,
-      "epoch": 0.01717605455923213,
-      "grad_norm": 0.1962890625,
       "learning_rate": 0.00013240000000000002,
-      "loss": 1.087682342529297,
-      "mean_token_accuracy": 0.7177392661571502,
-      "num_tokens": 487098.0,
       "step": 170
     },
     {
-      "entropy": 1.0602406531572341,
-      "epoch": 0.018186410709775197,
-      "grad_norm": 0.228515625,
       "learning_rate": 0.0001284,
-      "loss": 1.0950936317443847,
-      "mean_token_accuracy": 0.7214239358901977,
-      "num_tokens": 516025.0,
       "step": 180
     },
     {
-      "entropy": 1.1597254037857057,
-      "epoch": 0.01919676686031826,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00012440000000000002,
-      "loss": 1.1208978652954102,
-      "mean_token_accuracy": 0.7143576145172119,
-      "num_tokens": 544810.0,
       "step": 190
     },
     {
-      "entropy": 1.0519475936889648,
-      "epoch": 0.02020712301086133,
-      "grad_norm": 0.20703125,
       "learning_rate": 0.0001204,
-      "loss": 1.0744948387145996,
-      "mean_token_accuracy": 0.718455109000206,
-      "num_tokens": 573002.0,
       "step": 200
     }
   ],
@@ -227,7 +227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.072716910585446e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00014802336992964448,
   "eval_steps": 500,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.4767830133438111,
+      "epoch": 7.401168496482225e-06,
+      "grad_norm": 0.578125,
       "learning_rate": 0.0001964,
+      "loss": 1.6877475738525392,
+      "mean_token_accuracy": 0.7061349496245384,
+      "num_tokens": 14911.0,
       "step": 10
     },
     {
+      "entropy": 1.0930627048015595,
+      "epoch": 1.480233699296445e-05,
+      "grad_norm": 0.458984375,
       "learning_rate": 0.00019240000000000001,
+      "loss": 1.0562871932983398,
+      "mean_token_accuracy": 0.8108290940523147,
+      "num_tokens": 28646.0,
       "step": 20
     },
     {
+      "entropy": 0.8788679152727127,
+      "epoch": 2.2203505489446674e-05,
+      "grad_norm": 0.5859375,
       "learning_rate": 0.0001884,
+      "loss": 0.8974875450134278,
+      "mean_token_accuracy": 0.8296987593173981,
+      "num_tokens": 41474.0,
       "step": 30
     },
     {
+      "entropy": 0.8145956963300705,
+      "epoch": 2.96046739859289e-05,
+      "grad_norm": 0.39453125,
       "learning_rate": 0.0001844,
+      "loss": 0.8066701889038086,
+      "mean_token_accuracy": 0.8340015441179276,
+      "num_tokens": 54466.0,
       "step": 40
     },
     {
+      "entropy": 0.7157480388879776,
+      "epoch": 3.700584248241112e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00018040000000000002,
+      "loss": 0.7251500129699707,
+      "mean_token_accuracy": 0.8420351594686508,
+      "num_tokens": 66880.0,
       "step": 50
     },
     {
+      "entropy": 0.7959431439638138,
+      "epoch": 4.440701097889335e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001764,
+      "loss": 0.8049167633056641,
+      "mean_token_accuracy": 0.8289562940597535,
+      "num_tokens": 80036.0,
       "step": 60
     },
     {
+      "entropy": 0.8342548221349716,
+      "epoch": 5.180817947537557e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00017240000000000002,
+      "loss": 0.8336853981018066,
+      "mean_token_accuracy": 0.8279720038175583,
+      "num_tokens": 93357.0,
       "step": 70
     },
     {
+      "entropy": 0.7970967918634415,
+      "epoch": 5.92093479718578e-05,
+      "grad_norm": 0.73046875,
       "learning_rate": 0.0001684,
+      "loss": 0.7949181079864502,
+      "mean_token_accuracy": 0.828959608078003,
+      "num_tokens": 106951.0,
       "step": 80
     },
     {
+      "entropy": 0.7967441529035568,
+      "epoch": 6.661051646834002e-05,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0001644,
+      "loss": 0.8285197257995606,
+      "mean_token_accuracy": 0.8272027671337128,
+      "num_tokens": 120269.0,
       "step": 90
     },
     {
+      "entropy": 0.7741447448730469,
+      "epoch": 7.401168496482224e-05,
+      "grad_norm": 0.271484375,
       "learning_rate": 0.00016040000000000002,
+      "loss": 0.7636381626129151,
+      "mean_token_accuracy": 0.8373189926147461,
+      "num_tokens": 133116.0,
       "step": 100
     },
     {
+      "entropy": 0.72959463596344,
+      "epoch": 8.141285346130448e-05,
+      "grad_norm": 0.421875,
       "learning_rate": 0.0001564,
+      "loss": 0.7404542446136475,
+      "mean_token_accuracy": 0.8400259047746659,
+      "num_tokens": 146103.0,
       "step": 110
     },
     {
+      "entropy": 0.777249938249588,
+      "epoch": 8.88140219577867e-05,
+      "grad_norm": 0.3984375,
       "learning_rate": 0.00015240000000000002,
+      "loss": 0.7868029117584229,
+      "mean_token_accuracy": 0.8342386931180954,
+      "num_tokens": 158980.0,
       "step": 120
     },
     {
+      "entropy": 0.8305783897638321,
+      "epoch": 9.621519045426892e-05,
+      "grad_norm": 0.328125,
       "learning_rate": 0.0001484,
+      "loss": 0.8155685424804687,
+      "mean_token_accuracy": 0.8282770067453384,
+      "num_tokens": 172414.0,
       "step": 130
     },
     {
+      "entropy": 0.8582165241241455,
+      "epoch": 0.00010361635895075114,
+      "grad_norm": 0.322265625,
       "learning_rate": 0.0001444,
+      "loss": 0.8684965133666992,
+      "mean_token_accuracy": 0.8188153028488159,
+      "num_tokens": 186224.0,
       "step": 140
     },
     {
+      "entropy": 0.823002302646637,
+      "epoch": 0.00011101752744723338,
+      "grad_norm": 0.41796875,
       "learning_rate": 0.0001404,
+      "loss": 0.8199325561523437,
+      "mean_token_accuracy": 0.8285818427801133,
+      "num_tokens": 199564.0,
       "step": 150
     },
     {
+      "entropy": 0.7803006649017334,
+      "epoch": 0.0001184186959437156,
+      "grad_norm": 0.28125,
       "learning_rate": 0.0001364,
+      "loss": 0.8177242279052734,
+      "mean_token_accuracy": 0.8276909857988357,
+      "num_tokens": 212955.0,
       "step": 160
     },
     {
+      "entropy": 0.7576605170965195,
+      "epoch": 0.00012581986444019783,
+      "grad_norm": 0.298828125,
       "learning_rate": 0.00013240000000000002,
+      "loss": 0.7334442615509034,
+      "mean_token_accuracy": 0.8368929207324982,
+      "num_tokens": 225983.0,
       "step": 170
     },
     {
+      "entropy": 0.8388681739568711,
+      "epoch": 0.00013322103293668004,
+      "grad_norm": 4.15625,
       "learning_rate": 0.0001284,
+      "loss": 0.878928279876709,
+      "mean_token_accuracy": 0.8206132620573043,
+      "num_tokens": 240490.0,
       "step": 180
     },
     {
+      "entropy": 0.8390863686800003,
+      "epoch": 0.00014062220143316227,
+      "grad_norm": 0.25,
       "learning_rate": 0.00012440000000000002,
+      "loss": 0.8454230308532715,
+      "mean_token_accuracy": 0.8245942384004593,
+      "num_tokens": 254696.0,
       "step": 190
     },
     {
+      "entropy": 0.8603733956813813,
+      "epoch": 0.00014802336992964448,
+      "grad_norm": 0.2734375,
       "learning_rate": 0.0001204,
+      "loss": 0.8759581565856933,
+      "mean_token_accuracy": 0.8165332227945328,
+      "num_tokens": 269719.0,
       "step": 200
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.979803013106893e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-300/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-300/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cbcf3ca8d5775d18c717b9664d07d0f3dbf4ad047e02f29c45b2aafbe03f792
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:85efefbb46bc43fcbac85541bd7b747e61f87e638522522412f091837cc1b8a1
 size 83946192

checkpoint-300/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fe138a3267a60f56d4593f3a156e8d355dda78fbaf390d33617b908b29bccfb
 size 335818315

 version https://git-lfs.github.com/spec/v1
+oid sha256:0df08cfa7716b9bae6ec43b0a8ef4cb39429b50f55a2ab597adea0596080bac6
 size 335818315

checkpoint-300/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:298e8a5d47da5232d3f20a30a20c275f9abe3afa14bbb395ac3df2d3ab6f5203
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9d64886c1f6b45c33ffbb3c56e1debba8d8c711e548d1360b58267adb2ccdba
 size 14645

checkpoint-300/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.030310684516291993,
   "eval_steps": 500,
   "global_step": 300,
   "is_hyper_param_search": false,
@@ -10,303 +10,303 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.45259268283844,
-      "epoch": 0.0010103561505430665,
-      "grad_norm": 0.2451171875,
       "learning_rate": 0.0001964,
-      "loss": 1.7130912780761718,
-      "mean_token_accuracy": 0.6436435863375664,
-      "num_tokens": 28151.0,
       "step": 10
     },
     {
-      "entropy": 1.3634081721305846,
-      "epoch": 0.002020712301086133,
-      "grad_norm": 0.484375,
       "learning_rate": 0.00019240000000000001,
-      "loss": 1.3450921058654786,
-      "mean_token_accuracy": 0.686880823969841,
-      "num_tokens": 57374.0,
       "step": 20
     },
     {
-      "entropy": 1.1857430338859558,
-      "epoch": 0.0030310684516291994,
-      "grad_norm": 0.322265625,
       "learning_rate": 0.0001884,
-      "loss": 1.205996608734131,
-      "mean_token_accuracy": 0.706908255815506,
-      "num_tokens": 86755.0,
       "step": 30
     },
     {
-      "entropy": 1.156875231862068,
-      "epoch": 0.004041424602172266,
-      "grad_norm": 0.359375,
       "learning_rate": 0.0001844,
-      "loss": 1.1667716026306152,
-      "mean_token_accuracy": 0.7132074117660523,
-      "num_tokens": 114130.0,
       "step": 40
     },
     {
-      "entropy": 1.083250343799591,
-      "epoch": 0.005051780752715332,
-      "grad_norm": 0.330078125,
       "learning_rate": 0.00018040000000000002,
-      "loss": 1.1047730445861816,
-      "mean_token_accuracy": 0.7196864277124405,
-      "num_tokens": 141768.0,
       "step": 50
     },
     {
-      "entropy": 1.0874410301446915,
-      "epoch": 0.006062136903258399,
-      "grad_norm": 0.265625,
       "learning_rate": 0.0001764,
-      "loss": 1.0894905090332032,
-      "mean_token_accuracy": 0.7210412979125976,
-      "num_tokens": 172272.0,
       "step": 60
     },
     {
-      "entropy": 1.1303296595811845,
-      "epoch": 0.007072493053801465,
-      "grad_norm": 0.25390625,
       "learning_rate": 0.00017240000000000002,
-      "loss": 1.1445048332214356,
-      "mean_token_accuracy": 0.7178041815757752,
-      "num_tokens": 200909.0,
       "step": 70
     },
     {
-      "entropy": 1.0938484042882919,
-      "epoch": 0.008082849204344532,
-      "grad_norm": 0.271484375,
       "learning_rate": 0.0001684,
-      "loss": 1.098367691040039,
-      "mean_token_accuracy": 0.7246084690093995,
-      "num_tokens": 228726.0,
       "step": 80
     },
     {
-      "entropy": 1.0779876083135604,
-      "epoch": 0.009093205354887599,
-      "grad_norm": 0.2216796875,
       "learning_rate": 0.0001644,
-      "loss": 1.0803230285644532,
-      "mean_token_accuracy": 0.720952507853508,
-      "num_tokens": 255181.0,
       "step": 90
     },
     {
-      "entropy": 1.1645614862442017,
-      "epoch": 0.010103561505430665,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.00016040000000000002,
-      "loss": 1.147304630279541,
-      "mean_token_accuracy": 0.7067203193902969,
-      "num_tokens": 283616.0,
       "step": 100
     },
     {
-      "entropy": 1.126008078455925,
-      "epoch": 0.011113917655973731,
-      "grad_norm": 0.2001953125,
       "learning_rate": 0.0001564,
-      "loss": 1.1415093421936036,
-      "mean_token_accuracy": 0.7101349741220474,
-      "num_tokens": 312151.0,
       "step": 110
     },
     {
-      "entropy": 1.091178685426712,
-      "epoch": 0.012124273806516797,
-      "grad_norm": 0.1953125,
       "learning_rate": 0.00015240000000000002,
-      "loss": 1.0913947105407715,
-      "mean_token_accuracy": 0.7238801747560502,
-      "num_tokens": 340776.0,
       "step": 120
     },
     {
-      "entropy": 1.2382428109645844,
-      "epoch": 0.013134629957059864,
-      "grad_norm": 0.2099609375,
       "learning_rate": 0.0001484,
-      "loss": 1.2411503791809082,
-      "mean_token_accuracy": 0.697870621085167,
-      "num_tokens": 371270.0,
       "step": 130
     },
     {
-      "entropy": 1.1168828099966048,
-      "epoch": 0.01414498610760293,
-      "grad_norm": 0.220703125,
       "learning_rate": 0.0001444,
-      "loss": 1.1341249465942382,
-      "mean_token_accuracy": 0.7141003280878067,
-      "num_tokens": 400176.0,
       "step": 140
     },
     {
-      "entropy": 1.114673560857773,
-      "epoch": 0.015155342258145996,
-      "grad_norm": 0.2109375,
       "learning_rate": 0.0001404,
-      "loss": 1.1116752624511719,
-      "mean_token_accuracy": 0.7234076589345932,
-      "num_tokens": 427204.0,
       "step": 150
     },
     {
-      "entropy": 1.1378572463989258,
-      "epoch": 0.016165698408689064,
-      "grad_norm": 0.1904296875,
       "learning_rate": 0.0001364,
-      "loss": 1.1589903831481934,
-      "mean_token_accuracy": 0.7053093910217285,
-      "num_tokens": 458094.0,
       "step": 160
     },
     {
-      "entropy": 1.110730269551277,
-      "epoch": 0.01717605455923213,
-      "grad_norm": 0.1962890625,
       "learning_rate": 0.00013240000000000002,
-      "loss": 1.087682342529297,
-      "mean_token_accuracy": 0.7177392661571502,
-      "num_tokens": 487098.0,
       "step": 170
     },
     {
-      "entropy": 1.0602406531572341,
-      "epoch": 0.018186410709775197,
-      "grad_norm": 0.228515625,
       "learning_rate": 0.0001284,
-      "loss": 1.0950936317443847,
-      "mean_token_accuracy": 0.7214239358901977,
-      "num_tokens": 516025.0,
       "step": 180
     },
     {
-      "entropy": 1.1597254037857057,
-      "epoch": 0.01919676686031826,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00012440000000000002,
-      "loss": 1.1208978652954102,
-      "mean_token_accuracy": 0.7143576145172119,
-      "num_tokens": 544810.0,
       "step": 190
     },
     {
-      "entropy": 1.0519475936889648,
-      "epoch": 0.02020712301086133,
-      "grad_norm": 0.20703125,
       "learning_rate": 0.0001204,
-      "loss": 1.0744948387145996,
-      "mean_token_accuracy": 0.718455109000206,
-      "num_tokens": 573002.0,
       "step": 200
     },
     {
-      "entropy": 1.2084601551294327,
-      "epoch": 0.021217479161404394,
-      "grad_norm": 0.1943359375,
       "learning_rate": 0.0001164,
-      "loss": 1.2174930572509766,
-      "mean_token_accuracy": 0.6999662011861801,
-      "num_tokens": 602401.0,
       "step": 210
     },
     {
-      "entropy": 1.1912338614463807,
-      "epoch": 0.022227835311947462,
-      "grad_norm": 0.216796875,
       "learning_rate": 0.00011240000000000002,
-      "loss": 1.183759880065918,
-      "mean_token_accuracy": 0.7107820093631745,
-      "num_tokens": 629994.0,
       "step": 220
     },
     {
-      "entropy": 1.0905429303646088,
-      "epoch": 0.023238191462490527,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00010840000000000002,
-      "loss": 1.086796474456787,
-      "mean_token_accuracy": 0.7176417618989944,
-      "num_tokens": 658686.0,
       "step": 230
     },
     {
-      "entropy": 1.0157978028059005,
-      "epoch": 0.024248547613033595,
-      "grad_norm": 0.23828125,
       "learning_rate": 0.0001044,
-      "loss": 1.012559700012207,
-      "mean_token_accuracy": 0.7369582027196884,
-      "num_tokens": 685539.0,
       "step": 240
     },
     {
-      "entropy": 1.1027084678411483,
-      "epoch": 0.02525890376357666,
-      "grad_norm": 0.2314453125,
       "learning_rate": 0.0001004,
-      "loss": 1.1228812217712403,
-      "mean_token_accuracy": 0.7192230314016342,
-      "num_tokens": 715224.0,
       "step": 250
     },
     {
-      "entropy": 1.0666967660188675,
-      "epoch": 0.026269259914119727,
-      "grad_norm": 0.2412109375,
       "learning_rate": 9.64e-05,
-      "loss": 1.0753504753112793,
-      "mean_token_accuracy": 0.719659861922264,
-      "num_tokens": 745782.0,
       "step": 260
     },
     {
-      "entropy": 1.034983891248703,
-      "epoch": 0.027279616064662792,
-      "grad_norm": 0.2216796875,
       "learning_rate": 9.240000000000001e-05,
-      "loss": 1.032216453552246,
-      "mean_token_accuracy": 0.7364529073238373,
-      "num_tokens": 772358.0,
       "step": 270
     },
     {
-      "entropy": 1.0821890532970428,
-      "epoch": 0.02828997221520586,
-      "grad_norm": 0.2294921875,
       "learning_rate": 8.840000000000001e-05,
-      "loss": 1.0743555068969726,
-      "mean_token_accuracy": 0.7248906105756759,
-      "num_tokens": 800173.0,
       "step": 280
     },
     {
-      "entropy": 1.1281798005104064,
-      "epoch": 0.029300328365748928,
-      "grad_norm": 0.2216796875,
       "learning_rate": 8.44e-05,
-      "loss": 1.1471177101135255,
-      "mean_token_accuracy": 0.7095231086015701,
-      "num_tokens": 826835.0,
       "step": 290
     },
     {
-      "entropy": 1.0436414241790772,
-      "epoch": 0.030310684516291993,
-      "grad_norm": 0.2001953125,
       "learning_rate": 8.04e-05,
-      "loss": 1.0298893928527832,
-      "mean_token_accuracy": 0.7325254619121552,
-      "num_tokens": 853598.0,
       "step": 300
     }
   ],
@@ -327,7 +327,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.026935257700762e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00022203505489446675,
   "eval_steps": 500,
   "global_step": 300,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.4767830133438111,
+      "epoch": 7.401168496482225e-06,
+      "grad_norm": 0.578125,
       "learning_rate": 0.0001964,
+      "loss": 1.6877475738525392,
+      "mean_token_accuracy": 0.7061349496245384,
+      "num_tokens": 14911.0,
       "step": 10
     },
     {
+      "entropy": 1.0930627048015595,
+      "epoch": 1.480233699296445e-05,
+      "grad_norm": 0.458984375,
       "learning_rate": 0.00019240000000000001,
+      "loss": 1.0562871932983398,
+      "mean_token_accuracy": 0.8108290940523147,
+      "num_tokens": 28646.0,
       "step": 20
     },
     {
+      "entropy": 0.8788679152727127,
+      "epoch": 2.2203505489446674e-05,
+      "grad_norm": 0.5859375,
       "learning_rate": 0.0001884,
+      "loss": 0.8974875450134278,
+      "mean_token_accuracy": 0.8296987593173981,
+      "num_tokens": 41474.0,
       "step": 30
     },
     {
+      "entropy": 0.8145956963300705,
+      "epoch": 2.96046739859289e-05,
+      "grad_norm": 0.39453125,
       "learning_rate": 0.0001844,
+      "loss": 0.8066701889038086,
+      "mean_token_accuracy": 0.8340015441179276,
+      "num_tokens": 54466.0,
       "step": 40
     },
     {
+      "entropy": 0.7157480388879776,
+      "epoch": 3.700584248241112e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00018040000000000002,
+      "loss": 0.7251500129699707,
+      "mean_token_accuracy": 0.8420351594686508,
+      "num_tokens": 66880.0,
       "step": 50
     },
     {
+      "entropy": 0.7959431439638138,
+      "epoch": 4.440701097889335e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001764,
+      "loss": 0.8049167633056641,
+      "mean_token_accuracy": 0.8289562940597535,
+      "num_tokens": 80036.0,
       "step": 60
     },
     {
+      "entropy": 0.8342548221349716,
+      "epoch": 5.180817947537557e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00017240000000000002,
+      "loss": 0.8336853981018066,
+      "mean_token_accuracy": 0.8279720038175583,
+      "num_tokens": 93357.0,
       "step": 70
     },
     {
+      "entropy": 0.7970967918634415,
+      "epoch": 5.92093479718578e-05,
+      "grad_norm": 0.73046875,
       "learning_rate": 0.0001684,
+      "loss": 0.7949181079864502,
+      "mean_token_accuracy": 0.828959608078003,
+      "num_tokens": 106951.0,
       "step": 80
     },
     {
+      "entropy": 0.7967441529035568,
+      "epoch": 6.661051646834002e-05,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0001644,
+      "loss": 0.8285197257995606,
+      "mean_token_accuracy": 0.8272027671337128,
+      "num_tokens": 120269.0,
       "step": 90
     },
     {
+      "entropy": 0.7741447448730469,
+      "epoch": 7.401168496482224e-05,
+      "grad_norm": 0.271484375,
       "learning_rate": 0.00016040000000000002,
+      "loss": 0.7636381626129151,
+      "mean_token_accuracy": 0.8373189926147461,
+      "num_tokens": 133116.0,
       "step": 100
     },
     {
+      "entropy": 0.72959463596344,
+      "epoch": 8.141285346130448e-05,
+      "grad_norm": 0.421875,
       "learning_rate": 0.0001564,
+      "loss": 0.7404542446136475,
+      "mean_token_accuracy": 0.8400259047746659,
+      "num_tokens": 146103.0,
       "step": 110
     },
     {
+      "entropy": 0.777249938249588,
+      "epoch": 8.88140219577867e-05,
+      "grad_norm": 0.3984375,
       "learning_rate": 0.00015240000000000002,
+      "loss": 0.7868029117584229,
+      "mean_token_accuracy": 0.8342386931180954,
+      "num_tokens": 158980.0,
       "step": 120
     },
     {
+      "entropy": 0.8305783897638321,
+      "epoch": 9.621519045426892e-05,
+      "grad_norm": 0.328125,
       "learning_rate": 0.0001484,
+      "loss": 0.8155685424804687,
+      "mean_token_accuracy": 0.8282770067453384,
+      "num_tokens": 172414.0,
       "step": 130
     },
     {
+      "entropy": 0.8582165241241455,
+      "epoch": 0.00010361635895075114,
+      "grad_norm": 0.322265625,
       "learning_rate": 0.0001444,
+      "loss": 0.8684965133666992,
+      "mean_token_accuracy": 0.8188153028488159,
+      "num_tokens": 186224.0,
       "step": 140
     },
     {
+      "entropy": 0.823002302646637,
+      "epoch": 0.00011101752744723338,
+      "grad_norm": 0.41796875,
       "learning_rate": 0.0001404,
+      "loss": 0.8199325561523437,
+      "mean_token_accuracy": 0.8285818427801133,
+      "num_tokens": 199564.0,
       "step": 150
     },
     {
+      "entropy": 0.7803006649017334,
+      "epoch": 0.0001184186959437156,
+      "grad_norm": 0.28125,
       "learning_rate": 0.0001364,
+      "loss": 0.8177242279052734,
+      "mean_token_accuracy": 0.8276909857988357,
+      "num_tokens": 212955.0,
       "step": 160
     },
     {
+      "entropy": 0.7576605170965195,
+      "epoch": 0.00012581986444019783,
+      "grad_norm": 0.298828125,
       "learning_rate": 0.00013240000000000002,
+      "loss": 0.7334442615509034,
+      "mean_token_accuracy": 0.8368929207324982,
+      "num_tokens": 225983.0,
       "step": 170
     },
     {
+      "entropy": 0.8388681739568711,
+      "epoch": 0.00013322103293668004,
+      "grad_norm": 4.15625,
       "learning_rate": 0.0001284,
+      "loss": 0.878928279876709,
+      "mean_token_accuracy": 0.8206132620573043,
+      "num_tokens": 240490.0,
       "step": 180
     },
     {
+      "entropy": 0.8390863686800003,
+      "epoch": 0.00014062220143316227,
+      "grad_norm": 0.25,
       "learning_rate": 0.00012440000000000002,
+      "loss": 0.8454230308532715,
+      "mean_token_accuracy": 0.8245942384004593,
+      "num_tokens": 254696.0,
       "step": 190
     },
     {
+      "entropy": 0.8603733956813813,
+      "epoch": 0.00014802336992964448,
+      "grad_norm": 0.2734375,
       "learning_rate": 0.0001204,
+      "loss": 0.8759581565856933,
+      "mean_token_accuracy": 0.8165332227945328,
+      "num_tokens": 269719.0,
       "step": 200
     },
     {
+      "entropy": 0.76580231487751,
+      "epoch": 0.00015542453842612672,
+      "grad_norm": 0.240234375,
       "learning_rate": 0.0001164,
+      "loss": 0.7616221904754639,
+      "mean_token_accuracy": 0.8392421275377273,
+      "num_tokens": 282621.0,
       "step": 210
     },
     {
+      "entropy": 0.7803073287010193,
+      "epoch": 0.00016282570692260895,
+      "grad_norm": 0.341796875,
       "learning_rate": 0.00011240000000000002,
+      "loss": 0.7809097766876221,
+      "mean_token_accuracy": 0.8302495568990708,
+      "num_tokens": 295624.0,
       "step": 220
     },
     {
+      "entropy": 0.7702126175165176,
+      "epoch": 0.00017022687541909116,
+      "grad_norm": 0.251953125,
       "learning_rate": 0.00010840000000000002,
+      "loss": 0.7757031917572021,
+      "mean_token_accuracy": 0.8389965564012527,
+      "num_tokens": 308856.0,
       "step": 230
     },
     {
+      "entropy": 0.8611143410205842,
+      "epoch": 0.0001776280439155734,
+      "grad_norm": 0.337890625,
       "learning_rate": 0.0001044,
+      "loss": 0.8744688034057617,
+      "mean_token_accuracy": 0.8146604359149933,
+      "num_tokens": 322610.0,
       "step": 240
     },
     {
+      "entropy": 0.8659275263547898,
+      "epoch": 0.0001850292124120556,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001004,
+      "loss": 0.8652327537536622,
+      "mean_token_accuracy": 0.819416218996048,
+      "num_tokens": 336948.0,
       "step": 250
     },
     {
+      "entropy": 0.768859726190567,
+      "epoch": 0.00019243038090853784,
+      "grad_norm": 0.2890625,
       "learning_rate": 9.64e-05,
+      "loss": 0.7651469707489014,
+      "mean_token_accuracy": 0.8339170336723327,
+      "num_tokens": 350252.0,
       "step": 260
     },
     {
+      "entropy": 0.8208303570747375,
+      "epoch": 0.00019983154940502007,
+      "grad_norm": 0.296875,
       "learning_rate": 9.240000000000001e-05,
+      "loss": 0.8234204292297364,
+      "mean_token_accuracy": 0.8225490599870682,
+      "num_tokens": 364325.0,
       "step": 270
     },
     {
+      "entropy": 0.7798860669136047,
+      "epoch": 0.00020723271790150228,
+      "grad_norm": 0.3046875,
       "learning_rate": 8.840000000000001e-05,
+      "loss": 0.7923468112945556,
+      "mean_token_accuracy": 0.831676983833313,
+      "num_tokens": 378088.0,
       "step": 280
     },
     {
+      "entropy": 0.7306642323732376,
+      "epoch": 0.00021463388639798452,
+      "grad_norm": 0.279296875,
       "learning_rate": 8.44e-05,
+      "loss": 0.7504455089569092,
+      "mean_token_accuracy": 0.8410079121589661,
+      "num_tokens": 391023.0,
       "step": 290
     },
     {
+      "entropy": 0.8291689246892929,
+      "epoch": 0.00022203505489446675,
+      "grad_norm": 0.24609375,
       "learning_rate": 8.04e-05,
+      "loss": 0.8151634216308594,
+      "mean_token_accuracy": 0.8278465926647186,
+      "num_tokens": 404816.0,
       "step": 300
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2.9772936498315264e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-400/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-400/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed830c28dd9009fd9f8f9ef49fadbe801b9643637319560ff6802f35368f57f7
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:68c2068c6a06bf1f5a8372f814dfda631696defd4498d00cb745365c4084a9ac
 size 83946192

checkpoint-400/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a29a5e86755e5f4d7bf3569dfbccdee1d4b290afa30db3b8c00266514c2b8248
 size 335818315

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4a8c480eb6a45d018a29e9fc497907ce5f99ce120d183d6cce629c5abcfe3ba
 size 335818315

checkpoint-400/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edf3e1d34f77115ba655f936fb1927d096562299f766f37a65033d66f88d36c4
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ff51dafa0029f4a138f8ab74c1e295d16db5f4d42cfafa0fd3ace6ee42e94f3
 size 14645

checkpoint-400/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04041424602172266,
   "eval_steps": 500,
   "global_step": 400,
   "is_hyper_param_search": false,
@@ -10,403 +10,403 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.45259268283844,
-      "epoch": 0.0010103561505430665,
-      "grad_norm": 0.2451171875,
       "learning_rate": 0.0001964,
-      "loss": 1.7130912780761718,
-      "mean_token_accuracy": 0.6436435863375664,
-      "num_tokens": 28151.0,
       "step": 10
     },
     {
-      "entropy": 1.3634081721305846,
-      "epoch": 0.002020712301086133,
-      "grad_norm": 0.484375,
       "learning_rate": 0.00019240000000000001,
-      "loss": 1.3450921058654786,
-      "mean_token_accuracy": 0.686880823969841,
-      "num_tokens": 57374.0,
       "step": 20
     },
     {
-      "entropy": 1.1857430338859558,
-      "epoch": 0.0030310684516291994,
-      "grad_norm": 0.322265625,
       "learning_rate": 0.0001884,
-      "loss": 1.205996608734131,
-      "mean_token_accuracy": 0.706908255815506,
-      "num_tokens": 86755.0,
       "step": 30
     },
     {
-      "entropy": 1.156875231862068,
-      "epoch": 0.004041424602172266,
-      "grad_norm": 0.359375,
       "learning_rate": 0.0001844,
-      "loss": 1.1667716026306152,
-      "mean_token_accuracy": 0.7132074117660523,
-      "num_tokens": 114130.0,
       "step": 40
     },
     {
-      "entropy": 1.083250343799591,
-      "epoch": 0.005051780752715332,
-      "grad_norm": 0.330078125,
       "learning_rate": 0.00018040000000000002,
-      "loss": 1.1047730445861816,
-      "mean_token_accuracy": 0.7196864277124405,
-      "num_tokens": 141768.0,
       "step": 50
     },
     {
-      "entropy": 1.0874410301446915,
-      "epoch": 0.006062136903258399,
-      "grad_norm": 0.265625,
       "learning_rate": 0.0001764,
-      "loss": 1.0894905090332032,
-      "mean_token_accuracy": 0.7210412979125976,
-      "num_tokens": 172272.0,
       "step": 60
     },
     {
-      "entropy": 1.1303296595811845,
-      "epoch": 0.007072493053801465,
-      "grad_norm": 0.25390625,
       "learning_rate": 0.00017240000000000002,
-      "loss": 1.1445048332214356,
-      "mean_token_accuracy": 0.7178041815757752,
-      "num_tokens": 200909.0,
       "step": 70
     },
     {
-      "entropy": 1.0938484042882919,
-      "epoch": 0.008082849204344532,
-      "grad_norm": 0.271484375,
       "learning_rate": 0.0001684,
-      "loss": 1.098367691040039,
-      "mean_token_accuracy": 0.7246084690093995,
-      "num_tokens": 228726.0,
       "step": 80
     },
     {
-      "entropy": 1.0779876083135604,
-      "epoch": 0.009093205354887599,
-      "grad_norm": 0.2216796875,
       "learning_rate": 0.0001644,
-      "loss": 1.0803230285644532,
-      "mean_token_accuracy": 0.720952507853508,
-      "num_tokens": 255181.0,
       "step": 90
     },
     {
-      "entropy": 1.1645614862442017,
-      "epoch": 0.010103561505430665,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.00016040000000000002,
-      "loss": 1.147304630279541,
-      "mean_token_accuracy": 0.7067203193902969,
-      "num_tokens": 283616.0,
       "step": 100
     },
     {
-      "entropy": 1.126008078455925,
-      "epoch": 0.011113917655973731,
-      "grad_norm": 0.2001953125,
       "learning_rate": 0.0001564,
-      "loss": 1.1415093421936036,
-      "mean_token_accuracy": 0.7101349741220474,
-      "num_tokens": 312151.0,
       "step": 110
     },
     {
-      "entropy": 1.091178685426712,
-      "epoch": 0.012124273806516797,
-      "grad_norm": 0.1953125,
       "learning_rate": 0.00015240000000000002,
-      "loss": 1.0913947105407715,
-      "mean_token_accuracy": 0.7238801747560502,
-      "num_tokens": 340776.0,
       "step": 120
     },
     {
-      "entropy": 1.2382428109645844,
-      "epoch": 0.013134629957059864,
-      "grad_norm": 0.2099609375,
       "learning_rate": 0.0001484,
-      "loss": 1.2411503791809082,
-      "mean_token_accuracy": 0.697870621085167,
-      "num_tokens": 371270.0,
       "step": 130
     },
     {
-      "entropy": 1.1168828099966048,
-      "epoch": 0.01414498610760293,
-      "grad_norm": 0.220703125,
       "learning_rate": 0.0001444,
-      "loss": 1.1341249465942382,
-      "mean_token_accuracy": 0.7141003280878067,
-      "num_tokens": 400176.0,
       "step": 140
     },
     {
-      "entropy": 1.114673560857773,
-      "epoch": 0.015155342258145996,
-      "grad_norm": 0.2109375,
       "learning_rate": 0.0001404,
-      "loss": 1.1116752624511719,
-      "mean_token_accuracy": 0.7234076589345932,
-      "num_tokens": 427204.0,
       "step": 150
     },
     {
-      "entropy": 1.1378572463989258,
-      "epoch": 0.016165698408689064,
-      "grad_norm": 0.1904296875,
       "learning_rate": 0.0001364,
-      "loss": 1.1589903831481934,
-      "mean_token_accuracy": 0.7053093910217285,
-      "num_tokens": 458094.0,
       "step": 160
     },
     {
-      "entropy": 1.110730269551277,
-      "epoch": 0.01717605455923213,
-      "grad_norm": 0.1962890625,
       "learning_rate": 0.00013240000000000002,
-      "loss": 1.087682342529297,
-      "mean_token_accuracy": 0.7177392661571502,
-      "num_tokens": 487098.0,
       "step": 170
     },
     {
-      "entropy": 1.0602406531572341,
-      "epoch": 0.018186410709775197,
-      "grad_norm": 0.228515625,
       "learning_rate": 0.0001284,
-      "loss": 1.0950936317443847,
-      "mean_token_accuracy": 0.7214239358901977,
-      "num_tokens": 516025.0,
       "step": 180
     },
     {
-      "entropy": 1.1597254037857057,
-      "epoch": 0.01919676686031826,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00012440000000000002,
-      "loss": 1.1208978652954102,
-      "mean_token_accuracy": 0.7143576145172119,
-      "num_tokens": 544810.0,
       "step": 190
     },
     {
-      "entropy": 1.0519475936889648,
-      "epoch": 0.02020712301086133,
-      "grad_norm": 0.20703125,
       "learning_rate": 0.0001204,
-      "loss": 1.0744948387145996,
-      "mean_token_accuracy": 0.718455109000206,
-      "num_tokens": 573002.0,
       "step": 200
     },
     {
-      "entropy": 1.2084601551294327,
-      "epoch": 0.021217479161404394,
-      "grad_norm": 0.1943359375,
       "learning_rate": 0.0001164,
-      "loss": 1.2174930572509766,
-      "mean_token_accuracy": 0.6999662011861801,
-      "num_tokens": 602401.0,
       "step": 210
     },
     {
-      "entropy": 1.1912338614463807,
-      "epoch": 0.022227835311947462,
-      "grad_norm": 0.216796875,
       "learning_rate": 0.00011240000000000002,
-      "loss": 1.183759880065918,
-      "mean_token_accuracy": 0.7107820093631745,
-      "num_tokens": 629994.0,
       "step": 220
     },
     {
-      "entropy": 1.0905429303646088,
-      "epoch": 0.023238191462490527,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00010840000000000002,
-      "loss": 1.086796474456787,
-      "mean_token_accuracy": 0.7176417618989944,
-      "num_tokens": 658686.0,
       "step": 230
     },
     {
-      "entropy": 1.0157978028059005,
-      "epoch": 0.024248547613033595,
-      "grad_norm": 0.23828125,
       "learning_rate": 0.0001044,
-      "loss": 1.012559700012207,
-      "mean_token_accuracy": 0.7369582027196884,
-      "num_tokens": 685539.0,
       "step": 240
     },
     {
-      "entropy": 1.1027084678411483,
-      "epoch": 0.02525890376357666,
-      "grad_norm": 0.2314453125,
       "learning_rate": 0.0001004,
-      "loss": 1.1228812217712403,
-      "mean_token_accuracy": 0.7192230314016342,
-      "num_tokens": 715224.0,
       "step": 250
     },
     {
-      "entropy": 1.0666967660188675,
-      "epoch": 0.026269259914119727,
-      "grad_norm": 0.2412109375,
       "learning_rate": 9.64e-05,
-      "loss": 1.0753504753112793,
-      "mean_token_accuracy": 0.719659861922264,
-      "num_tokens": 745782.0,
       "step": 260
     },
     {
-      "entropy": 1.034983891248703,
-      "epoch": 0.027279616064662792,
-      "grad_norm": 0.2216796875,
       "learning_rate": 9.240000000000001e-05,
-      "loss": 1.032216453552246,
-      "mean_token_accuracy": 0.7364529073238373,
-      "num_tokens": 772358.0,
       "step": 270
     },
     {
-      "entropy": 1.0821890532970428,
-      "epoch": 0.02828997221520586,
-      "grad_norm": 0.2294921875,
       "learning_rate": 8.840000000000001e-05,
-      "loss": 1.0743555068969726,
-      "mean_token_accuracy": 0.7248906105756759,
-      "num_tokens": 800173.0,
       "step": 280
     },
     {
-      "entropy": 1.1281798005104064,
-      "epoch": 0.029300328365748928,
-      "grad_norm": 0.2216796875,
       "learning_rate": 8.44e-05,
-      "loss": 1.1471177101135255,
-      "mean_token_accuracy": 0.7095231086015701,
-      "num_tokens": 826835.0,
       "step": 290
     },
     {
-      "entropy": 1.0436414241790772,
-      "epoch": 0.030310684516291993,
-      "grad_norm": 0.2001953125,
       "learning_rate": 8.04e-05,
-      "loss": 1.0298893928527832,
-      "mean_token_accuracy": 0.7325254619121552,
-      "num_tokens": 853598.0,
       "step": 300
     },
     {
-      "entropy": 1.0947031527757645,
-      "epoch": 0.03132104066683506,
-      "grad_norm": 0.232421875,
       "learning_rate": 7.64e-05,
-      "loss": 1.0945837020874023,
-      "mean_token_accuracy": 0.7231394708156585,
-      "num_tokens": 884023.0,
       "step": 310
     },
     {
-      "entropy": 1.1012510120868684,
-      "epoch": 0.03233139681737813,
-      "grad_norm": 0.17578125,
       "learning_rate": 7.24e-05,
-      "loss": 1.106449031829834,
-      "mean_token_accuracy": 0.7150771111249924,
-      "num_tokens": 910709.0,
       "step": 320
     },
     {
-      "entropy": 1.0871451586484908,
-      "epoch": 0.03334175296792119,
-      "grad_norm": 0.2041015625,
       "learning_rate": 6.840000000000001e-05,
-      "loss": 1.0799496650695801,
-      "mean_token_accuracy": 0.7183821439743042,
-      "num_tokens": 938961.0,
       "step": 330
     },
     {
-      "entropy": 1.0514528155326843,
-      "epoch": 0.03435210911846426,
-      "grad_norm": 0.2080078125,
       "learning_rate": 6.440000000000001e-05,
-      "loss": 1.081194019317627,
-      "mean_token_accuracy": 0.7243827939033508,
-      "num_tokens": 967584.0,
       "step": 340
     },
     {
-      "entropy": 1.1092546790838242,
-      "epoch": 0.035362465269007326,
-      "grad_norm": 0.201171875,
       "learning_rate": 6.04e-05,
-      "loss": 1.0813716888427733,
-      "mean_token_accuracy": 0.7228824734687805,
-      "num_tokens": 995895.0,
       "step": 350
     },
     {
-      "entropy": 1.0287963569164276,
-      "epoch": 0.036372821419550394,
-      "grad_norm": 0.265625,
       "learning_rate": 5.6399999999999995e-05,
-      "loss": 1.0419590950012207,
-      "mean_token_accuracy": 0.7281966924667358,
-      "num_tokens": 1024358.0,
       "step": 360
     },
     {
-      "entropy": 1.121953997015953,
-      "epoch": 0.037383177570093455,
-      "grad_norm": 0.26171875,
       "learning_rate": 5.2400000000000007e-05,
-      "loss": 1.0987840652465821,
-      "mean_token_accuracy": 0.7203631848096848,
-      "num_tokens": 1052323.0,
       "step": 370
     },
     {
-      "entropy": 1.110439071059227,
-      "epoch": 0.03839353372063652,
-      "grad_norm": 0.291015625,
       "learning_rate": 4.8400000000000004e-05,
-      "loss": 1.0895070075988769,
-      "mean_token_accuracy": 0.7241304695606232,
-      "num_tokens": 1079594.0,
       "step": 380
     },
     {
-      "entropy": 1.070469456911087,
-      "epoch": 0.03940388987117959,
-      "grad_norm": 0.3046875,
       "learning_rate": 4.44e-05,
-      "loss": 1.1078936576843261,
-      "mean_token_accuracy": 0.7139627873897553,
-      "num_tokens": 1110202.0,
       "step": 390
     },
     {
-      "entropy": 1.1429108887910844,
-      "epoch": 0.04041424602172266,
-      "grad_norm": 0.265625,
       "learning_rate": 4.0400000000000006e-05,
-      "loss": 1.1321399688720704,
-      "mean_token_accuracy": 0.7121616303920746,
-      "num_tokens": 1138357.0,
       "step": 400
     }
   ],
@@ -427,7 +427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1975538735238349e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00029604673985928896,
   "eval_steps": 500,
   "global_step": 400,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.4767830133438111,
+      "epoch": 7.401168496482225e-06,
+      "grad_norm": 0.578125,
       "learning_rate": 0.0001964,
+      "loss": 1.6877475738525392,
+      "mean_token_accuracy": 0.7061349496245384,
+      "num_tokens": 14911.0,
       "step": 10
     },
     {
+      "entropy": 1.0930627048015595,
+      "epoch": 1.480233699296445e-05,
+      "grad_norm": 0.458984375,
       "learning_rate": 0.00019240000000000001,
+      "loss": 1.0562871932983398,
+      "mean_token_accuracy": 0.8108290940523147,
+      "num_tokens": 28646.0,
       "step": 20
     },
     {
+      "entropy": 0.8788679152727127,
+      "epoch": 2.2203505489446674e-05,
+      "grad_norm": 0.5859375,
       "learning_rate": 0.0001884,
+      "loss": 0.8974875450134278,
+      "mean_token_accuracy": 0.8296987593173981,
+      "num_tokens": 41474.0,
       "step": 30
     },
     {
+      "entropy": 0.8145956963300705,
+      "epoch": 2.96046739859289e-05,
+      "grad_norm": 0.39453125,
       "learning_rate": 0.0001844,
+      "loss": 0.8066701889038086,
+      "mean_token_accuracy": 0.8340015441179276,
+      "num_tokens": 54466.0,
       "step": 40
     },
     {
+      "entropy": 0.7157480388879776,
+      "epoch": 3.700584248241112e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00018040000000000002,
+      "loss": 0.7251500129699707,
+      "mean_token_accuracy": 0.8420351594686508,
+      "num_tokens": 66880.0,
       "step": 50
     },
     {
+      "entropy": 0.7959431439638138,
+      "epoch": 4.440701097889335e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001764,
+      "loss": 0.8049167633056641,
+      "mean_token_accuracy": 0.8289562940597535,
+      "num_tokens": 80036.0,
       "step": 60
     },
     {
+      "entropy": 0.8342548221349716,
+      "epoch": 5.180817947537557e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00017240000000000002,
+      "loss": 0.8336853981018066,
+      "mean_token_accuracy": 0.8279720038175583,
+      "num_tokens": 93357.0,
       "step": 70
     },
     {
+      "entropy": 0.7970967918634415,
+      "epoch": 5.92093479718578e-05,
+      "grad_norm": 0.73046875,
       "learning_rate": 0.0001684,
+      "loss": 0.7949181079864502,
+      "mean_token_accuracy": 0.828959608078003,
+      "num_tokens": 106951.0,
       "step": 80
     },
     {
+      "entropy": 0.7967441529035568,
+      "epoch": 6.661051646834002e-05,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0001644,
+      "loss": 0.8285197257995606,
+      "mean_token_accuracy": 0.8272027671337128,
+      "num_tokens": 120269.0,
       "step": 90
     },
     {
+      "entropy": 0.7741447448730469,
+      "epoch": 7.401168496482224e-05,
+      "grad_norm": 0.271484375,
       "learning_rate": 0.00016040000000000002,
+      "loss": 0.7636381626129151,
+      "mean_token_accuracy": 0.8373189926147461,
+      "num_tokens": 133116.0,
       "step": 100
     },
     {
+      "entropy": 0.72959463596344,
+      "epoch": 8.141285346130448e-05,
+      "grad_norm": 0.421875,
       "learning_rate": 0.0001564,
+      "loss": 0.7404542446136475,
+      "mean_token_accuracy": 0.8400259047746659,
+      "num_tokens": 146103.0,
       "step": 110
     },
     {
+      "entropy": 0.777249938249588,
+      "epoch": 8.88140219577867e-05,
+      "grad_norm": 0.3984375,
       "learning_rate": 0.00015240000000000002,
+      "loss": 0.7868029117584229,
+      "mean_token_accuracy": 0.8342386931180954,
+      "num_tokens": 158980.0,
       "step": 120
     },
     {
+      "entropy": 0.8305783897638321,
+      "epoch": 9.621519045426892e-05,
+      "grad_norm": 0.328125,
       "learning_rate": 0.0001484,
+      "loss": 0.8155685424804687,
+      "mean_token_accuracy": 0.8282770067453384,
+      "num_tokens": 172414.0,
       "step": 130
     },
     {
+      "entropy": 0.8582165241241455,
+      "epoch": 0.00010361635895075114,
+      "grad_norm": 0.322265625,
       "learning_rate": 0.0001444,
+      "loss": 0.8684965133666992,
+      "mean_token_accuracy": 0.8188153028488159,
+      "num_tokens": 186224.0,
       "step": 140
     },
     {
+      "entropy": 0.823002302646637,
+      "epoch": 0.00011101752744723338,
+      "grad_norm": 0.41796875,
       "learning_rate": 0.0001404,
+      "loss": 0.8199325561523437,
+      "mean_token_accuracy": 0.8285818427801133,
+      "num_tokens": 199564.0,
       "step": 150
     },
     {
+      "entropy": 0.7803006649017334,
+      "epoch": 0.0001184186959437156,
+      "grad_norm": 0.28125,
       "learning_rate": 0.0001364,
+      "loss": 0.8177242279052734,
+      "mean_token_accuracy": 0.8276909857988357,
+      "num_tokens": 212955.0,
       "step": 160
     },
     {
+      "entropy": 0.7576605170965195,
+      "epoch": 0.00012581986444019783,
+      "grad_norm": 0.298828125,
       "learning_rate": 0.00013240000000000002,
+      "loss": 0.7334442615509034,
+      "mean_token_accuracy": 0.8368929207324982,
+      "num_tokens": 225983.0,
       "step": 170
     },
     {
+      "entropy": 0.8388681739568711,
+      "epoch": 0.00013322103293668004,
+      "grad_norm": 4.15625,
       "learning_rate": 0.0001284,
+      "loss": 0.878928279876709,
+      "mean_token_accuracy": 0.8206132620573043,
+      "num_tokens": 240490.0,
       "step": 180
     },
     {
+      "entropy": 0.8390863686800003,
+      "epoch": 0.00014062220143316227,
+      "grad_norm": 0.25,
       "learning_rate": 0.00012440000000000002,
+      "loss": 0.8454230308532715,
+      "mean_token_accuracy": 0.8245942384004593,
+      "num_tokens": 254696.0,
       "step": 190
     },
     {
+      "entropy": 0.8603733956813813,
+      "epoch": 0.00014802336992964448,
+      "grad_norm": 0.2734375,
       "learning_rate": 0.0001204,
+      "loss": 0.8759581565856933,
+      "mean_token_accuracy": 0.8165332227945328,
+      "num_tokens": 269719.0,
       "step": 200
     },
     {
+      "entropy": 0.76580231487751,
+      "epoch": 0.00015542453842612672,
+      "grad_norm": 0.240234375,
       "learning_rate": 0.0001164,
+      "loss": 0.7616221904754639,
+      "mean_token_accuracy": 0.8392421275377273,
+      "num_tokens": 282621.0,
       "step": 210
     },
     {
+      "entropy": 0.7803073287010193,
+      "epoch": 0.00016282570692260895,
+      "grad_norm": 0.341796875,
       "learning_rate": 0.00011240000000000002,
+      "loss": 0.7809097766876221,
+      "mean_token_accuracy": 0.8302495568990708,
+      "num_tokens": 295624.0,
       "step": 220
     },
     {
+      "entropy": 0.7702126175165176,
+      "epoch": 0.00017022687541909116,
+      "grad_norm": 0.251953125,
       "learning_rate": 0.00010840000000000002,
+      "loss": 0.7757031917572021,
+      "mean_token_accuracy": 0.8389965564012527,
+      "num_tokens": 308856.0,
       "step": 230
     },
     {
+      "entropy": 0.8611143410205842,
+      "epoch": 0.0001776280439155734,
+      "grad_norm": 0.337890625,
       "learning_rate": 0.0001044,
+      "loss": 0.8744688034057617,
+      "mean_token_accuracy": 0.8146604359149933,
+      "num_tokens": 322610.0,
       "step": 240
     },
     {
+      "entropy": 0.8659275263547898,
+      "epoch": 0.0001850292124120556,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001004,
+      "loss": 0.8652327537536622,
+      "mean_token_accuracy": 0.819416218996048,
+      "num_tokens": 336948.0,
       "step": 250
     },
     {
+      "entropy": 0.768859726190567,
+      "epoch": 0.00019243038090853784,
+      "grad_norm": 0.2890625,
       "learning_rate": 9.64e-05,
+      "loss": 0.7651469707489014,
+      "mean_token_accuracy": 0.8339170336723327,
+      "num_tokens": 350252.0,
       "step": 260
     },
     {
+      "entropy": 0.8208303570747375,
+      "epoch": 0.00019983154940502007,
+      "grad_norm": 0.296875,
       "learning_rate": 9.240000000000001e-05,
+      "loss": 0.8234204292297364,
+      "mean_token_accuracy": 0.8225490599870682,
+      "num_tokens": 364325.0,
       "step": 270
     },
     {
+      "entropy": 0.7798860669136047,
+      "epoch": 0.00020723271790150228,
+      "grad_norm": 0.3046875,
       "learning_rate": 8.840000000000001e-05,
+      "loss": 0.7923468112945556,
+      "mean_token_accuracy": 0.831676983833313,
+      "num_tokens": 378088.0,
       "step": 280
     },
     {
+      "entropy": 0.7306642323732376,
+      "epoch": 0.00021463388639798452,
+      "grad_norm": 0.279296875,
       "learning_rate": 8.44e-05,
+      "loss": 0.7504455089569092,
+      "mean_token_accuracy": 0.8410079121589661,
+      "num_tokens": 391023.0,
       "step": 290
     },
     {
+      "entropy": 0.8291689246892929,
+      "epoch": 0.00022203505489446675,
+      "grad_norm": 0.24609375,
       "learning_rate": 8.04e-05,
+      "loss": 0.8151634216308594,
+      "mean_token_accuracy": 0.8278465926647186,
+      "num_tokens": 404816.0,
       "step": 300
     },
     {
+      "entropy": 0.7772005677223206,
+      "epoch": 0.00022943622339094896,
+      "grad_norm": 0.326171875,
       "learning_rate": 7.64e-05,
+      "loss": 0.7859255313873291,
+      "mean_token_accuracy": 0.8338077068328857,
+      "num_tokens": 418105.0,
       "step": 310
     },
     {
+      "entropy": 0.8288773983716965,
+      "epoch": 0.0002368373918874312,
+      "grad_norm": 0.28125,
       "learning_rate": 7.24e-05,
+      "loss": 0.8528160095214844,
+      "mean_token_accuracy": 0.8213677883148194,
+      "num_tokens": 432042.0,
       "step": 320
     },
     {
+      "entropy": 0.7887327700853348,
+      "epoch": 0.0002442385603839134,
+      "grad_norm": 0.326171875,
       "learning_rate": 6.840000000000001e-05,
+      "loss": 0.7650537014007568,
+      "mean_token_accuracy": 0.8351205557584762,
+      "num_tokens": 444796.0,
       "step": 330
     },
     {
+      "entropy": 0.7681846857070923,
+      "epoch": 0.00025163972888039566,
+      "grad_norm": 0.287109375,
       "learning_rate": 6.440000000000001e-05,
+      "loss": 0.7828513145446777,
+      "mean_token_accuracy": 0.8325754940509796,
+      "num_tokens": 457664.0,
       "step": 340
     },
     {
+      "entropy": 0.8200330525636673,
+      "epoch": 0.00025904089737687787,
+      "grad_norm": 0.26953125,
       "learning_rate": 6.04e-05,
+      "loss": 0.8019542694091797,
+      "mean_token_accuracy": 0.8313791334629059,
+      "num_tokens": 470606.0,
       "step": 350
     },
     {
+      "entropy": 0.8059133917093277,
+      "epoch": 0.0002664420658733601,
+      "grad_norm": 0.259765625,
       "learning_rate": 5.6399999999999995e-05,
+      "loss": 0.7930517673492432,
+      "mean_token_accuracy": 0.8300592184066773,
+      "num_tokens": 484904.0,
       "step": 360
     },
     {
+      "entropy": 0.7620012789964676,
+      "epoch": 0.0002738432343698423,
+      "grad_norm": 0.306640625,
       "learning_rate": 5.2400000000000007e-05,
+      "loss": 0.7779502868652344,
+      "mean_token_accuracy": 0.8312928855419159,
+      "num_tokens": 498302.0,
       "step": 370
     },
     {
+      "entropy": 0.7787803679704666,
+      "epoch": 0.00028124440286632455,
+      "grad_norm": 0.3125,
       "learning_rate": 4.8400000000000004e-05,
+      "loss": 0.7784494400024414,
+      "mean_token_accuracy": 0.8316877603530883,
+      "num_tokens": 512369.0,
       "step": 380
     },
     {
+      "entropy": 0.7438325166702271,
+      "epoch": 0.00028864557136280676,
+      "grad_norm": 0.271484375,
       "learning_rate": 4.44e-05,
+      "loss": 0.7538249015808105,
+      "mean_token_accuracy": 0.8402615815401078,
+      "num_tokens": 525385.0,
       "step": 390
     },
     {
+      "entropy": 0.7514106065034867,
+      "epoch": 0.00029604673985928896,
+      "grad_norm": 0.263671875,
       "learning_rate": 4.0400000000000006e-05,
+      "loss": 0.742708683013916,
+      "mean_token_accuracy": 0.8387834310531617,
+      "num_tokens": 538315.0,
       "step": 400
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.968843392293274e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

checkpoint-500/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "k_proj",
     "q_proj",
-    "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "up_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-500/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27e2e812aa91b0af98fa9af3f5cbd95f3212af35d91ec3ab0e8d1cf1f47b5ba6
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:52c5f909945589d0c78975a1cb4af27dcba08206910975f240e0ceb21013a2e2
 size 83946192

checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3dd3be57b426dd155e5a63405dc86206a544c04adfc987f45277f54953346ad
 size 335818315

 version https://git-lfs.github.com/spec/v1
+oid sha256:da5c5e2f7ef1148f93c79913486a56785ae2f2161404e9d5a0e62c949a21ac9c
 size 335818315

checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e442bb66fef53d2f7c798e2651c4e40adcb5578f87e46992c7834c9e7c5c12d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa888466977fe5448d0a9d30a2861628e2271f7a8c8cc85349b67e3f7cc9da6
 size 14645

checkpoint-500/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05051780752715332,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": false,
@@ -10,503 +10,503 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 1.45259268283844,
-      "epoch": 0.0010103561505430665,
-      "grad_norm": 0.2451171875,
       "learning_rate": 0.0001964,
-      "loss": 1.7130912780761718,
-      "mean_token_accuracy": 0.6436435863375664,
-      "num_tokens": 28151.0,
       "step": 10
     },
     {
-      "entropy": 1.3634081721305846,
-      "epoch": 0.002020712301086133,
-      "grad_norm": 0.484375,
       "learning_rate": 0.00019240000000000001,
-      "loss": 1.3450921058654786,
-      "mean_token_accuracy": 0.686880823969841,
-      "num_tokens": 57374.0,
       "step": 20
     },
     {
-      "entropy": 1.1857430338859558,
-      "epoch": 0.0030310684516291994,
-      "grad_norm": 0.322265625,
       "learning_rate": 0.0001884,
-      "loss": 1.205996608734131,
-      "mean_token_accuracy": 0.706908255815506,
-      "num_tokens": 86755.0,
       "step": 30
     },
     {
-      "entropy": 1.156875231862068,
-      "epoch": 0.004041424602172266,
-      "grad_norm": 0.359375,
       "learning_rate": 0.0001844,
-      "loss": 1.1667716026306152,
-      "mean_token_accuracy": 0.7132074117660523,
-      "num_tokens": 114130.0,
       "step": 40
     },
     {
-      "entropy": 1.083250343799591,
-      "epoch": 0.005051780752715332,
-      "grad_norm": 0.330078125,
       "learning_rate": 0.00018040000000000002,
-      "loss": 1.1047730445861816,
-      "mean_token_accuracy": 0.7196864277124405,
-      "num_tokens": 141768.0,
       "step": 50
     },
     {
-      "entropy": 1.0874410301446915,
-      "epoch": 0.006062136903258399,
-      "grad_norm": 0.265625,
       "learning_rate": 0.0001764,
-      "loss": 1.0894905090332032,
-      "mean_token_accuracy": 0.7210412979125976,
-      "num_tokens": 172272.0,
       "step": 60
     },
     {
-      "entropy": 1.1303296595811845,
-      "epoch": 0.007072493053801465,
-      "grad_norm": 0.25390625,
       "learning_rate": 0.00017240000000000002,
-      "loss": 1.1445048332214356,
-      "mean_token_accuracy": 0.7178041815757752,
-      "num_tokens": 200909.0,
       "step": 70
     },
     {
-      "entropy": 1.0938484042882919,
-      "epoch": 0.008082849204344532,
-      "grad_norm": 0.271484375,
       "learning_rate": 0.0001684,
-      "loss": 1.098367691040039,
-      "mean_token_accuracy": 0.7246084690093995,
-      "num_tokens": 228726.0,
       "step": 80
     },
     {
-      "entropy": 1.0779876083135604,
-      "epoch": 0.009093205354887599,
-      "grad_norm": 0.2216796875,
       "learning_rate": 0.0001644,
-      "loss": 1.0803230285644532,
-      "mean_token_accuracy": 0.720952507853508,
-      "num_tokens": 255181.0,
       "step": 90
     },
     {
-      "entropy": 1.1645614862442017,
-      "epoch": 0.010103561505430665,
-      "grad_norm": 0.1826171875,
       "learning_rate": 0.00016040000000000002,
-      "loss": 1.147304630279541,
-      "mean_token_accuracy": 0.7067203193902969,
-      "num_tokens": 283616.0,
       "step": 100
     },
     {
-      "entropy": 1.126008078455925,
-      "epoch": 0.011113917655973731,
-      "grad_norm": 0.2001953125,
       "learning_rate": 0.0001564,
-      "loss": 1.1415093421936036,
-      "mean_token_accuracy": 0.7101349741220474,
-      "num_tokens": 312151.0,
       "step": 110
     },
     {
-      "entropy": 1.091178685426712,
-      "epoch": 0.012124273806516797,
-      "grad_norm": 0.1953125,
       "learning_rate": 0.00015240000000000002,
-      "loss": 1.0913947105407715,
-      "mean_token_accuracy": 0.7238801747560502,
-      "num_tokens": 340776.0,
       "step": 120
     },
     {
-      "entropy": 1.2382428109645844,
-      "epoch": 0.013134629957059864,
-      "grad_norm": 0.2099609375,
       "learning_rate": 0.0001484,
-      "loss": 1.2411503791809082,
-      "mean_token_accuracy": 0.697870621085167,
-      "num_tokens": 371270.0,
       "step": 130
     },
     {
-      "entropy": 1.1168828099966048,
-      "epoch": 0.01414498610760293,
-      "grad_norm": 0.220703125,
       "learning_rate": 0.0001444,
-      "loss": 1.1341249465942382,
-      "mean_token_accuracy": 0.7141003280878067,
-      "num_tokens": 400176.0,
       "step": 140
     },
     {
-      "entropy": 1.114673560857773,
-      "epoch": 0.015155342258145996,
-      "grad_norm": 0.2109375,
       "learning_rate": 0.0001404,
-      "loss": 1.1116752624511719,
-      "mean_token_accuracy": 0.7234076589345932,
-      "num_tokens": 427204.0,
       "step": 150
     },
     {
-      "entropy": 1.1378572463989258,
-      "epoch": 0.016165698408689064,
-      "grad_norm": 0.1904296875,
       "learning_rate": 0.0001364,
-      "loss": 1.1589903831481934,
-      "mean_token_accuracy": 0.7053093910217285,
-      "num_tokens": 458094.0,
       "step": 160
     },
     {
-      "entropy": 1.110730269551277,
-      "epoch": 0.01717605455923213,
-      "grad_norm": 0.1962890625,
       "learning_rate": 0.00013240000000000002,
-      "loss": 1.087682342529297,
-      "mean_token_accuracy": 0.7177392661571502,
-      "num_tokens": 487098.0,
       "step": 170
     },
     {
-      "entropy": 1.0602406531572341,
-      "epoch": 0.018186410709775197,
-      "grad_norm": 0.228515625,
       "learning_rate": 0.0001284,
-      "loss": 1.0950936317443847,
-      "mean_token_accuracy": 0.7214239358901977,
-      "num_tokens": 516025.0,
       "step": 180
     },
     {
-      "entropy": 1.1597254037857057,
-      "epoch": 0.01919676686031826,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00012440000000000002,
-      "loss": 1.1208978652954102,
-      "mean_token_accuracy": 0.7143576145172119,
-      "num_tokens": 544810.0,
       "step": 190
     },
     {
-      "entropy": 1.0519475936889648,
-      "epoch": 0.02020712301086133,
-      "grad_norm": 0.20703125,
       "learning_rate": 0.0001204,
-      "loss": 1.0744948387145996,
-      "mean_token_accuracy": 0.718455109000206,
-      "num_tokens": 573002.0,
       "step": 200
     },
     {
-      "entropy": 1.2084601551294327,
-      "epoch": 0.021217479161404394,
-      "grad_norm": 0.1943359375,
       "learning_rate": 0.0001164,
-      "loss": 1.2174930572509766,
-      "mean_token_accuracy": 0.6999662011861801,
-      "num_tokens": 602401.0,
       "step": 210
     },
     {
-      "entropy": 1.1912338614463807,
-      "epoch": 0.022227835311947462,
-      "grad_norm": 0.216796875,
       "learning_rate": 0.00011240000000000002,
-      "loss": 1.183759880065918,
-      "mean_token_accuracy": 0.7107820093631745,
-      "num_tokens": 629994.0,
       "step": 220
     },
     {
-      "entropy": 1.0905429303646088,
-      "epoch": 0.023238191462490527,
-      "grad_norm": 0.203125,
       "learning_rate": 0.00010840000000000002,
-      "loss": 1.086796474456787,
-      "mean_token_accuracy": 0.7176417618989944,
-      "num_tokens": 658686.0,
       "step": 230
     },
     {
-      "entropy": 1.0157978028059005,
-      "epoch": 0.024248547613033595,
-      "grad_norm": 0.23828125,
       "learning_rate": 0.0001044,
-      "loss": 1.012559700012207,
-      "mean_token_accuracy": 0.7369582027196884,
-      "num_tokens": 685539.0,
       "step": 240
     },
     {
-      "entropy": 1.1027084678411483,
-      "epoch": 0.02525890376357666,
-      "grad_norm": 0.2314453125,
       "learning_rate": 0.0001004,
-      "loss": 1.1228812217712403,
-      "mean_token_accuracy": 0.7192230314016342,
-      "num_tokens": 715224.0,
       "step": 250
     },
     {
-      "entropy": 1.0666967660188675,
-      "epoch": 0.026269259914119727,
-      "grad_norm": 0.2412109375,
       "learning_rate": 9.64e-05,
-      "loss": 1.0753504753112793,
-      "mean_token_accuracy": 0.719659861922264,
-      "num_tokens": 745782.0,
       "step": 260
     },
     {
-      "entropy": 1.034983891248703,
-      "epoch": 0.027279616064662792,
-      "grad_norm": 0.2216796875,
       "learning_rate": 9.240000000000001e-05,
-      "loss": 1.032216453552246,
-      "mean_token_accuracy": 0.7364529073238373,
-      "num_tokens": 772358.0,
       "step": 270
     },
     {
-      "entropy": 1.0821890532970428,
-      "epoch": 0.02828997221520586,
-      "grad_norm": 0.2294921875,
       "learning_rate": 8.840000000000001e-05,
-      "loss": 1.0743555068969726,
-      "mean_token_accuracy": 0.7248906105756759,
-      "num_tokens": 800173.0,
       "step": 280
     },
     {
-      "entropy": 1.1281798005104064,
-      "epoch": 0.029300328365748928,
-      "grad_norm": 0.2216796875,
       "learning_rate": 8.44e-05,
-      "loss": 1.1471177101135255,
-      "mean_token_accuracy": 0.7095231086015701,
-      "num_tokens": 826835.0,
       "step": 290
     },
     {
-      "entropy": 1.0436414241790772,
-      "epoch": 0.030310684516291993,
-      "grad_norm": 0.2001953125,
       "learning_rate": 8.04e-05,
-      "loss": 1.0298893928527832,
-      "mean_token_accuracy": 0.7325254619121552,
-      "num_tokens": 853598.0,
       "step": 300
     },
     {
-      "entropy": 1.0947031527757645,
-      "epoch": 0.03132104066683506,
-      "grad_norm": 0.232421875,
       "learning_rate": 7.64e-05,
-      "loss": 1.0945837020874023,
-      "mean_token_accuracy": 0.7231394708156585,
-      "num_tokens": 884023.0,
       "step": 310
     },
     {
-      "entropy": 1.1012510120868684,
-      "epoch": 0.03233139681737813,
-      "grad_norm": 0.17578125,
       "learning_rate": 7.24e-05,
-      "loss": 1.106449031829834,
-      "mean_token_accuracy": 0.7150771111249924,
-      "num_tokens": 910709.0,
       "step": 320
     },
     {
-      "entropy": 1.0871451586484908,
-      "epoch": 0.03334175296792119,
-      "grad_norm": 0.2041015625,
       "learning_rate": 6.840000000000001e-05,
-      "loss": 1.0799496650695801,
-      "mean_token_accuracy": 0.7183821439743042,
-      "num_tokens": 938961.0,
       "step": 330
     },
     {
-      "entropy": 1.0514528155326843,
-      "epoch": 0.03435210911846426,
-      "grad_norm": 0.2080078125,
       "learning_rate": 6.440000000000001e-05,
-      "loss": 1.081194019317627,
-      "mean_token_accuracy": 0.7243827939033508,
-      "num_tokens": 967584.0,
       "step": 340
     },
     {
-      "entropy": 1.1092546790838242,
-      "epoch": 0.035362465269007326,
-      "grad_norm": 0.201171875,
       "learning_rate": 6.04e-05,
-      "loss": 1.0813716888427733,
-      "mean_token_accuracy": 0.7228824734687805,
-      "num_tokens": 995895.0,
       "step": 350
     },
     {
-      "entropy": 1.0287963569164276,
-      "epoch": 0.036372821419550394,
-      "grad_norm": 0.265625,
       "learning_rate": 5.6399999999999995e-05,
-      "loss": 1.0419590950012207,
-      "mean_token_accuracy": 0.7281966924667358,
-      "num_tokens": 1024358.0,
       "step": 360
     },
     {
-      "entropy": 1.121953997015953,
-      "epoch": 0.037383177570093455,
-      "grad_norm": 0.26171875,
       "learning_rate": 5.2400000000000007e-05,
-      "loss": 1.0987840652465821,
-      "mean_token_accuracy": 0.7203631848096848,
-      "num_tokens": 1052323.0,
       "step": 370
     },
     {
-      "entropy": 1.110439071059227,
-      "epoch": 0.03839353372063652,
-      "grad_norm": 0.291015625,
       "learning_rate": 4.8400000000000004e-05,
-      "loss": 1.0895070075988769,
-      "mean_token_accuracy": 0.7241304695606232,
-      "num_tokens": 1079594.0,
       "step": 380
     },
     {
-      "entropy": 1.070469456911087,
-      "epoch": 0.03940388987117959,
-      "grad_norm": 0.3046875,
       "learning_rate": 4.44e-05,
-      "loss": 1.1078936576843261,
-      "mean_token_accuracy": 0.7139627873897553,
-      "num_tokens": 1110202.0,
       "step": 390
     },
     {
-      "entropy": 1.1429108887910844,
-      "epoch": 0.04041424602172266,
-      "grad_norm": 0.265625,
       "learning_rate": 4.0400000000000006e-05,
-      "loss": 1.1321399688720704,
-      "mean_token_accuracy": 0.7121616303920746,
-      "num_tokens": 1138357.0,
       "step": 400
     },
     {
-      "entropy": 1.0827387034893037,
-      "epoch": 0.04142460217226572,
-      "grad_norm": 0.2294921875,
       "learning_rate": 3.6400000000000004e-05,
-      "loss": 1.0639567375183105,
-      "mean_token_accuracy": 0.7281183630228043,
-      "num_tokens": 1163579.0,
       "step": 410
     },
     {
-      "entropy": 1.0125485062599182,
-      "epoch": 0.04243495832280879,
-      "grad_norm": 0.197265625,
       "learning_rate": 3.24e-05,
-      "loss": 1.0153983116149903,
-      "mean_token_accuracy": 0.7316560536623001,
-      "num_tokens": 1192631.0,
       "step": 420
     },
     {
-      "entropy": 1.0439467519521712,
-      "epoch": 0.043445314473351856,
-      "grad_norm": 0.2314453125,
       "learning_rate": 2.84e-05,
-      "loss": 1.0409717559814453,
-      "mean_token_accuracy": 0.7321272224187851,
-      "num_tokens": 1221925.0,
       "step": 430
     },
     {
-      "entropy": 1.0967293322086333,
-      "epoch": 0.044455670623894925,
-      "grad_norm": 0.2236328125,
       "learning_rate": 2.44e-05,
-      "loss": 1.1045302391052245,
-      "mean_token_accuracy": 0.721249520778656,
-      "num_tokens": 1252243.0,
       "step": 440
     },
     {
-      "entropy": 1.0544108510017396,
-      "epoch": 0.04546602677443799,
-      "grad_norm": 0.2734375,
       "learning_rate": 2.04e-05,
-      "loss": 1.050521469116211,
-      "mean_token_accuracy": 0.7213579922914505,
-      "num_tokens": 1283834.0,
       "step": 450
     },
     {
-      "entropy": 1.0683125108480453,
-      "epoch": 0.046476382924981054,
-      "grad_norm": 0.267578125,
       "learning_rate": 1.6400000000000002e-05,
-      "loss": 1.0767866134643556,
-      "mean_token_accuracy": 0.7280572831630707,
-      "num_tokens": 1310545.0,
       "step": 460
     },
     {
-      "entropy": 1.06637182533741,
-      "epoch": 0.04748673907552412,
-      "grad_norm": 0.203125,
       "learning_rate": 1.24e-05,
-      "loss": 1.0640035629272462,
-      "mean_token_accuracy": 0.7313684940338134,
-      "num_tokens": 1338772.0,
       "step": 470
     },
     {
-      "entropy": 1.1006224006414413,
-      "epoch": 0.04849709522606719,
-      "grad_norm": 0.2314453125,
       "learning_rate": 8.400000000000001e-06,
-      "loss": 1.0907609939575196,
-      "mean_token_accuracy": 0.7184683322906494,
-      "num_tokens": 1366284.0,
       "step": 480
     },
     {
-      "entropy": 1.0476179122924805,
-      "epoch": 0.04950745137661026,
-      "grad_norm": 0.224609375,
       "learning_rate": 4.4e-06,
-      "loss": 1.0324252128601075,
-      "mean_token_accuracy": 0.7270208716392517,
-      "num_tokens": 1395417.0,
       "step": 490
     },
     {
-      "entropy": 1.1447266846895219,
-      "epoch": 0.05051780752715332,
-      "grad_norm": 0.2373046875,
       "learning_rate": 4.0000000000000003e-07,
-      "loss": 1.1333248138427734,
-      "mean_token_accuracy": 0.7175892472267151,
-      "num_tokens": 1421503.0,
       "step": 500
     }
   ],
@@ -527,7 +527,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4920048791728947e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0003700584248241112,
   "eval_steps": 500,
   "global_step": 500,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 1.4767830133438111,
+      "epoch": 7.401168496482225e-06,
+      "grad_norm": 0.578125,
       "learning_rate": 0.0001964,
+      "loss": 1.6877475738525392,
+      "mean_token_accuracy": 0.7061349496245384,
+      "num_tokens": 14911.0,
       "step": 10
     },
     {
+      "entropy": 1.0930627048015595,
+      "epoch": 1.480233699296445e-05,
+      "grad_norm": 0.458984375,
       "learning_rate": 0.00019240000000000001,
+      "loss": 1.0562871932983398,
+      "mean_token_accuracy": 0.8108290940523147,
+      "num_tokens": 28646.0,
       "step": 20
     },
     {
+      "entropy": 0.8788679152727127,
+      "epoch": 2.2203505489446674e-05,
+      "grad_norm": 0.5859375,
       "learning_rate": 0.0001884,
+      "loss": 0.8974875450134278,
+      "mean_token_accuracy": 0.8296987593173981,
+      "num_tokens": 41474.0,
       "step": 30
     },
     {
+      "entropy": 0.8145956963300705,
+      "epoch": 2.96046739859289e-05,
+      "grad_norm": 0.39453125,
       "learning_rate": 0.0001844,
+      "loss": 0.8066701889038086,
+      "mean_token_accuracy": 0.8340015441179276,
+      "num_tokens": 54466.0,
       "step": 40
     },
     {
+      "entropy": 0.7157480388879776,
+      "epoch": 3.700584248241112e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00018040000000000002,
+      "loss": 0.7251500129699707,
+      "mean_token_accuracy": 0.8420351594686508,
+      "num_tokens": 66880.0,
       "step": 50
     },
     {
+      "entropy": 0.7959431439638138,
+      "epoch": 4.440701097889335e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001764,
+      "loss": 0.8049167633056641,
+      "mean_token_accuracy": 0.8289562940597535,
+      "num_tokens": 80036.0,
       "step": 60
     },
     {
+      "entropy": 0.8342548221349716,
+      "epoch": 5.180817947537557e-05,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.00017240000000000002,
+      "loss": 0.8336853981018066,
+      "mean_token_accuracy": 0.8279720038175583,
+      "num_tokens": 93357.0,
       "step": 70
     },
     {
+      "entropy": 0.7970967918634415,
+      "epoch": 5.92093479718578e-05,
+      "grad_norm": 0.73046875,
       "learning_rate": 0.0001684,
+      "loss": 0.7949181079864502,
+      "mean_token_accuracy": 0.828959608078003,
+      "num_tokens": 106951.0,
       "step": 80
     },
     {
+      "entropy": 0.7967441529035568,
+      "epoch": 6.661051646834002e-05,
+      "grad_norm": 0.34375,
       "learning_rate": 0.0001644,
+      "loss": 0.8285197257995606,
+      "mean_token_accuracy": 0.8272027671337128,
+      "num_tokens": 120269.0,
       "step": 90
     },
     {
+      "entropy": 0.7741447448730469,
+      "epoch": 7.401168496482224e-05,
+      "grad_norm": 0.271484375,
       "learning_rate": 0.00016040000000000002,
+      "loss": 0.7636381626129151,
+      "mean_token_accuracy": 0.8373189926147461,
+      "num_tokens": 133116.0,
       "step": 100
     },
     {
+      "entropy": 0.72959463596344,
+      "epoch": 8.141285346130448e-05,
+      "grad_norm": 0.421875,
       "learning_rate": 0.0001564,
+      "loss": 0.7404542446136475,
+      "mean_token_accuracy": 0.8400259047746659,
+      "num_tokens": 146103.0,
       "step": 110
     },
     {
+      "entropy": 0.777249938249588,
+      "epoch": 8.88140219577867e-05,
+      "grad_norm": 0.3984375,
       "learning_rate": 0.00015240000000000002,
+      "loss": 0.7868029117584229,
+      "mean_token_accuracy": 0.8342386931180954,
+      "num_tokens": 158980.0,
       "step": 120
     },
     {
+      "entropy": 0.8305783897638321,
+      "epoch": 9.621519045426892e-05,
+      "grad_norm": 0.328125,
       "learning_rate": 0.0001484,
+      "loss": 0.8155685424804687,
+      "mean_token_accuracy": 0.8282770067453384,
+      "num_tokens": 172414.0,
       "step": 130
     },
     {
+      "entropy": 0.8582165241241455,
+      "epoch": 0.00010361635895075114,
+      "grad_norm": 0.322265625,
       "learning_rate": 0.0001444,
+      "loss": 0.8684965133666992,
+      "mean_token_accuracy": 0.8188153028488159,
+      "num_tokens": 186224.0,
       "step": 140
     },
     {
+      "entropy": 0.823002302646637,
+      "epoch": 0.00011101752744723338,
+      "grad_norm": 0.41796875,
       "learning_rate": 0.0001404,
+      "loss": 0.8199325561523437,
+      "mean_token_accuracy": 0.8285818427801133,
+      "num_tokens": 199564.0,
       "step": 150
     },
     {
+      "entropy": 0.7803006649017334,
+      "epoch": 0.0001184186959437156,
+      "grad_norm": 0.28125,
       "learning_rate": 0.0001364,
+      "loss": 0.8177242279052734,
+      "mean_token_accuracy": 0.8276909857988357,
+      "num_tokens": 212955.0,
       "step": 160
     },
     {
+      "entropy": 0.7576605170965195,
+      "epoch": 0.00012581986444019783,
+      "grad_norm": 0.298828125,
       "learning_rate": 0.00013240000000000002,
+      "loss": 0.7334442615509034,
+      "mean_token_accuracy": 0.8368929207324982,
+      "num_tokens": 225983.0,
       "step": 170
     },
     {
+      "entropy": 0.8388681739568711,
+      "epoch": 0.00013322103293668004,
+      "grad_norm": 4.15625,
       "learning_rate": 0.0001284,
+      "loss": 0.878928279876709,
+      "mean_token_accuracy": 0.8206132620573043,
+      "num_tokens": 240490.0,
       "step": 180
     },
     {
+      "entropy": 0.8390863686800003,
+      "epoch": 0.00014062220143316227,
+      "grad_norm": 0.25,
       "learning_rate": 0.00012440000000000002,
+      "loss": 0.8454230308532715,
+      "mean_token_accuracy": 0.8245942384004593,
+      "num_tokens": 254696.0,
       "step": 190
     },
     {
+      "entropy": 0.8603733956813813,
+      "epoch": 0.00014802336992964448,
+      "grad_norm": 0.2734375,
       "learning_rate": 0.0001204,
+      "loss": 0.8759581565856933,
+      "mean_token_accuracy": 0.8165332227945328,
+      "num_tokens": 269719.0,
       "step": 200
     },
     {
+      "entropy": 0.76580231487751,
+      "epoch": 0.00015542453842612672,
+      "grad_norm": 0.240234375,
       "learning_rate": 0.0001164,
+      "loss": 0.7616221904754639,
+      "mean_token_accuracy": 0.8392421275377273,
+      "num_tokens": 282621.0,
       "step": 210
     },
     {
+      "entropy": 0.7803073287010193,
+      "epoch": 0.00016282570692260895,
+      "grad_norm": 0.341796875,
       "learning_rate": 0.00011240000000000002,
+      "loss": 0.7809097766876221,
+      "mean_token_accuracy": 0.8302495568990708,
+      "num_tokens": 295624.0,
       "step": 220
     },
     {
+      "entropy": 0.7702126175165176,
+      "epoch": 0.00017022687541909116,
+      "grad_norm": 0.251953125,
       "learning_rate": 0.00010840000000000002,
+      "loss": 0.7757031917572021,
+      "mean_token_accuracy": 0.8389965564012527,
+      "num_tokens": 308856.0,
       "step": 230
     },
     {
+      "entropy": 0.8611143410205842,
+      "epoch": 0.0001776280439155734,
+      "grad_norm": 0.337890625,
       "learning_rate": 0.0001044,
+      "loss": 0.8744688034057617,
+      "mean_token_accuracy": 0.8146604359149933,
+      "num_tokens": 322610.0,
       "step": 240
     },
     {
+      "entropy": 0.8659275263547898,
+      "epoch": 0.0001850292124120556,
+      "grad_norm": 0.326171875,
       "learning_rate": 0.0001004,
+      "loss": 0.8652327537536622,
+      "mean_token_accuracy": 0.819416218996048,
+      "num_tokens": 336948.0,
       "step": 250
     },
     {
+      "entropy": 0.768859726190567,
+      "epoch": 0.00019243038090853784,
+      "grad_norm": 0.2890625,
       "learning_rate": 9.64e-05,
+      "loss": 0.7651469707489014,
+      "mean_token_accuracy": 0.8339170336723327,
+      "num_tokens": 350252.0,
       "step": 260
     },
     {
+      "entropy": 0.8208303570747375,
+      "epoch": 0.00019983154940502007,
+      "grad_norm": 0.296875,
       "learning_rate": 9.240000000000001e-05,
+      "loss": 0.8234204292297364,
+      "mean_token_accuracy": 0.8225490599870682,
+      "num_tokens": 364325.0,
       "step": 270
     },
     {
+      "entropy": 0.7798860669136047,
+      "epoch": 0.00020723271790150228,
+      "grad_norm": 0.3046875,
       "learning_rate": 8.840000000000001e-05,
+      "loss": 0.7923468112945556,
+      "mean_token_accuracy": 0.831676983833313,
+      "num_tokens": 378088.0,
       "step": 280
     },
     {
+      "entropy": 0.7306642323732376,
+      "epoch": 0.00021463388639798452,
+      "grad_norm": 0.279296875,
       "learning_rate": 8.44e-05,
+      "loss": 0.7504455089569092,
+      "mean_token_accuracy": 0.8410079121589661,
+      "num_tokens": 391023.0,
       "step": 290
     },
     {
+      "entropy": 0.8291689246892929,
+      "epoch": 0.00022203505489446675,
+      "grad_norm": 0.24609375,
       "learning_rate": 8.04e-05,
+      "loss": 0.8151634216308594,
+      "mean_token_accuracy": 0.8278465926647186,
+      "num_tokens": 404816.0,
       "step": 300
     },
     {
+      "entropy": 0.7772005677223206,
+      "epoch": 0.00022943622339094896,
+      "grad_norm": 0.326171875,
       "learning_rate": 7.64e-05,
+      "loss": 0.7859255313873291,
+      "mean_token_accuracy": 0.8338077068328857,
+      "num_tokens": 418105.0,
       "step": 310
     },
     {
+      "entropy": 0.8288773983716965,
+      "epoch": 0.0002368373918874312,
+      "grad_norm": 0.28125,
       "learning_rate": 7.24e-05,
+      "loss": 0.8528160095214844,
+      "mean_token_accuracy": 0.8213677883148194,
+      "num_tokens": 432042.0,
       "step": 320
     },
     {
+      "entropy": 0.7887327700853348,
+      "epoch": 0.0002442385603839134,
+      "grad_norm": 0.326171875,
       "learning_rate": 6.840000000000001e-05,
+      "loss": 0.7650537014007568,
+      "mean_token_accuracy": 0.8351205557584762,
+      "num_tokens": 444796.0,
       "step": 330
     },
     {
+      "entropy": 0.7681846857070923,
+      "epoch": 0.00025163972888039566,
+      "grad_norm": 0.287109375,
       "learning_rate": 6.440000000000001e-05,
+      "loss": 0.7828513145446777,
+      "mean_token_accuracy": 0.8325754940509796,
+      "num_tokens": 457664.0,
       "step": 340
     },
     {
+      "entropy": 0.8200330525636673,
+      "epoch": 0.00025904089737687787,
+      "grad_norm": 0.26953125,
       "learning_rate": 6.04e-05,
+      "loss": 0.8019542694091797,
+      "mean_token_accuracy": 0.8313791334629059,
+      "num_tokens": 470606.0,
       "step": 350
     },
     {
+      "entropy": 0.8059133917093277,
+      "epoch": 0.0002664420658733601,
+      "grad_norm": 0.259765625,
       "learning_rate": 5.6399999999999995e-05,
+      "loss": 0.7930517673492432,
+      "mean_token_accuracy": 0.8300592184066773,
+      "num_tokens": 484904.0,
       "step": 360
     },
     {
+      "entropy": 0.7620012789964676,
+      "epoch": 0.0002738432343698423,
+      "grad_norm": 0.306640625,
       "learning_rate": 5.2400000000000007e-05,
+      "loss": 0.7779502868652344,
+      "mean_token_accuracy": 0.8312928855419159,
+      "num_tokens": 498302.0,
       "step": 370
     },
     {
+      "entropy": 0.7787803679704666,
+      "epoch": 0.00028124440286632455,
+      "grad_norm": 0.3125,
       "learning_rate": 4.8400000000000004e-05,
+      "loss": 0.7784494400024414,
+      "mean_token_accuracy": 0.8316877603530883,
+      "num_tokens": 512369.0,
       "step": 380
     },
     {
+      "entropy": 0.7438325166702271,
+      "epoch": 0.00028864557136280676,
+      "grad_norm": 0.271484375,
       "learning_rate": 4.44e-05,
+      "loss": 0.7538249015808105,
+      "mean_token_accuracy": 0.8402615815401078,
+      "num_tokens": 525385.0,
       "step": 390
     },
     {
+      "entropy": 0.7514106065034867,
+      "epoch": 0.00029604673985928896,
+      "grad_norm": 0.263671875,
       "learning_rate": 4.0400000000000006e-05,
+      "loss": 0.742708683013916,
+      "mean_token_accuracy": 0.8387834310531617,
+      "num_tokens": 538315.0,
       "step": 400
     },
     {
+      "entropy": 0.7242682158946991,
+      "epoch": 0.0003034479083557712,
+      "grad_norm": 0.36328125,
       "learning_rate": 3.6400000000000004e-05,
+      "loss": 0.7231860160827637,
+      "mean_token_accuracy": 0.8462171643972397,
+      "num_tokens": 550874.0,
       "step": 410
     },
     {
+      "entropy": 0.7665889590978623,
+      "epoch": 0.00031084907685225343,
+      "grad_norm": 0.298828125,
       "learning_rate": 3.24e-05,
+      "loss": 0.7693154811859131,
+      "mean_token_accuracy": 0.8359919935464859,
+      "num_tokens": 564118.0,
       "step": 420
     },
     {
+      "entropy": 0.7493055462837219,
+      "epoch": 0.00031825024534873564,
+      "grad_norm": 0.30859375,
       "learning_rate": 2.84e-05,
+      "loss": 0.7551113128662109,
+      "mean_token_accuracy": 0.8372300088405609,
+      "num_tokens": 576999.0,
       "step": 430
     },
     {
+      "entropy": 0.7846053004264831,
+      "epoch": 0.0003256514138452179,
+      "grad_norm": 0.26953125,
       "learning_rate": 2.44e-05,
+      "loss": 0.7938904762268066,
+      "mean_token_accuracy": 0.8271657317876816,
+      "num_tokens": 590845.0,
       "step": 440
     },
     {
+      "entropy": 0.7567790508270263,
+      "epoch": 0.0003330525823417001,
+      "grad_norm": 0.27734375,
       "learning_rate": 2.04e-05,
+      "loss": 0.7597766876220703,
+      "mean_token_accuracy": 0.8390242576599121,
+      "num_tokens": 603943.0,
       "step": 450
     },
     {
+      "entropy": 0.7776343286037445,
+      "epoch": 0.0003404537508381823,
+      "grad_norm": 0.296875,
       "learning_rate": 1.6400000000000002e-05,
+      "loss": 0.7805155277252197,
+      "mean_token_accuracy": 0.8314157396554946,
+      "num_tokens": 617297.0,
       "step": 460
     },
     {
+      "entropy": 0.7654042065143585,
+      "epoch": 0.0003478549193346646,
+      "grad_norm": 0.294921875,
       "learning_rate": 1.24e-05,
+      "loss": 0.7467947483062745,
+      "mean_token_accuracy": 0.836009356379509,
+      "num_tokens": 630337.0,
       "step": 470
     },
     {
+      "entropy": 0.7470057517290115,
+      "epoch": 0.0003552560878311468,
+      "grad_norm": 0.283203125,
       "learning_rate": 8.400000000000001e-06,
+      "loss": 0.7188091278076172,
+      "mean_token_accuracy": 0.8408551633358001,
+      "num_tokens": 643059.0,
       "step": 480
     },
     {
+      "entropy": 0.7312727242708206,
+      "epoch": 0.000362657256327629,
+      "grad_norm": 0.23828125,
       "learning_rate": 4.4e-06,
+      "loss": 0.7032594203948974,
+      "mean_token_accuracy": 0.844664552807808,
+      "num_tokens": 655763.0,
       "step": 490
     },
     {
+      "entropy": 0.8029953300952911,
+      "epoch": 0.0003700584248241112,
+      "grad_norm": 0.306640625,
       "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.786741065979004,
+      "mean_token_accuracy": 0.8345526486635209,
+      "num_tokens": 669554.0,
       "step": 500
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 4.872149119972147e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null