hindi model

Files changed (14) hide show

README.md +43 -0
config.json +35 -0
generation_config.json +9 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +261 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +19 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
trainer_state.json +2421 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,43 @@

+---
+library_name: transformers
+language:
+- hi
+pipeline_tag: text-to-speech
+license: apache-2.0
+base_model:
+- meta-llama/Llama-3.2-3B-Instruct
+- canopylabs/orpheus-3b-0.1-pretrained
+---
+# Orpheus 3B Hi Finetuned
+**4/9/2025** – We are releasing our 3B Orpheus TTS model with additional finetunes. Code is available on GitHub: [CanopyAI/Orpheus-TTS](https://github.com/canopyai/Orpheus-TTS)
+---
+Orpheus TTS is a state-of-the-art, Llama-based Speech-LLM designed for high-quality, empathetic text-to-speech generation. This model has been finetuned to deliver human-level speech synthesis, achieving exceptional clarity, expressiveness, and real-time streaming performances.
+# Model Details
+### Model Capabilities
+- **Human-Like Speech**: Natural intonation, emotion, and rhythm that is superior to SOTA closed source models
+- **Zero-Shot Voice Cloning**: Clone voices without prior fine-tuning
+- **Guided Emotion and Intonation**: Control speech and emotion characteristics with simple tags
+- **Low Latency**: ~200ms streaming latency for realtime applications, reducible to ~100ms with input streaming
+### Model Sources
+- **GitHub Repo:** [https://github.com/canopyai/Orpheus-TTS](https://github.com/canopyai/Orpheus-TTS)
+- **Blog Post:** [https://canopylabs.ai/model-releases](https://canopylabs.ai/releases/orpheus_can_speak_any_language)
+- **Colab Inference Notebook:** [notebook link](https://colab.research.google.com/drive/1KhXT56UePPUHhqitJNUxq63k-pQomz3N?usp=sharing)
+# Usage
+Check out our Colab ([link to Colab](https://colab.research.google.com/drive/1KhXT56UePPUHhqitJNUxq63k-pQomz3N?usp=sharing)) or GitHub ([link to GitHub](https://github.com/canopyai/Orpheus-TTS)) on how to run easy inference on our finetuned models.
+# Model Misuse
+Do not use our models for impersonation without consent, misinformation or deception (including fake news or fraudulent calls), or any illegal or harmful activity. By using this model, you agree to follow all applicable laws and ethical guidelines. We disclaim responsibility for any use.

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.1",
+  "use_cache": true,
+  "vocab_size": 156940
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.51.1"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4bbf988e8a03d3a69c8de5e273be38800d82e3dae6cb6a1f915b6481db20203
+size 4948557560

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bb4134000138bc9bcbebdff4bd2a799b6ffa7ce0a5e8da4538246e7f032c089
+size 4932808960

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:080114d731349e7bb95e0e89d1a54ab1ed53d1285c76db7a4a82cf078663ec84
+size 3322130968

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,261 @@

+{
+  "metadata": {
+    "total_size": 13203468288
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b2e83a0fbc81456396a7a6672579ae756d2e199e11650a4b55d104249f6d85f
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "additional_special_tokens": [
+    "<|audio|>"
+  ],
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc3fecb199b4170636dbfab986d25f628157268d37b861f9cadaca60b1353bce
+size 22849547

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2421 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 341,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002932551319648094,
+      "grad_norm": 6.319007873535156,
+      "learning_rate": 5e-05,
+      "loss": 4.8204,
+      "step": 1
+    },
+    {
+      "epoch": 0.005865102639296188,
+      "grad_norm": 6.290866851806641,
+      "learning_rate": 4.999893904264319e-05,
+      "loss": 4.8689,
+      "step": 2
+    },
+    {
+      "epoch": 0.008797653958944282,
+      "grad_norm": 6.734510898590088,
+      "learning_rate": 4.9995756260623194e-05,
+      "loss": 4.6271,
+      "step": 3
+    },
+    {
+      "epoch": 0.011730205278592375,
+      "grad_norm": 7.963351249694824,
+      "learning_rate": 4.99904519240837e-05,
+      "loss": 5.1255,
+      "step": 4
+    },
+    {
+      "epoch": 0.01466275659824047,
+      "grad_norm": 4.615658760070801,
+      "learning_rate": 4.998302648323868e-05,
+      "loss": 4.7965,
+      "step": 5
+    },
+    {
+      "epoch": 0.017595307917888565,
+      "grad_norm": 4.6622538566589355,
+      "learning_rate": 4.997348056833425e-05,
+      "loss": 4.6459,
+      "step": 6
+    },
+    {
+      "epoch": 0.020527859237536656,
+      "grad_norm": 4.437032699584961,
+      "learning_rate": 4.996181498959508e-05,
+      "loss": 4.7091,
+      "step": 7
+    },
+    {
+      "epoch": 0.02346041055718475,
+      "grad_norm": 3.9045681953430176,
+      "learning_rate": 4.99480307371557e-05,
+      "loss": 4.5016,
+      "step": 8
+    },
+    {
+      "epoch": 0.026392961876832845,
+      "grad_norm": 4.380956172943115,
+      "learning_rate": 4.9932128980976435e-05,
+      "loss": 4.5466,
+      "step": 9
+    },
+    {
+      "epoch": 0.02932551319648094,
+      "grad_norm": 2.6686320304870605,
+      "learning_rate": 4.9914111070744104e-05,
+      "loss": 5.2772,
+      "step": 10
+    },
+    {
+      "epoch": 0.03225806451612903,
+      "grad_norm": 3.554694890975952,
+      "learning_rate": 4.989397853575746e-05,
+      "loss": 5.0322,
+      "step": 11
+    },
+    {
+      "epoch": 0.03519061583577713,
+      "grad_norm": 3.557262897491455,
+      "learning_rate": 4.987173308479738e-05,
+      "loss": 4.3792,
+      "step": 12
+    },
+    {
+      "epoch": 0.03812316715542522,
+      "grad_norm": 4.024055004119873,
+      "learning_rate": 4.9847376605981866e-05,
+      "loss": 4.4726,
+      "step": 13
+    },
+    {
+      "epoch": 0.04105571847507331,
+      "grad_norm": 8.42093563079834,
+      "learning_rate": 4.982091116660575e-05,
+      "loss": 4.6347,
+      "step": 14
+    },
+    {
+      "epoch": 0.04398826979472141,
+      "grad_norm": 2.852898359298706,
+      "learning_rate": 4.979233901296523e-05,
+      "loss": 5.2797,
+      "step": 15
+    },
+    {
+      "epoch": 0.0469208211143695,
+      "grad_norm": 3.145420789718628,
+      "learning_rate": 4.9761662570167236e-05,
+      "loss": 4.2868,
+      "step": 16
+    },
+    {
+      "epoch": 0.04985337243401759,
+      "grad_norm": 4.12168025970459,
+      "learning_rate": 4.97288844419236e-05,
+      "loss": 4.3671,
+      "step": 17
+    },
+    {
+      "epoch": 0.05278592375366569,
+      "grad_norm": 5.328208923339844,
+      "learning_rate": 4.969400741032999e-05,
+      "loss": 4.4232,
+      "step": 18
+    },
+    {
+      "epoch": 0.05571847507331378,
+      "grad_norm": 4.352039813995361,
+      "learning_rate": 4.96570344356299e-05,
+      "loss": 4.429,
+      "step": 19
+    },
+    {
+      "epoch": 0.05865102639296188,
+      "grad_norm": 2.69134521484375,
+      "learning_rate": 4.961796865596328e-05,
+      "loss": 4.5297,
+      "step": 20
+    },
+    {
+      "epoch": 0.06158357771260997,
+      "grad_norm": 8.25953483581543,
+      "learning_rate": 4.957681338710022e-05,
+      "loss": 4.0496,
+      "step": 21
+    },
+    {
+      "epoch": 0.06451612903225806,
+      "grad_norm": 3.149198532104492,
+      "learning_rate": 4.9533572122159566e-05,
+      "loss": 5.142,
+      "step": 22
+    },
+    {
+      "epoch": 0.06744868035190615,
+      "grad_norm": 2.225888252258301,
+      "learning_rate": 4.948824853131236e-05,
+      "loss": 5.2859,
+      "step": 23
+    },
+    {
+      "epoch": 0.07038123167155426,
+      "grad_norm": 7.183879852294922,
+      "learning_rate": 4.944084646147038e-05,
+      "loss": 4.5014,
+      "step": 24
+    },
+    {
+      "epoch": 0.07331378299120235,
+      "grad_norm": 6.556963920593262,
+      "learning_rate": 4.93913699359596e-05,
+      "loss": 4.7606,
+      "step": 25
+    },
+    {
+      "epoch": 0.07624633431085044,
+      "grad_norm": 4.1133575439453125,
+      "learning_rate": 4.9339823154178714e-05,
+      "loss": 4.2496,
+      "step": 26
+    },
+    {
+      "epoch": 0.07917888563049853,
+      "grad_norm": 8.505212783813477,
+      "learning_rate": 4.928621049124271e-05,
+      "loss": 4.1803,
+      "step": 27
+    },
+    {
+      "epoch": 0.08211143695014662,
+      "grad_norm": 3.3550186157226562,
+      "learning_rate": 4.923053649761152e-05,
+      "loss": 4.2568,
+      "step": 28
+    },
+    {
+      "epoch": 0.08504398826979472,
+      "grad_norm": 2.2392992973327637,
+      "learning_rate": 4.917280589870381e-05,
+      "loss": 5.2828,
+      "step": 29
+    },
+    {
+      "epoch": 0.08797653958944282,
+      "grad_norm": 4.570096492767334,
+      "learning_rate": 4.911302359449585e-05,
+      "loss": 4.3789,
+      "step": 30
+    },
+    {
+      "epoch": 0.09090909090909091,
+      "grad_norm": 4.046231746673584,
+      "learning_rate": 4.905119465910569e-05,
+      "loss": 4.5402,
+      "step": 31
+    },
+    {
+      "epoch": 0.093841642228739,
+      "grad_norm": 3.7967305183410645,
+      "learning_rate": 4.898732434036244e-05,
+      "loss": 4.4396,
+      "step": 32
+    },
+    {
+      "epoch": 0.0967741935483871,
+      "grad_norm": 3.258676052093506,
+      "learning_rate": 4.8921418059360846e-05,
+      "loss": 4.2346,
+      "step": 33
+    },
+    {
+      "epoch": 0.09970674486803519,
+      "grad_norm": 4.632401943206787,
+      "learning_rate": 4.885348141000122e-05,
+      "loss": 4.3809,
+      "step": 34
+    },
+    {
+      "epoch": 0.10263929618768329,
+      "grad_norm": 7.8344502449035645,
+      "learning_rate": 4.878352015851459e-05,
+      "loss": 4.0801,
+      "step": 35
+    },
+    {
+      "epoch": 0.10557184750733138,
+      "grad_norm": 3.2571303844451904,
+      "learning_rate": 4.8711540242973324e-05,
+      "loss": 4.5836,
+      "step": 36
+    },
+    {
+      "epoch": 0.10850439882697947,
+      "grad_norm": 6.491433143615723,
+      "learning_rate": 4.8637547772787086e-05,
+      "loss": 4.4666,
+      "step": 37
+    },
+    {
+      "epoch": 0.11143695014662756,
+      "grad_norm": 6.250299453735352,
+      "learning_rate": 4.8561549028184316e-05,
+      "loss": 4.401,
+      "step": 38
+    },
+    {
+      "epoch": 0.11436950146627566,
+      "grad_norm": 3.4556198120117188,
+      "learning_rate": 4.8483550459679205e-05,
+      "loss": 4.5211,
+      "step": 39
+    },
+    {
+      "epoch": 0.11730205278592376,
+      "grad_norm": 3.0196945667266846,
+      "learning_rate": 4.840355868752415e-05,
+      "loss": 4.491,
+      "step": 40
+    },
+    {
+      "epoch": 0.12023460410557185,
+      "grad_norm": 2.6688613891601562,
+      "learning_rate": 4.832158050114789e-05,
+      "loss": 5.1672,
+      "step": 41
+    },
+    {
+      "epoch": 0.12316715542521994,
+      "grad_norm": 2.39567232131958,
+      "learning_rate": 4.823762285857921e-05,
+      "loss": 4.438,
+      "step": 42
+    },
+    {
+      "epoch": 0.12609970674486803,
+      "grad_norm": 2.8483312129974365,
+      "learning_rate": 4.815169288585641e-05,
+      "loss": 4.341,
+      "step": 43
+    },
+    {
+      "epoch": 0.12903225806451613,
+      "grad_norm": 4.395498275756836,
+      "learning_rate": 4.806379787642241e-05,
+      "loss": 4.3291,
+      "step": 44
+    },
+    {
+      "epoch": 0.13196480938416422,
+      "grad_norm": 3.703028917312622,
+      "learning_rate": 4.7973945290505766e-05,
+      "loss": 4.2344,
+      "step": 45
+    },
+    {
+      "epoch": 0.1348973607038123,
+      "grad_norm": 4.2390570640563965,
+      "learning_rate": 4.7882142754487444e-05,
+      "loss": 4.1265,
+      "step": 46
+    },
+    {
+      "epoch": 0.1378299120234604,
+      "grad_norm": 5.493074893951416,
+      "learning_rate": 4.778839806025354e-05,
+      "loss": 4.4441,
+      "step": 47
+    },
+    {
+      "epoch": 0.14076246334310852,
+      "grad_norm": 3.362192153930664,
+      "learning_rate": 4.769271916453386e-05,
+      "loss": 4.2415,
+      "step": 48
+    },
+    {
+      "epoch": 0.1436950146627566,
+      "grad_norm": 4.600128173828125,
+      "learning_rate": 4.7595114188226685e-05,
+      "loss": 4.1814,
+      "step": 49
+    },
+    {
+      "epoch": 0.1466275659824047,
+      "grad_norm": 3.966892719268799,
+      "learning_rate": 4.7495591415709434e-05,
+      "loss": 4.2122,
+      "step": 50
+    },
+    {
+      "epoch": 0.1495601173020528,
+      "grad_norm": 6.8264946937561035,
+      "learning_rate": 4.739415929413552e-05,
+      "loss": 4.5849,
+      "step": 51
+    },
+    {
+      "epoch": 0.15249266862170088,
+      "grad_norm": 3.692595958709717,
+      "learning_rate": 4.729082643271738e-05,
+      "loss": 4.2481,
+      "step": 52
+    },
+    {
+      "epoch": 0.15542521994134897,
+      "grad_norm": 3.65590238571167,
+      "learning_rate": 4.718560160199579e-05,
+      "loss": 4.3801,
+      "step": 53
+    },
+    {
+      "epoch": 0.15835777126099707,
+      "grad_norm": 6.1569719314575195,
+      "learning_rate": 4.7078493733095395e-05,
+      "loss": 4.6345,
+      "step": 54
+    },
+    {
+      "epoch": 0.16129032258064516,
+      "grad_norm": 3.2693560123443604,
+      "learning_rate": 4.696951191696673e-05,
+      "loss": 4.5211,
+      "step": 55
+    },
+    {
+      "epoch": 0.16422287390029325,
+      "grad_norm": 4.253462791442871,
+      "learning_rate": 4.685866540361456e-05,
+      "loss": 4.3612,
+      "step": 56
+    },
+    {
+      "epoch": 0.16715542521994134,
+      "grad_norm": 4.276793003082275,
+      "learning_rate": 4.674596360131278e-05,
+      "loss": 4.212,
+      "step": 57
+    },
+    {
+      "epoch": 0.17008797653958943,
+      "grad_norm": 5.345841884613037,
+      "learning_rate": 4.663141607580589e-05,
+      "loss": 5.0145,
+      "step": 58
+    },
+    {
+      "epoch": 0.17302052785923755,
+      "grad_norm": 5.662412643432617,
+      "learning_rate": 4.651503254949709e-05,
+      "loss": 4.4571,
+      "step": 59
+    },
+    {
+      "epoch": 0.17595307917888564,
+      "grad_norm": 3.0804178714752197,
+      "learning_rate": 4.639682290062307e-05,
+      "loss": 4.4115,
+      "step": 60
+    },
+    {
+      "epoch": 0.17888563049853373,
+      "grad_norm": 3.7599942684173584,
+      "learning_rate": 4.627679716241553e-05,
+      "loss": 4.7501,
+      "step": 61
+    },
+    {
+      "epoch": 0.18181818181818182,
+      "grad_norm": 3.2905123233795166,
+      "learning_rate": 4.6154965522249695e-05,
+      "loss": 4.2669,
+      "step": 62
+    },
+    {
+      "epoch": 0.18475073313782991,
+      "grad_norm": 2.304152488708496,
+      "learning_rate": 4.6031338320779534e-05,
+      "loss": 4.3751,
+      "step": 63
+    },
+    {
+      "epoch": 0.187683284457478,
+      "grad_norm": 3.7457761764526367,
+      "learning_rate": 4.590592605106017e-05,
+      "loss": 4.5409,
+      "step": 64
+    },
+    {
+      "epoch": 0.1906158357771261,
+      "grad_norm": 3.0693962574005127,
+      "learning_rate": 4.577873935765722e-05,
+      "loss": 5.1264,
+      "step": 65
+    },
+    {
+      "epoch": 0.1935483870967742,
+      "grad_norm": 3.161609172821045,
+      "learning_rate": 4.564978903574333e-05,
+      "loss": 4.3516,
+      "step": 66
+    },
+    {
+      "epoch": 0.19648093841642228,
+      "grad_norm": 4.911186218261719,
+      "learning_rate": 4.551908603018191e-05,
+      "loss": 4.4847,
+      "step": 67
+    },
+    {
+      "epoch": 0.19941348973607037,
+      "grad_norm": 4.049593448638916,
+      "learning_rate": 4.538664143459819e-05,
+      "loss": 4.3197,
+      "step": 68
+    },
+    {
+      "epoch": 0.20234604105571846,
+      "grad_norm": 4.04063606262207,
+      "learning_rate": 4.5252466490437614e-05,
+      "loss": 3.9685,
+      "step": 69
+    },
+    {
+      "epoch": 0.20527859237536658,
+      "grad_norm": 5.923386096954346,
+      "learning_rate": 4.51165725860117e-05,
+      "loss": 4.0232,
+      "step": 70
+    },
+    {
+      "epoch": 0.20821114369501467,
+      "grad_norm": 5.928019046783447,
+      "learning_rate": 4.4978971255531475e-05,
+      "loss": 4.1971,
+      "step": 71
+    },
+    {
+      "epoch": 0.21114369501466276,
+      "grad_norm": 1.9799386262893677,
+      "learning_rate": 4.4839674178128446e-05,
+      "loss": 5.1276,
+      "step": 72
+    },
+    {
+      "epoch": 0.21407624633431085,
+      "grad_norm": 4.974693298339844,
+      "learning_rate": 4.469869317686332e-05,
+      "loss": 4.3455,
+      "step": 73
+    },
+    {
+      "epoch": 0.21700879765395895,
+      "grad_norm": 2.761202335357666,
+      "learning_rate": 4.455604021772256e-05,
+      "loss": 4.2961,
+      "step": 74
+    },
+    {
+      "epoch": 0.21994134897360704,
+      "grad_norm": 3.5266315937042236,
+      "learning_rate": 4.4411727408602664e-05,
+      "loss": 4.1596,
+      "step": 75
+    },
+    {
+      "epoch": 0.22287390029325513,
+      "grad_norm": 2.9372167587280273,
+      "learning_rate": 4.4265766998282565e-05,
+      "loss": 5.0596,
+      "step": 76
+    },
+    {
+      "epoch": 0.22580645161290322,
+      "grad_norm": 3.2573282718658447,
+      "learning_rate": 4.4118171375383956e-05,
+      "loss": 4.3719,
+      "step": 77
+    },
+    {
+      "epoch": 0.2287390029325513,
+      "grad_norm": 6.638172626495361,
+      "learning_rate": 4.3968953067319777e-05,
+      "loss": 4.4118,
+      "step": 78
+    },
+    {
+      "epoch": 0.2316715542521994,
+      "grad_norm": 6.448634147644043,
+      "learning_rate": 4.3818124739230975e-05,
+      "loss": 3.8673,
+      "step": 79
+    },
+    {
+      "epoch": 0.23460410557184752,
+      "grad_norm": 4.113856792449951,
+      "learning_rate": 4.36656991929115e-05,
+      "loss": 4.2476,
+      "step": 80
+    },
+    {
+      "epoch": 0.2375366568914956,
+      "grad_norm": 3.8150839805603027,
+      "learning_rate": 4.351168936572172e-05,
+      "loss": 4.1913,
+      "step": 81
+    },
+    {
+      "epoch": 0.2404692082111437,
+      "grad_norm": 4.503903388977051,
+      "learning_rate": 4.335610832949037e-05,
+      "loss": 4.5169,
+      "step": 82
+    },
+    {
+      "epoch": 0.2434017595307918,
+      "grad_norm": 3.6482162475585938,
+      "learning_rate": 4.3198969289405055e-05,
+      "loss": 4.0093,
+      "step": 83
+    },
+    {
+      "epoch": 0.24633431085043989,
+      "grad_norm": 3.1930086612701416,
+      "learning_rate": 4.3040285582891416e-05,
+      "loss": 4.5262,
+      "step": 84
+    },
+    {
+      "epoch": 0.24926686217008798,
+      "grad_norm": 3.805996894836426,
+      "learning_rate": 4.288007067848113e-05,
+      "loss": 4.1874,
+      "step": 85
+    },
+    {
+      "epoch": 0.25219941348973607,
+      "grad_norm": 3.4800267219543457,
+      "learning_rate": 4.271833817466871e-05,
+      "loss": 4.6132,
+      "step": 86
+    },
+    {
+      "epoch": 0.25513196480938416,
+      "grad_norm": 3.3271780014038086,
+      "learning_rate": 4.255510179875733e-05,
+      "loss": 4.4653,
+      "step": 87
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 3.547039270401001,
+      "learning_rate": 4.2390375405693726e-05,
+      "loss": 4.3391,
+      "step": 88
+    },
+    {
+      "epoch": 0.26099706744868034,
+      "grad_norm": 4.0348310470581055,
+      "learning_rate": 4.222417297689217e-05,
+      "loss": 4.5787,
+      "step": 89
+    },
+    {
+      "epoch": 0.26392961876832843,
+      "grad_norm": 3.388742685317993,
+      "learning_rate": 4.205650861904782e-05,
+      "loss": 4.1723,
+      "step": 90
+    },
+    {
+      "epoch": 0.2668621700879765,
+      "grad_norm": 3.0512118339538574,
+      "learning_rate": 4.1887396562939395e-05,
+      "loss": 4.269,
+      "step": 91
+    },
+    {
+      "epoch": 0.2697947214076246,
+      "grad_norm": 6.11189603805542,
+      "learning_rate": 4.1716851162221303e-05,
+      "loss": 4.7488,
+      "step": 92
+    },
+    {
+      "epoch": 0.2727272727272727,
+      "grad_norm": 3.2946243286132812,
+      "learning_rate": 4.154488689220536e-05,
+      "loss": 4.1267,
+      "step": 93
+    },
+    {
+      "epoch": 0.2756598240469208,
+      "grad_norm": 3.750185251235962,
+      "learning_rate": 4.137151834863213e-05,
+      "loss": 4.4616,
+      "step": 94
+    },
+    {
+      "epoch": 0.2785923753665689,
+      "grad_norm": 6.926551342010498,
+      "learning_rate": 4.1196760246432177e-05,
+      "loss": 4.07,
+      "step": 95
+    },
+    {
+      "epoch": 0.28152492668621704,
+      "grad_norm": 4.292811870574951,
+      "learning_rate": 4.102062741847701e-05,
+      "loss": 4.3519,
+      "step": 96
+    },
+    {
+      "epoch": 0.2844574780058651,
+      "grad_norm": 4.070389270782471,
+      "learning_rate": 4.0843134814320225e-05,
+      "loss": 4.2471,
+      "step": 97
+    },
+    {
+      "epoch": 0.2873900293255132,
+      "grad_norm": 5.1068644523620605,
+      "learning_rate": 4.066429749892854e-05,
+      "loss": 4.3355,
+      "step": 98
+    },
+    {
+      "epoch": 0.2903225806451613,
+      "grad_norm": 3.927582263946533,
+      "learning_rate": 4.0484130651403197e-05,
+      "loss": 4.6679,
+      "step": 99
+    },
+    {
+      "epoch": 0.2932551319648094,
+      "grad_norm": 7.481175422668457,
+      "learning_rate": 4.030264956369157e-05,
+      "loss": 4.2306,
+      "step": 100
+    },
+    {
+      "epoch": 0.2961876832844575,
+      "grad_norm": 3.5964012145996094,
+      "learning_rate": 4.0119869639289284e-05,
+      "loss": 4.3963,
+      "step": 101
+    },
+    {
+      "epoch": 0.2991202346041056,
+      "grad_norm": 3.0901029109954834,
+      "learning_rate": 3.993580639193277e-05,
+      "loss": 4.2669,
+      "step": 102
+    },
+    {
+      "epoch": 0.3020527859237537,
+      "grad_norm": 3.526278257369995,
+      "learning_rate": 3.975047544428254e-05,
+      "loss": 4.3102,
+      "step": 103
+    },
+    {
+      "epoch": 0.30498533724340177,
+      "grad_norm": 3.336178779602051,
+      "learning_rate": 3.956389252659718e-05,
+      "loss": 4.5046,
+      "step": 104
+    },
+    {
+      "epoch": 0.30791788856304986,
+      "grad_norm": 2.3995370864868164,
+      "learning_rate": 3.9376073475398234e-05,
+      "loss": 5.1687,
+      "step": 105
+    },
+    {
+      "epoch": 0.31085043988269795,
+      "grad_norm": 6.165566444396973,
+      "learning_rate": 3.918703423212602e-05,
+      "loss": 4.4034,
+      "step": 106
+    },
+    {
+      "epoch": 0.31378299120234604,
+      "grad_norm": 5.720207214355469,
+      "learning_rate": 3.899679084178661e-05,
+      "loss": 4.1865,
+      "step": 107
+    },
+    {
+      "epoch": 0.31671554252199413,
+      "grad_norm": 3.825930118560791,
+      "learning_rate": 3.880535945158997e-05,
+      "loss": 4.3246,
+      "step": 108
+    },
+    {
+      "epoch": 0.3196480938416422,
+      "grad_norm": 1.9456157684326172,
+      "learning_rate": 3.861275630957945e-05,
+      "loss": 5.0894,
+      "step": 109
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 3.377239942550659,
+      "learning_rate": 3.841899776325267e-05,
+      "loss": 4.4097,
+      "step": 110
+    },
+    {
+      "epoch": 0.3255131964809384,
+      "grad_norm": 6.097441673278809,
+      "learning_rate": 3.822410025817406e-05,
+      "loss": 3.8091,
+      "step": 111
+    },
+    {
+      "epoch": 0.3284457478005865,
+      "grad_norm": 3.35066294670105,
+      "learning_rate": 3.8028080336578965e-05,
+      "loss": 4.2082,
+      "step": 112
+    },
+    {
+      "epoch": 0.3313782991202346,
+      "grad_norm": 2.672997236251831,
+      "learning_rate": 3.78309546359696e-05,
+      "loss": 4.4388,
+      "step": 113
+    },
+    {
+      "epoch": 0.3343108504398827,
+      "grad_norm": 2.8939368724823,
+      "learning_rate": 3.763273988770296e-05,
+      "loss": 4.2629,
+      "step": 114
+    },
+    {
+      "epoch": 0.33724340175953077,
+      "grad_norm": 1.878678560256958,
+      "learning_rate": 3.743345291557068e-05,
+      "loss": 4.9891,
+      "step": 115
+    },
+    {
+      "epoch": 0.34017595307917886,
+      "grad_norm": 3.0752434730529785,
+      "learning_rate": 3.723311063437109e-05,
+      "loss": 4.143,
+      "step": 116
+    },
+    {
+      "epoch": 0.34310850439882695,
+      "grad_norm": 3.356590747833252,
+      "learning_rate": 3.703173004847356e-05,
+      "loss": 4.3527,
+      "step": 117
+    },
+    {
+      "epoch": 0.3460410557184751,
+      "grad_norm": 2.803388833999634,
+      "learning_rate": 3.682932825037523e-05,
+      "loss": 4.3,
+      "step": 118
+    },
+    {
+      "epoch": 0.3489736070381232,
+      "grad_norm": 3.459707260131836,
+      "learning_rate": 3.662592241925021e-05,
+      "loss": 4.3686,
+      "step": 119
+    },
+    {
+      "epoch": 0.3519061583577713,
+      "grad_norm": 5.521109104156494,
+      "learning_rate": 3.642152981949157e-05,
+      "loss": 4.6251,
+      "step": 120
+    },
+    {
+      "epoch": 0.3548387096774194,
+      "grad_norm": 3.130772352218628,
+      "learning_rate": 3.621616779924589e-05,
+      "loss": 4.2412,
+      "step": 121
+    },
+    {
+      "epoch": 0.35777126099706746,
+      "grad_norm": 4.5020575523376465,
+      "learning_rate": 3.600985378894086e-05,
+      "loss": 4.7401,
+      "step": 122
+    },
+    {
+      "epoch": 0.36070381231671556,
+      "grad_norm": 5.46859884262085,
+      "learning_rate": 3.580260529980584e-05,
+      "loss": 4.2195,
+      "step": 123
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 3.6302034854888916,
+      "learning_rate": 3.559443992238558e-05,
+      "loss": 4.194,
+      "step": 124
+    },
+    {
+      "epoch": 0.36656891495601174,
+      "grad_norm": 5.927103519439697,
+      "learning_rate": 3.5385375325047166e-05,
+      "loss": 4.0721,
+      "step": 125
+    },
+    {
+      "epoch": 0.36950146627565983,
+      "grad_norm": 2.279721260070801,
+      "learning_rate": 3.51754292524804e-05,
+      "loss": 5.0347,
+      "step": 126
+    },
+    {
+      "epoch": 0.3724340175953079,
+      "grad_norm": 2.6943609714508057,
+      "learning_rate": 3.49646195241917e-05,
+      "loss": 4.1371,
+      "step": 127
+    },
+    {
+      "epoch": 0.375366568914956,
+      "grad_norm": 7.591246128082275,
+      "learning_rate": 3.4752964032991634e-05,
+      "loss": 4.0037,
+      "step": 128
+    },
+    {
+      "epoch": 0.3782991202346041,
+      "grad_norm": 2.5776941776275635,
+      "learning_rate": 3.4540480743476255e-05,
+      "loss": 4.3463,
+      "step": 129
+    },
+    {
+      "epoch": 0.3812316715542522,
+      "grad_norm": 1.8341679573059082,
+      "learning_rate": 3.4327187690502285e-05,
+      "loss": 4.9787,
+      "step": 130
+    },
+    {
+      "epoch": 0.3841642228739003,
+      "grad_norm": 3.0362424850463867,
+      "learning_rate": 3.411310297765643e-05,
+      "loss": 4.0103,
+      "step": 131
+    },
+    {
+      "epoch": 0.3870967741935484,
+      "grad_norm": 5.652297496795654,
+      "learning_rate": 3.389824477571877e-05,
+      "loss": 3.6824,
+      "step": 132
+    },
+    {
+      "epoch": 0.39002932551319647,
+      "grad_norm": 4.283921241760254,
+      "learning_rate": 3.3682631321120504e-05,
+      "loss": 4.3503,
+      "step": 133
+    },
+    {
+      "epoch": 0.39296187683284456,
+      "grad_norm": 3.3487112522125244,
+      "learning_rate": 3.346628091439612e-05,
+      "loss": 4.3136,
+      "step": 134
+    },
+    {
+      "epoch": 0.39589442815249265,
+      "grad_norm": 3.4127163887023926,
+      "learning_rate": 3.324921191863005e-05,
+      "loss": 4.198,
+      "step": 135
+    },
+    {
+      "epoch": 0.39882697947214074,
+      "grad_norm": 2.8525991439819336,
+      "learning_rate": 3.3031442757898144e-05,
+      "loss": 4.3358,
+      "step": 136
+    },
+    {
+      "epoch": 0.40175953079178883,
+      "grad_norm": 5.910711288452148,
+      "learning_rate": 3.281299191570386e-05,
+      "loss": 4.0861,
+      "step": 137
+    },
+    {
+      "epoch": 0.4046920821114369,
+      "grad_norm": 3.4536566734313965,
+      "learning_rate": 3.2593877933409434e-05,
+      "loss": 4.1783,
+      "step": 138
+    },
+    {
+      "epoch": 0.40762463343108507,
+      "grad_norm": 4.468314170837402,
+      "learning_rate": 3.23741194086622e-05,
+      "loss": 4.7824,
+      "step": 139
+    },
+    {
+      "epoch": 0.41055718475073316,
+      "grad_norm": 3.0821609497070312,
+      "learning_rate": 3.215373499381602e-05,
+      "loss": 4.3734,
+      "step": 140
+    },
+    {
+      "epoch": 0.41348973607038125,
+      "grad_norm": 5.1596760749816895,
+      "learning_rate": 3.193274339434822e-05,
+      "loss": 4.5262,
+      "step": 141
+    },
+    {
+      "epoch": 0.41642228739002934,
+      "grad_norm": 3.251272201538086,
+      "learning_rate": 3.1711163367271854e-05,
+      "loss": 4.3459,
+      "step": 142
+    },
+    {
+      "epoch": 0.41935483870967744,
+      "grad_norm": 2.7633702754974365,
+      "learning_rate": 3.1489013719543706e-05,
+      "loss": 4.0494,
+      "step": 143
+    },
+    {
+      "epoch": 0.4222873900293255,
+      "grad_norm": 1.958283543586731,
+      "learning_rate": 3.126631330646802e-05,
+      "loss": 4.9542,
+      "step": 144
+    },
+    {
+      "epoch": 0.4252199413489736,
+      "grad_norm": 3.2671074867248535,
+      "learning_rate": 3.104308103009612e-05,
+      "loss": 4.0894,
+      "step": 145
+    },
+    {
+      "epoch": 0.4281524926686217,
+      "grad_norm": 3.7902774810791016,
+      "learning_rate": 3.081933583762209e-05,
+      "loss": 4.1221,
+      "step": 146
+    },
+    {
+      "epoch": 0.4310850439882698,
+      "grad_norm": 2.895705223083496,
+      "learning_rate": 3.059509671977457e-05,
+      "loss": 4.234,
+      "step": 147
+    },
+    {
+      "epoch": 0.4340175953079179,
+      "grad_norm": 2.3180575370788574,
+      "learning_rate": 3.0370382709204885e-05,
+      "loss": 4.5055,
+      "step": 148
+    },
+    {
+      "epoch": 0.436950146627566,
+      "grad_norm": 7.155867099761963,
+      "learning_rate": 3.014521287887167e-05,
+      "loss": 4.0998,
+      "step": 149
+    },
+    {
+      "epoch": 0.4398826979472141,
+      "grad_norm": 3.103238344192505,
+      "learning_rate": 2.9919606340421963e-05,
+      "loss": 4.327,
+      "step": 150
+    },
+    {
+      "epoch": 0.44281524926686217,
+      "grad_norm": 3.6630947589874268,
+      "learning_rate": 2.969358224256909e-05,
+      "loss": 4.2997,
+      "step": 151
+    },
+    {
+      "epoch": 0.44574780058651026,
+      "grad_norm": 3.0755558013916016,
+      "learning_rate": 2.9467159769467412e-05,
+      "loss": 4.2928,
+      "step": 152
+    },
+    {
+      "epoch": 0.44868035190615835,
+      "grad_norm": 2.9556899070739746,
+      "learning_rate": 2.9240358139084017e-05,
+      "loss": 4.1466,
+      "step": 153
+    },
+    {
+      "epoch": 0.45161290322580644,
+      "grad_norm": 2.689788341522217,
+      "learning_rate": 2.901319660156757e-05,
+      "loss": 4.4863,
+      "step": 154
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 2.251586437225342,
+      "learning_rate": 2.878569443761442e-05,
+      "loss": 4.4335,
+      "step": 155
+    },
+    {
+      "epoch": 0.4574780058651026,
+      "grad_norm": 4.199906349182129,
+      "learning_rate": 2.8557870956832132e-05,
+      "loss": 4.5124,
+      "step": 156
+    },
+    {
+      "epoch": 0.4604105571847507,
+      "grad_norm": 3.2416765689849854,
+      "learning_rate": 2.8329745496100547e-05,
+      "loss": 4.0618,
+      "step": 157
+    },
+    {
+      "epoch": 0.4633431085043988,
+      "grad_norm": 3.565666913986206,
+      "learning_rate": 2.8101337417930524e-05,
+      "loss": 4.1757,
+      "step": 158
+    },
+    {
+      "epoch": 0.4662756598240469,
+      "grad_norm": 2.918100595474243,
+      "learning_rate": 2.7872666108820544e-05,
+      "loss": 4.4481,
+      "step": 159
+    },
+    {
+      "epoch": 0.46920821114369504,
+      "grad_norm": 3.320474863052368,
+      "learning_rate": 2.7643750977611222e-05,
+      "loss": 4.3972,
+      "step": 160
+    },
+    {
+      "epoch": 0.47214076246334313,
+      "grad_norm": 2.996272563934326,
+      "learning_rate": 2.7414611453837946e-05,
+      "loss": 4.1727,
+      "step": 161
+    },
+    {
+      "epoch": 0.4750733137829912,
+      "grad_norm": 2.8445703983306885,
+      "learning_rate": 2.718526698608182e-05,
+      "loss": 4.3601,
+      "step": 162
+    },
+    {
+      "epoch": 0.4780058651026393,
+      "grad_norm": 2.791745901107788,
+      "learning_rate": 2.695573704031885e-05,
+      "loss": 4.2541,
+      "step": 163
+    },
+    {
+      "epoch": 0.4809384164222874,
+      "grad_norm": 2.7224185466766357,
+      "learning_rate": 2.6726041098267806e-05,
+      "loss": 4.3843,
+      "step": 164
+    },
+    {
+      "epoch": 0.4838709677419355,
+      "grad_norm": 4.005918502807617,
+      "learning_rate": 2.6496198655736658e-05,
+      "loss": 4.3544,
+      "step": 165
+    },
+    {
+      "epoch": 0.4868035190615836,
+      "grad_norm": 2.0066070556640625,
+      "learning_rate": 2.6266229220967818e-05,
+      "loss": 5.1317,
+      "step": 166
+    },
+    {
+      "epoch": 0.4897360703812317,
+      "grad_norm": 2.7873425483703613,
+      "learning_rate": 2.6036152312982393e-05,
+      "loss": 3.8282,
+      "step": 167
+    },
+    {
+      "epoch": 0.49266862170087977,
+      "grad_norm": 3.813659906387329,
+      "learning_rate": 2.580598745992342e-05,
+      "loss": 4.2312,
+      "step": 168
+    },
+    {
+      "epoch": 0.49560117302052786,
+      "grad_norm": 2.947193145751953,
+      "learning_rate": 2.557575419739845e-05,
+      "loss": 4.2315,
+      "step": 169
+    },
+    {
+      "epoch": 0.49853372434017595,
+      "grad_norm": 2.8375704288482666,
+      "learning_rate": 2.534547206682136e-05,
+      "loss": 4.2552,
+      "step": 170
+    },
+    {
+      "epoch": 0.501466275659824,
+      "grad_norm": 6.088028430938721,
+      "learning_rate": 2.5115160613753796e-05,
+      "loss": 3.9699,
+      "step": 171
+    },
+    {
+      "epoch": 0.5043988269794721,
+      "grad_norm": 3.442626953125,
+      "learning_rate": 2.488483938624621e-05,
+      "loss": 4.1858,
+      "step": 172
+    },
+    {
+      "epoch": 0.5073313782991202,
+      "grad_norm": 5.514711380004883,
+      "learning_rate": 2.4654527933178647e-05,
+      "loss": 4.01,
+      "step": 173
+    },
+    {
+      "epoch": 0.5102639296187683,
+      "grad_norm": 3.109691619873047,
+      "learning_rate": 2.4424245802601555e-05,
+      "loss": 4.2267,
+      "step": 174
+    },
+    {
+      "epoch": 0.5131964809384164,
+      "grad_norm": 2.7549219131469727,
+      "learning_rate": 2.419401254007658e-05,
+      "loss": 4.8181,
+      "step": 175
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "grad_norm": 2.7722055912017822,
+      "learning_rate": 2.3963847687017616e-05,
+      "loss": 4.2296,
+      "step": 176
+    },
+    {
+      "epoch": 0.5190615835777126,
+      "grad_norm": 3.039846658706665,
+      "learning_rate": 2.3733770779032184e-05,
+      "loss": 4.3098,
+      "step": 177
+    },
+    {
+      "epoch": 0.5219941348973607,
+      "grad_norm": 2.371026039123535,
+      "learning_rate": 2.3503801344263348e-05,
+      "loss": 4.4872,
+      "step": 178
+    },
+    {
+      "epoch": 0.5249266862170088,
+      "grad_norm": 4.425107479095459,
+      "learning_rate": 2.32739589017322e-05,
+      "loss": 4.2902,
+      "step": 179
+    },
+    {
+      "epoch": 0.5278592375366569,
+      "grad_norm": 6.232468605041504,
+      "learning_rate": 2.3044262959681155e-05,
+      "loss": 4.0242,
+      "step": 180
+    },
+    {
+      "epoch": 0.530791788856305,
+      "grad_norm": 2.43658709526062,
+      "learning_rate": 2.281473301391818e-05,
+      "loss": 4.7183,
+      "step": 181
+    },
+    {
+      "epoch": 0.533724340175953,
+      "grad_norm": 3.279035806655884,
+      "learning_rate": 2.2585388546162056e-05,
+      "loss": 4.3844,
+      "step": 182
+    },
+    {
+      "epoch": 0.5366568914956011,
+      "grad_norm": 3.1302430629730225,
+      "learning_rate": 2.235624902238879e-05,
+      "loss": 4.2038,
+      "step": 183
+    },
+    {
+      "epoch": 0.5395894428152492,
+      "grad_norm": 5.719720363616943,
+      "learning_rate": 2.2127333891179462e-05,
+      "loss": 3.9534,
+      "step": 184
+    },
+    {
+      "epoch": 0.5425219941348973,
+      "grad_norm": 3.6642308235168457,
+      "learning_rate": 2.1898662582069485e-05,
+      "loss": 4.3296,
+      "step": 185
+    },
+    {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 2.96134614944458,
+      "learning_rate": 2.1670254503899466e-05,
+      "loss": 4.3613,
+      "step": 186
+    },
+    {
+      "epoch": 0.5483870967741935,
+      "grad_norm": 4.102831840515137,
+      "learning_rate": 2.1442129043167874e-05,
+      "loss": 4.3132,
+      "step": 187
+    },
+    {
+      "epoch": 0.5513196480938416,
+      "grad_norm": 2.597428560256958,
+      "learning_rate": 2.1214305562385592e-05,
+      "loss": 4.266,
+      "step": 188
+    },
+    {
+      "epoch": 0.5542521994134897,
+      "grad_norm": 5.680459022521973,
+      "learning_rate": 2.0986803398432442e-05,
+      "loss": 4.0432,
+      "step": 189
+    },
+    {
+      "epoch": 0.5571847507331378,
+      "grad_norm": 1.7902535200119019,
+      "learning_rate": 2.075964186091599e-05,
+      "loss": 4.9586,
+      "step": 190
+    },
+    {
+      "epoch": 0.5601173020527859,
+      "grad_norm": 4.014809608459473,
+      "learning_rate": 2.0532840230532597e-05,
+      "loss": 4.1213,
+      "step": 191
+    },
+    {
+      "epoch": 0.5630498533724341,
+      "grad_norm": 3.073881149291992,
+      "learning_rate": 2.0306417757430925e-05,
+      "loss": 4.1684,
+      "step": 192
+    },
+    {
+      "epoch": 0.5659824046920822,
+      "grad_norm": 2.718214511871338,
+      "learning_rate": 2.008039365957804e-05,
+      "loss": 4.0401,
+      "step": 193
+    },
+    {
+      "epoch": 0.5689149560117303,
+      "grad_norm": 3.0952303409576416,
+      "learning_rate": 1.985478712112833e-05,
+      "loss": 4.3616,
+      "step": 194
+    },
+    {
+      "epoch": 0.5718475073313783,
+      "grad_norm": 3.2457079887390137,
+      "learning_rate": 1.9629617290795114e-05,
+      "loss": 4.2194,
+      "step": 195
+    },
+    {
+      "epoch": 0.5747800586510264,
+      "grad_norm": 6.137606620788574,
+      "learning_rate": 1.9404903280225434e-05,
+      "loss": 3.8294,
+      "step": 196
+    },
+    {
+      "epoch": 0.5777126099706745,
+      "grad_norm": 4.429788589477539,
+      "learning_rate": 1.9180664162377912e-05,
+      "loss": 4.158,
+      "step": 197
+    },
+    {
+      "epoch": 0.5806451612903226,
+      "grad_norm": 3.3867979049682617,
+      "learning_rate": 1.895691896990388e-05,
+      "loss": 4.1746,
+      "step": 198
+    },
+    {
+      "epoch": 0.5835777126099707,
+      "grad_norm": 3.6442112922668457,
+      "learning_rate": 1.8733686693531985e-05,
+      "loss": 4.0882,
+      "step": 199
+    },
+    {
+      "epoch": 0.5865102639296188,
+      "grad_norm": 5.330469608306885,
+      "learning_rate": 1.85109862804563e-05,
+      "loss": 3.9704,
+      "step": 200
+    },
+    {
+      "epoch": 0.5894428152492669,
+      "grad_norm": 4.636935234069824,
+      "learning_rate": 1.828883663272815e-05,
+      "loss": 3.9007,
+      "step": 201
+    },
+    {
+      "epoch": 0.592375366568915,
+      "grad_norm": 3.785764455795288,
+      "learning_rate": 1.8067256605651778e-05,
+      "loss": 4.142,
+      "step": 202
+    },
+    {
+      "epoch": 0.5953079178885631,
+      "grad_norm": 3.7254559993743896,
+      "learning_rate": 1.7846265006183977e-05,
+      "loss": 4.4145,
+      "step": 203
+    },
+    {
+      "epoch": 0.5982404692082112,
+      "grad_norm": 6.20327091217041,
+      "learning_rate": 1.7625880591337813e-05,
+      "loss": 4.0829,
+      "step": 204
+    },
+    {
+      "epoch": 0.6011730205278593,
+      "grad_norm": 2.920605421066284,
+      "learning_rate": 1.740612206659057e-05,
+      "loss": 4.1318,
+      "step": 205
+    },
+    {
+      "epoch": 0.6041055718475073,
+      "grad_norm": 2.767990827560425,
+      "learning_rate": 1.7187008084296148e-05,
+      "loss": 4.8486,
+      "step": 206
+    },
+    {
+      "epoch": 0.6070381231671554,
+      "grad_norm": 3.4592061042785645,
+      "learning_rate": 1.696855724210186e-05,
+      "loss": 4.4836,
+      "step": 207
+    },
+    {
+      "epoch": 0.6099706744868035,
+      "grad_norm": 3.488865852355957,
+      "learning_rate": 1.6750788081369952e-05,
+      "loss": 4.1062,
+      "step": 208
+    },
+    {
+      "epoch": 0.6129032258064516,
+      "grad_norm": 6.238039493560791,
+      "learning_rate": 1.6533719085603883e-05,
+      "loss": 4.2701,
+      "step": 209
+    },
+    {
+      "epoch": 0.6158357771260997,
+      "grad_norm": 3.1210947036743164,
+      "learning_rate": 1.6317368678879495e-05,
+      "loss": 4.3703,
+      "step": 210
+    },
+    {
+      "epoch": 0.6187683284457478,
+      "grad_norm": 4.132027626037598,
+      "learning_rate": 1.6101755224281235e-05,
+      "loss": 4.1377,
+      "step": 211
+    },
+    {
+      "epoch": 0.6217008797653959,
+      "grad_norm": 3.373029947280884,
+      "learning_rate": 1.5886897022343574e-05,
+      "loss": 4.3187,
+      "step": 212
+    },
+    {
+      "epoch": 0.624633431085044,
+      "grad_norm": 2.8235487937927246,
+      "learning_rate": 1.5672812309497724e-05,
+      "loss": 4.0804,
+      "step": 213
+    },
+    {
+      "epoch": 0.6275659824046921,
+      "grad_norm": 3.4007322788238525,
+      "learning_rate": 1.5459519256523754e-05,
+      "loss": 4.1182,
+      "step": 214
+    },
+    {
+      "epoch": 0.6304985337243402,
+      "grad_norm": 3.071855306625366,
+      "learning_rate": 1.5247035967008368e-05,
+      "loss": 4.2612,
+      "step": 215
+    },
+    {
+      "epoch": 0.6334310850439883,
+      "grad_norm": 3.650724411010742,
+      "learning_rate": 1.5035380475808309e-05,
+      "loss": 4.1131,
+      "step": 216
+    },
+    {
+      "epoch": 0.6363636363636364,
+      "grad_norm": 2.936589241027832,
+      "learning_rate": 1.4824570747519612e-05,
+      "loss": 4.8127,
+      "step": 217
+    },
+    {
+      "epoch": 0.6392961876832844,
+      "grad_norm": 2.710437536239624,
+      "learning_rate": 1.4614624674952842e-05,
+      "loss": 4.3221,
+      "step": 218
+    },
+    {
+      "epoch": 0.6422287390029325,
+      "grad_norm": 5.658194065093994,
+      "learning_rate": 1.4405560077614422e-05,
+      "loss": 4.1292,
+      "step": 219
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 3.2310311794281006,
+      "learning_rate": 1.4197394700194164e-05,
+      "loss": 4.4384,
+      "step": 220
+    },
+    {
+      "epoch": 0.6480938416422287,
+      "grad_norm": 2.7062315940856934,
+      "learning_rate": 1.399014621105914e-05,
+      "loss": 3.9682,
+      "step": 221
+    },
+    {
+      "epoch": 0.6510263929618768,
+      "grad_norm": 2.857037305831909,
+      "learning_rate": 1.3783832200754113e-05,
+      "loss": 4.223,
+      "step": 222
+    },
+    {
+      "epoch": 0.6539589442815249,
+      "grad_norm": 5.711729049682617,
+      "learning_rate": 1.3578470180508432e-05,
+      "loss": 4.2263,
+      "step": 223
+    },
+    {
+      "epoch": 0.656891495601173,
+      "grad_norm": 5.228153228759766,
+      "learning_rate": 1.3374077580749783e-05,
+      "loss": 4.129,
+      "step": 224
+    },
+    {
+      "epoch": 0.6598240469208211,
+      "grad_norm": 3.2084977626800537,
+      "learning_rate": 1.317067174962478e-05,
+      "loss": 4.1894,
+      "step": 225
+    },
+    {
+      "epoch": 0.6627565982404692,
+      "grad_norm": 3.572911500930786,
+      "learning_rate": 1.2968269951526446e-05,
+      "loss": 4.0889,
+      "step": 226
+    },
+    {
+      "epoch": 0.6656891495601173,
+      "grad_norm": 2.6816742420196533,
+      "learning_rate": 1.2766889365628912e-05,
+      "loss": 4.125,
+      "step": 227
+    },
+    {
+      "epoch": 0.6686217008797654,
+      "grad_norm": 5.048014163970947,
+      "learning_rate": 1.2566547084429325e-05,
+      "loss": 4.4468,
+      "step": 228
+    },
+    {
+      "epoch": 0.6715542521994134,
+      "grad_norm": 3.3744008541107178,
+      "learning_rate": 1.2367260112297046e-05,
+      "loss": 4.2004,
+      "step": 229
+    },
+    {
+      "epoch": 0.6744868035190615,
+      "grad_norm": 3.9626474380493164,
+      "learning_rate": 1.2169045364030405e-05,
+      "loss": 3.8135,
+      "step": 230
+    },
+    {
+      "epoch": 0.6774193548387096,
+      "grad_norm": 3.437021017074585,
+      "learning_rate": 1.1971919663421046e-05,
+      "loss": 3.8749,
+      "step": 231
+    },
+    {
+      "epoch": 0.6803519061583577,
+      "grad_norm": 2.0029430389404297,
+      "learning_rate": 1.1775899741825947e-05,
+      "loss": 4.9292,
+      "step": 232
+    },
+    {
+      "epoch": 0.6832844574780058,
+      "grad_norm": 2.1548874378204346,
+      "learning_rate": 1.1581002236747329e-05,
+      "loss": 4.2327,
+      "step": 233
+    },
+    {
+      "epoch": 0.6862170087976539,
+      "grad_norm": 3.3841662406921387,
+      "learning_rate": 1.1387243690420558e-05,
+      "loss": 4.0427,
+      "step": 234
+    },
+    {
+      "epoch": 0.6891495601173021,
+      "grad_norm": 3.4225077629089355,
+      "learning_rate": 1.1194640548410037e-05,
+      "loss": 4.2262,
+      "step": 235
+    },
+    {
+      "epoch": 0.6920821114369502,
+      "grad_norm": 7.541401386260986,
+      "learning_rate": 1.1003209158213387e-05,
+      "loss": 4.0581,
+      "step": 236
+    },
+    {
+      "epoch": 0.6950146627565983,
+      "grad_norm": 2.0085012912750244,
+      "learning_rate": 1.0812965767873982e-05,
+      "loss": 4.9298,
+      "step": 237
+    },
+    {
+      "epoch": 0.6979472140762464,
+      "grad_norm": 2.8657901287078857,
+      "learning_rate": 1.0623926524601771e-05,
+      "loss": 4.0413,
+      "step": 238
+    },
+    {
+      "epoch": 0.7008797653958945,
+      "grad_norm": 2.0676634311676025,
+      "learning_rate": 1.0436107473402815e-05,
+      "loss": 4.3167,
+      "step": 239
+    },
+    {
+      "epoch": 0.7038123167155426,
+      "grad_norm": 2.9038429260253906,
+      "learning_rate": 1.024952455571746e-05,
+      "loss": 4.3027,
+      "step": 240
+    },
+    {
+      "epoch": 0.7067448680351907,
+      "grad_norm": 2.973715305328369,
+      "learning_rate": 1.0064193608067235e-05,
+      "loss": 4.2374,
+      "step": 241
+    },
+    {
+      "epoch": 0.7096774193548387,
+      "grad_norm": 5.437546730041504,
+      "learning_rate": 9.880130360710713e-06,
+      "loss": 4.0817,
+      "step": 242
+    },
+    {
+      "epoch": 0.7126099706744868,
+      "grad_norm": 3.700831174850464,
+      "learning_rate": 9.697350436308427e-06,
+      "loss": 4.2292,
+      "step": 243
+    },
+    {
+      "epoch": 0.7155425219941349,
+      "grad_norm": 2.8761837482452393,
+      "learning_rate": 9.51586934859681e-06,
+      "loss": 4.0377,
+      "step": 244
+    },
+    {
+      "epoch": 0.718475073313783,
+      "grad_norm": 4.482779502868652,
+      "learning_rate": 9.335702501071459e-06,
+      "loss": 4.1203,
+      "step": 245
+    },
+    {
+      "epoch": 0.7214076246334311,
+      "grad_norm": 2.8118228912353516,
+      "learning_rate": 9.156865185679774e-06,
+      "loss": 4.205,
+      "step": 246
+    },
+    {
+      "epoch": 0.7243401759530792,
+      "grad_norm": 3.3259806632995605,
+      "learning_rate": 8.979372581522993e-06,
+      "loss": 4.0865,
+      "step": 247
+    },
+    {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 2.6878998279571533,
+      "learning_rate": 8.80323975356783e-06,
+      "loss": 4.2628,
+      "step": 248
+    },
+    {
+      "epoch": 0.7302052785923754,
+      "grad_norm": 2.898641586303711,
+      "learning_rate": 8.628481651367876e-06,
+      "loss": 4.2399,
+      "step": 249
+    },
+    {
+      "epoch": 0.7331378299120235,
+      "grad_norm": 3.3627970218658447,
+      "learning_rate": 8.455113107794652e-06,
+      "loss": 4.1064,
+      "step": 250
+    },
+    {
+      "epoch": 0.7360703812316716,
+      "grad_norm": 5.9836015701293945,
+      "learning_rate": 8.283148837778696e-06,
+      "loss": 3.859,
+      "step": 251
+    },
+    {
+      "epoch": 0.7390029325513197,
+      "grad_norm": 3.2305750846862793,
+      "learning_rate": 8.112603437060609e-06,
+      "loss": 4.3093,
+      "step": 252
+    },
+    {
+      "epoch": 0.7419354838709677,
+      "grad_norm": 2.646819591522217,
+      "learning_rate": 7.943491380952189e-06,
+      "loss": 5.0355,
+      "step": 253
+    },
+    {
+      "epoch": 0.7448680351906158,
+      "grad_norm": 2.9906468391418457,
+      "learning_rate": 7.775827023107835e-06,
+      "loss": 4.148,
+      "step": 254
+    },
+    {
+      "epoch": 0.7478005865102639,
+      "grad_norm": 2.695666551589966,
+      "learning_rate": 7.609624594306278e-06,
+      "loss": 4.7116,
+      "step": 255
+    },
+    {
+      "epoch": 0.750733137829912,
+      "grad_norm": 2.9516470432281494,
+      "learning_rate": 7.44489820124267e-06,
+      "loss": 4.3703,
+      "step": 256
+    },
+    {
+      "epoch": 0.7536656891495601,
+      "grad_norm": 3.0941052436828613,
+      "learning_rate": 7.281661825331293e-06,
+      "loss": 4.0187,
+      "step": 257
+    },
+    {
+      "epoch": 0.7565982404692082,
+      "grad_norm": 5.052484035491943,
+      "learning_rate": 7.119929321518876e-06,
+      "loss": 3.7862,
+      "step": 258
+    },
+    {
+      "epoch": 0.7595307917888563,
+      "grad_norm": 2.8778555393218994,
+      "learning_rate": 6.959714417108582e-06,
+      "loss": 4.3279,
+      "step": 259
+    },
+    {
+      "epoch": 0.7624633431085044,
+      "grad_norm": 2.7464096546173096,
+      "learning_rate": 6.80103071059495e-06,
+      "loss": 4.1255,
+      "step": 260
+    },
+    {
+      "epoch": 0.7653958944281525,
+      "grad_norm": 2.5373449325561523,
+      "learning_rate": 6.643891670509639e-06,
+      "loss": 3.9511,
+      "step": 261
+    },
+    {
+      "epoch": 0.7683284457478006,
+      "grad_norm": 2.3400309085845947,
+      "learning_rate": 6.4883106342782855e-06,
+      "loss": 4.6008,
+      "step": 262
+    },
+    {
+      "epoch": 0.7712609970674487,
+      "grad_norm": 3.177889347076416,
+      "learning_rate": 6.334300807088509e-06,
+      "loss": 4.0194,
+      "step": 263
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "grad_norm": 2.0145199298858643,
+      "learning_rate": 6.181875260769032e-06,
+      "loss": 4.911,
+      "step": 264
+    },
+    {
+      "epoch": 0.7771260997067448,
+      "grad_norm": 3.2678089141845703,
+      "learning_rate": 6.031046932680229e-06,
+      "loss": 4.113,
+      "step": 265
+    },
+    {
+      "epoch": 0.7800586510263929,
+      "grad_norm": 2.6207947731018066,
+      "learning_rate": 5.881828624616054e-06,
+      "loss": 4.8305,
+      "step": 266
+    },
+    {
+      "epoch": 0.782991202346041,
+      "grad_norm": 3.116367816925049,
+      "learning_rate": 5.73423300171744e-06,
+      "loss": 3.969,
+      "step": 267
+    },
+    {
+      "epoch": 0.7859237536656891,
+      "grad_norm": 4.09446907043457,
+      "learning_rate": 5.588272591397337e-06,
+      "loss": 4.3501,
+      "step": 268
+    },
+    {
+      "epoch": 0.7888563049853372,
+      "grad_norm": 5.1675214767456055,
+      "learning_rate": 5.443959782277447e-06,
+      "loss": 3.9379,
+      "step": 269
+    },
+    {
+      "epoch": 0.7917888563049853,
+      "grad_norm": 3.0157482624053955,
+      "learning_rate": 5.301306823136687e-06,
+      "loss": 4.6808,
+      "step": 270
+    },
+    {
+      "epoch": 0.7947214076246334,
+      "grad_norm": 4.21106481552124,
+      "learning_rate": 5.160325821871565e-06,
+      "loss": 4.1136,
+      "step": 271
+    },
+    {
+      "epoch": 0.7976539589442815,
+      "grad_norm": 3.2684807777404785,
+      "learning_rate": 5.021028744468534e-06,
+      "loss": 4.2041,
+      "step": 272
+    },
+    {
+      "epoch": 0.8005865102639296,
+      "grad_norm": 5.427955627441406,
+      "learning_rate": 4.883427413988309e-06,
+      "loss": 3.5934,
+      "step": 273
+    },
+    {
+      "epoch": 0.8035190615835777,
+      "grad_norm": 5.502318859100342,
+      "learning_rate": 4.747533509562396e-06,
+      "loss": 3.9149,
+      "step": 274
+    },
+    {
+      "epoch": 0.8064516129032258,
+      "grad_norm": 4.678939342498779,
+      "learning_rate": 4.613358565401818e-06,
+      "loss": 4.0009,
+      "step": 275
+    },
+    {
+      "epoch": 0.8093841642228738,
+      "grad_norm": 5.2613749504089355,
+      "learning_rate": 4.480913969818098e-06,
+      "loss": 3.6775,
+      "step": 276
+    },
+    {
+      "epoch": 0.8123167155425219,
+      "grad_norm": 2.2012548446655273,
+      "learning_rate": 4.350210964256676e-06,
+      "loss": 4.1405,
+      "step": 277
+    },
+    {
+      "epoch": 0.8152492668621701,
+      "grad_norm": 2.4985320568084717,
+      "learning_rate": 4.2212606423427865e-06,
+      "loss": 4.1282,
+      "step": 278
+    },
+    {
+      "epoch": 0.8181818181818182,
+      "grad_norm": 2.1721720695495605,
+      "learning_rate": 4.094073948939833e-06,
+      "loss": 4.1143,
+      "step": 279
+    },
+    {
+      "epoch": 0.8211143695014663,
+      "grad_norm": 2.5253875255584717,
+      "learning_rate": 3.968661679220468e-06,
+      "loss": 4.8636,
+      "step": 280
+    },
+    {
+      "epoch": 0.8240469208211144,
+      "grad_norm": 2.738759994506836,
+      "learning_rate": 3.845034477750312e-06,
+      "loss": 4.0348,
+      "step": 281
+    },
+    {
+      "epoch": 0.8269794721407625,
+      "grad_norm": 2.967195987701416,
+      "learning_rate": 3.723202837584469e-06,
+      "loss": 4.197,
+      "step": 282
+    },
+    {
+      "epoch": 0.8299120234604106,
+      "grad_norm": 2.7867133617401123,
+      "learning_rate": 3.603177099376931e-06,
+      "loss": 4.0097,
+      "step": 283
+    },
+    {
+      "epoch": 0.8328445747800587,
+      "grad_norm": 3.083049774169922,
+      "learning_rate": 3.4849674505029046e-06,
+      "loss": 4.2779,
+      "step": 284
+    },
+    {
+      "epoch": 0.8357771260997068,
+      "grad_norm": 2.842027187347412,
+      "learning_rate": 3.3685839241941132e-06,
+      "loss": 4.0779,
+      "step": 285
+    },
+    {
+      "epoch": 0.8387096774193549,
+      "grad_norm": 4.8641767501831055,
+      "learning_rate": 3.254036398687227e-06,
+      "loss": 4.3693,
+      "step": 286
+    },
+    {
+      "epoch": 0.841642228739003,
+      "grad_norm": 2.2296721935272217,
+      "learning_rate": 3.141334596385448e-06,
+      "loss": 4.7032,
+      "step": 287
+    },
+    {
+      "epoch": 0.844574780058651,
+      "grad_norm": 3.9860146045684814,
+      "learning_rate": 3.030488083033273e-06,
+      "loss": 4.3555,
+      "step": 288
+    },
+    {
+      "epoch": 0.8475073313782991,
+      "grad_norm": 2.9657280445098877,
+      "learning_rate": 2.9215062669046057e-06,
+      "loss": 3.9075,
+      "step": 289
+    },
+    {
+      "epoch": 0.8504398826979472,
+      "grad_norm": 3.488800525665283,
+      "learning_rate": 2.814398398004217e-06,
+      "loss": 4.1518,
+      "step": 290
+    },
+    {
+      "epoch": 0.8533724340175953,
+      "grad_norm": 2.9054927825927734,
+      "learning_rate": 2.7091735672826246e-06,
+      "loss": 4.0958,
+      "step": 291
+    },
+    {
+      "epoch": 0.8563049853372434,
+      "grad_norm": 3.117417097091675,
+      "learning_rate": 2.6058407058644846e-06,
+      "loss": 4.0236,
+      "step": 292
+    },
+    {
+      "epoch": 0.8592375366568915,
+      "grad_norm": 6.43637228012085,
+      "learning_rate": 2.5044085842905686e-06,
+      "loss": 3.7353,
+      "step": 293
+    },
+    {
+      "epoch": 0.8621700879765396,
+      "grad_norm": 5.5485453605651855,
+      "learning_rate": 2.4048858117733135e-06,
+      "loss": 4.432,
+      "step": 294
+    },
+    {
+      "epoch": 0.8651026392961877,
+      "grad_norm": 3.7333033084869385,
+      "learning_rate": 2.307280835466144e-06,
+      "loss": 3.838,
+      "step": 295
+    },
+    {
+      "epoch": 0.8680351906158358,
+      "grad_norm": 2.9349076747894287,
+      "learning_rate": 2.2116019397464716e-06,
+      "loss": 4.1525,
+      "step": 296
+    },
+    {
+      "epoch": 0.8709677419354839,
+      "grad_norm": 6.345071792602539,
+      "learning_rate": 2.11785724551255e-06,
+      "loss": 3.5775,
+      "step": 297
+    },
+    {
+      "epoch": 0.873900293255132,
+      "grad_norm": 4.050085067749023,
+      "learning_rate": 2.026054709494235e-06,
+      "loss": 4.2324,
+      "step": 298
+    },
+    {
+      "epoch": 0.8768328445747801,
+      "grad_norm": 3.197411298751831,
+      "learning_rate": 1.9362021235775964e-06,
+      "loss": 4.1468,
+      "step": 299
+    },
+    {
+      "epoch": 0.8797653958944281,
+      "grad_norm": 3.1517693996429443,
+      "learning_rate": 1.8483071141435936e-06,
+      "loss": 3.9981,
+      "step": 300
+    },
+    {
+      "epoch": 0.8826979472140762,
+      "grad_norm": 3.6503939628601074,
+      "learning_rate": 1.7623771414207874e-06,
+      "loss": 4.8073,
+      "step": 301
+    },
+    {
+      "epoch": 0.8856304985337243,
+      "grad_norm": 3.1931965351104736,
+      "learning_rate": 1.678419498852113e-06,
+      "loss": 3.8555,
+      "step": 302
+    },
+    {
+      "epoch": 0.8885630498533724,
+      "grad_norm": 2.733855962753296,
+      "learning_rate": 1.5964413124758494e-06,
+      "loss": 3.9586,
+      "step": 303
+    },
+    {
+      "epoch": 0.8914956011730205,
+      "grad_norm": 4.326821804046631,
+      "learning_rate": 1.5164495403207967e-06,
+      "loss": 3.6958,
+      "step": 304
+    },
+    {
+      "epoch": 0.8944281524926686,
+      "grad_norm": 3.2876148223876953,
+      "learning_rate": 1.4384509718156857e-06,
+      "loss": 4.0288,
+      "step": 305
+    },
+    {
+      "epoch": 0.8973607038123167,
+      "grad_norm": 2.8006346225738525,
+      "learning_rate": 1.3624522272129181e-06,
+      "loss": 4.0895,
+      "step": 306
+    },
+    {
+      "epoch": 0.9002932551319648,
+      "grad_norm": 1.8213318586349487,
+      "learning_rate": 1.2884597570266776e-06,
+      "loss": 4.6844,
+      "step": 307
+    },
+    {
+      "epoch": 0.9032258064516129,
+      "grad_norm": 2.5994362831115723,
+      "learning_rate": 1.2164798414854072e-06,
+      "loss": 4.9371,
+      "step": 308
+    },
+    {
+      "epoch": 0.906158357771261,
+      "grad_norm": 6.3459272384643555,
+      "learning_rate": 1.1465185899987797e-06,
+      "loss": 3.9222,
+      "step": 309
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 3.5609219074249268,
+      "learning_rate": 1.078581940639156e-06,
+      "loss": 4.1754,
+      "step": 310
+    },
+    {
+      "epoch": 0.9120234604105572,
+      "grad_norm": 2.6582562923431396,
+      "learning_rate": 1.0126756596375686e-06,
+      "loss": 4.0672,
+      "step": 311
+    },
+    {
+      "epoch": 0.9149560117302052,
+      "grad_norm": 2.7849044799804688,
+      "learning_rate": 9.488053408943098e-07,
+      "loss": 4.3989,
+      "step": 312
+    },
+    {
+      "epoch": 0.9178885630498533,
+      "grad_norm": 2.652345657348633,
+      "learning_rate": 8.869764055041502e-07,
+      "loss": 4.2069,
+      "step": 313
+    },
+    {
+      "epoch": 0.9208211143695014,
+      "grad_norm": 2.936429977416992,
+      "learning_rate": 8.271941012961943e-07,
+      "loss": 4.0183,
+      "step": 314
+    },
+    {
+      "epoch": 0.9237536656891495,
+      "grad_norm": 3.3017992973327637,
+      "learning_rate": 7.694635023884789e-07,
+      "loss": 4.0268,
+      "step": 315
+    },
+    {
+      "epoch": 0.9266862170087976,
+      "grad_norm": 2.577667236328125,
+      "learning_rate": 7.137895087572954e-07,
+      "loss": 4.2372,
+      "step": 316
+    },
+    {
+      "epoch": 0.9296187683284457,
+      "grad_norm": 2.7309646606445312,
+      "learning_rate": 6.601768458212921e-07,
+      "loss": 4.2528,
+      "step": 317
+    },
+    {
+      "epoch": 0.9325513196480938,
+      "grad_norm": 2.8064463138580322,
+      "learning_rate": 6.08630064040408e-07,
+      "loss": 4.2177,
+      "step": 318
+    },
+    {
+      "epoch": 0.9354838709677419,
+      "grad_norm": 2.7568838596343994,
+      "learning_rate": 5.591535385296221e-07,
+      "loss": 4.0193,
+      "step": 319
+    },
+    {
+      "epoch": 0.9384164222873901,
+      "grad_norm": 2.9362738132476807,
+      "learning_rate": 5.117514686876379e-07,
+      "loss": 4.4619,
+      "step": 320
+    },
+    {
+      "epoch": 0.9413489736070382,
+      "grad_norm": 3.7265350818634033,
+      "learning_rate": 4.664278778404335e-07,
+      "loss": 4.1966,
+      "step": 321
+    },
+    {
+      "epoch": 0.9442815249266863,
+      "grad_norm": 3.0435073375701904,
+      "learning_rate": 4.2318661289977855e-07,
+      "loss": 4.6872,
+      "step": 322
+    },
+    {
+      "epoch": 0.9472140762463344,
+      "grad_norm": 2.801727533340454,
+      "learning_rate": 3.8203134403672903e-07,
+      "loss": 4.1252,
+      "step": 323
+    },
+    {
+      "epoch": 0.9501466275659824,
+      "grad_norm": 2.9683027267456055,
+      "learning_rate": 3.4296556437010407e-07,
+      "loss": 4.1776,
+      "step": 324
+    },
+    {
+      "epoch": 0.9530791788856305,
+      "grad_norm": 3.422938108444214,
+      "learning_rate": 3.0599258967000944e-07,
+      "loss": 4.0259,
+      "step": 325
+    },
+    {
+      "epoch": 0.9560117302052786,
+      "grad_norm": 5.35568904876709,
+      "learning_rate": 2.7111555807640967e-07,
+      "loss": 3.7702,
+      "step": 326
+    },
+    {
+      "epoch": 0.9589442815249267,
+      "grad_norm": 2.9033238887786865,
+      "learning_rate": 2.3833742983276343e-07,
+      "loss": 3.9704,
+      "step": 327
+    },
+    {
+      "epoch": 0.9618768328445748,
+      "grad_norm": 3.0497045516967773,
+      "learning_rate": 2.0766098703477176e-07,
+      "loss": 3.9184,
+      "step": 328
+    },
+    {
+      "epoch": 0.9648093841642229,
+      "grad_norm": 2.188448667526245,
+      "learning_rate": 1.7908883339425307e-07,
+      "loss": 4.0516,
+      "step": 329
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 4.512168884277344,
+      "learning_rate": 1.5262339401813376e-07,
+      "loss": 4.0324,
+      "step": 330
+    },
+    {
+      "epoch": 0.9706744868035191,
+      "grad_norm": 5.80893611907959,
+      "learning_rate": 1.2826691520262114e-07,
+      "loss": 3.9478,
+      "step": 331
+    },
+    {
+      "epoch": 0.9736070381231672,
+      "grad_norm": 2.3556525707244873,
+      "learning_rate": 1.0602146424254777e-07,
+      "loss": 4.0797,
+      "step": 332
+    },
+    {
+      "epoch": 0.9765395894428153,
+      "grad_norm": 3.3506250381469727,
+      "learning_rate": 8.588892925590065e-08,
+      "loss": 4.3279,
+      "step": 333
+    },
+    {
+      "epoch": 0.9794721407624634,
+      "grad_norm": 2.7284128665924072,
+      "learning_rate": 6.787101902356873e-08,
+      "loss": 4.298,
+      "step": 334
+    },
+    {
+      "epoch": 0.9824046920821115,
+      "grad_norm": 2.9885544776916504,
+      "learning_rate": 5.196926284430359e-08,
+      "loss": 4.2026,
+      "step": 335
+    },
+    {
+      "epoch": 0.9853372434017595,
+      "grad_norm": 5.574382781982422,
+      "learning_rate": 3.818501040492584e-08,
+      "loss": 3.8959,
+      "step": 336
+    },
+    {
+      "epoch": 0.9882697947214076,
+      "grad_norm": 2.7876017093658447,
+      "learning_rate": 2.6519431665755766e-08,
+      "loss": 4.0182,
+      "step": 337
+    },
+    {
+      "epoch": 0.9912023460410557,
+      "grad_norm": 3.3530986309051514,
+      "learning_rate": 1.6973516761317754e-08,
+      "loss": 4.5615,
+      "step": 338
+    },
+    {
+      "epoch": 0.9941348973607038,
+      "grad_norm": 2.7684476375579834,
+      "learning_rate": 9.548075916304688e-09,
+      "loss": 4.0083,
+      "step": 339
+    },
+    {
+      "epoch": 0.9970674486803519,
+      "grad_norm": 4.671882629394531,
+      "learning_rate": 4.243739376807998e-09,
+      "loss": 4.1173,
+      "step": 340
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.7594807147979736,
+      "learning_rate": 1.0609573568132191e-09,
+      "loss": 4.15,
+      "step": 341
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 341,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3560737542985728.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b145ee1dc7a4fdf32845b5303b3b2ab5e805b6af0d5f1a067406969e16112e
+size 5304