Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

28_128_e3_3e-5/.gitattributes +35 -0
28_128_e3_3e-5/README.md +63 -0
28_128_e3_3e-5/adapter_config.json +39 -0
28_128_e3_3e-5/adapter_model.safetensors +3 -0
28_128_e3_3e-5/all_results.json +9 -0
28_128_e3_3e-5/config.json +32 -0
28_128_e3_3e-5/merges.txt +0 -0
28_128_e3_3e-5/special_tokens_map.json +45 -0
28_128_e3_3e-5/tokenizer.json +0 -0
28_128_e3_3e-5/tokenizer_config.json +188 -0
28_128_e3_3e-5/train_results.json +9 -0
28_128_e3_3e-5/trainer_state.json +1345 -0
28_128_e3_3e-5/training_args.bin +3 -0
28_128_e3_3e-5/vocab.json +0 -0

28_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

28_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 28_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 28_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

28_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "up_proj",
+    "o_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

28_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3af3c7d2d78e864cf98ea28390f74bac707261b3d159244670e29028076b5b3b
+size 791751704

28_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.3255839981219348e+18,
+    "train_loss": 0.5541779832696864,
+    "train_runtime": 632.7035,
+    "train_samples": 9921,
+    "train_samples_per_second": 47.041,
+    "train_steps_per_second": 1.475
+}

28_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

28_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

28_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

28_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

28_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

28_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.3255839981219348e+18,
+    "train_loss": 0.5541779832696864,
+    "train_runtime": 632.7035,
+    "train_samples": 9921,
+    "train_samples_per_second": 47.041,
+    "train_steps_per_second": 1.475
+}

28_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1345 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 933,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01610305958132045,
+      "grad_norm": 1.099474549293518,
+      "learning_rate": 2.553191489361702e-06,
+      "loss": 1.2894,
+      "step": 5
+    },
+    {
+      "epoch": 0.0322061191626409,
+      "grad_norm": 0.7625974416732788,
+      "learning_rate": 5.74468085106383e-06,
+      "loss": 1.3314,
+      "step": 10
+    },
+    {
+      "epoch": 0.04830917874396135,
+      "grad_norm": 0.6890588402748108,
+      "learning_rate": 8.936170212765958e-06,
+      "loss": 1.2633,
+      "step": 15
+    },
+    {
+      "epoch": 0.0644122383252818,
+      "grad_norm": 0.5975058078765869,
+      "learning_rate": 1.2127659574468084e-05,
+      "loss": 1.2242,
+      "step": 20
+    },
+    {
+      "epoch": 0.08051529790660225,
+      "grad_norm": 0.6917400360107422,
+      "learning_rate": 1.531914893617021e-05,
+      "loss": 1.2246,
+      "step": 25
+    },
+    {
+      "epoch": 0.0966183574879227,
+      "grad_norm": 0.5404536128044128,
+      "learning_rate": 1.8510638297872342e-05,
+      "loss": 1.258,
+      "step": 30
+    },
+    {
+      "epoch": 0.11272141706924316,
+      "grad_norm": 0.5152860283851624,
+      "learning_rate": 2.170212765957447e-05,
+      "loss": 1.2594,
+      "step": 35
+    },
+    {
+      "epoch": 0.1288244766505636,
+      "grad_norm": 0.5554253458976746,
+      "learning_rate": 2.4893617021276595e-05,
+      "loss": 1.1544,
+      "step": 40
+    },
+    {
+      "epoch": 0.14492753623188406,
+      "grad_norm": 0.4975247085094452,
+      "learning_rate": 2.8085106382978723e-05,
+      "loss": 1.1774,
+      "step": 45
+    },
+    {
+      "epoch": 0.1610305958132045,
+      "grad_norm": 0.4823759198188782,
+      "learning_rate": 2.9999622817324995e-05,
+      "loss": 1.1478,
+      "step": 50
+    },
+    {
+      "epoch": 0.17713365539452497,
+      "grad_norm": 0.572918713092804,
+      "learning_rate": 2.9995379730074167e-05,
+      "loss": 1.1444,
+      "step": 55
+    },
+    {
+      "epoch": 0.1932367149758454,
+      "grad_norm": 0.4989561438560486,
+      "learning_rate": 2.9986423415327763e-05,
+      "loss": 1.0729,
+      "step": 60
+    },
+    {
+      "epoch": 0.20933977455716588,
+      "grad_norm": 0.6067643165588379,
+      "learning_rate": 2.99727566881628e-05,
+      "loss": 1.1207,
+      "step": 65
+    },
+    {
+      "epoch": 0.22544283413848631,
+      "grad_norm": 0.45784780383110046,
+      "learning_rate": 2.9954383844195356e-05,
+      "loss": 1.1053,
+      "step": 70
+    },
+    {
+      "epoch": 0.24154589371980675,
+      "grad_norm": 0.5540785193443298,
+      "learning_rate": 2.9931310658230394e-05,
+      "loss": 1.1352,
+      "step": 75
+    },
+    {
+      "epoch": 0.2576489533011272,
+      "grad_norm": 0.5176120400428772,
+      "learning_rate": 2.99035443824467e-05,
+      "loss": 1.0827,
+      "step": 80
+    },
+    {
+      "epoch": 0.27375201288244766,
+      "grad_norm": 0.5528275370597839,
+      "learning_rate": 2.9871093744117377e-05,
+      "loss": 1.0366,
+      "step": 85
+    },
+    {
+      "epoch": 0.2898550724637681,
+      "grad_norm": 0.6259459853172302,
+      "learning_rate": 2.9833968942866826e-05,
+      "loss": 1.0483,
+      "step": 90
+    },
+    {
+      "epoch": 0.3059581320450886,
+      "grad_norm": 0.5627496242523193,
+      "learning_rate": 2.9792181647464833e-05,
+      "loss": 0.9778,
+      "step": 95
+    },
+    {
+      "epoch": 0.322061191626409,
+      "grad_norm": 0.6629467010498047,
+      "learning_rate": 2.974574499215896e-05,
+      "loss": 1.0226,
+      "step": 100
+    },
+    {
+      "epoch": 0.33816425120772947,
+      "grad_norm": 0.5964480042457581,
+      "learning_rate": 2.9694673572546295e-05,
+      "loss": 1.0244,
+      "step": 105
+    },
+    {
+      "epoch": 0.35426731078904994,
+      "grad_norm": 0.5668256878852844,
+      "learning_rate": 2.963898344098585e-05,
+      "loss": 1.0187,
+      "step": 110
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 0.625812828540802,
+      "learning_rate": 2.957869210155316e-05,
+      "loss": 0.9628,
+      "step": 115
+    },
+    {
+      "epoch": 0.3864734299516908,
+      "grad_norm": 0.723459005355835,
+      "learning_rate": 2.95138185045385e-05,
+      "loss": 0.9586,
+      "step": 120
+    },
+    {
+      "epoch": 0.4025764895330113,
+      "grad_norm": 0.6798543334007263,
+      "learning_rate": 2.9444383040490607e-05,
+      "loss": 0.9823,
+      "step": 125
+    },
+    {
+      "epoch": 0.41867954911433175,
+      "grad_norm": 0.638761043548584,
+      "learning_rate": 2.9370407533807677e-05,
+      "loss": 0.8948,
+      "step": 130
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 0.6382465362548828,
+      "learning_rate": 2.9291915235877694e-05,
+      "loss": 0.9645,
+      "step": 135
+    },
+    {
+      "epoch": 0.45088566827697263,
+      "grad_norm": 0.7812132239341736,
+      "learning_rate": 2.9208930817770242e-05,
+      "loss": 0.9688,
+      "step": 140
+    },
+    {
+      "epoch": 0.4669887278582931,
+      "grad_norm": 0.7230568528175354,
+      "learning_rate": 2.9121480362482106e-05,
+      "loss": 0.9374,
+      "step": 145
+    },
+    {
+      "epoch": 0.4830917874396135,
+      "grad_norm": 0.8044856786727905,
+      "learning_rate": 2.9029591356739038e-05,
+      "loss": 0.9491,
+      "step": 150
+    },
+    {
+      "epoch": 0.499194847020934,
+      "grad_norm": 0.6708965301513672,
+      "learning_rate": 2.893329268235639e-05,
+      "loss": 0.9605,
+      "step": 155
+    },
+    {
+      "epoch": 0.5152979066022544,
+      "grad_norm": 0.6693217754364014,
+      "learning_rate": 2.8832614607161186e-05,
+      "loss": 0.9138,
+      "step": 160
+    },
+    {
+      "epoch": 0.5314009661835749,
+      "grad_norm": 0.7455448508262634,
+      "learning_rate": 2.8727588775478602e-05,
+      "loss": 0.888,
+      "step": 165
+    },
+    {
+      "epoch": 0.5475040257648953,
+      "grad_norm": 0.8421791195869446,
+      "learning_rate": 2.861824819818575e-05,
+      "loss": 0.9175,
+      "step": 170
+    },
+    {
+      "epoch": 0.5636070853462157,
+      "grad_norm": 0.7931718826293945,
+      "learning_rate": 2.850462724233599e-05,
+      "loss": 0.82,
+      "step": 175
+    },
+    {
+      "epoch": 0.5797101449275363,
+      "grad_norm": 0.8290127515792847,
+      "learning_rate": 2.838676162035694e-05,
+      "loss": 0.8961,
+      "step": 180
+    },
+    {
+      "epoch": 0.5958132045088567,
+      "grad_norm": 0.7336427569389343,
+      "learning_rate": 2.8264688378825627e-05,
+      "loss": 0.8228,
+      "step": 185
+    },
+    {
+      "epoch": 0.6119162640901772,
+      "grad_norm": 0.7880859971046448,
+      "learning_rate": 2.8138445886824324e-05,
+      "loss": 0.8478,
+      "step": 190
+    },
+    {
+      "epoch": 0.6280193236714976,
+      "grad_norm": 0.8798295855522156,
+      "learning_rate": 2.8008073823880653e-05,
+      "loss": 0.8391,
+      "step": 195
+    },
+    {
+      "epoch": 0.644122383252818,
+      "grad_norm": 0.7530784606933594,
+      "learning_rate": 2.7873613167495882e-05,
+      "loss": 0.811,
+      "step": 200
+    },
+    {
+      "epoch": 0.6602254428341385,
+      "grad_norm": 0.8649199604988098,
+      "learning_rate": 2.7735106180265163e-05,
+      "loss": 0.8281,
+      "step": 205
+    },
+    {
+      "epoch": 0.6763285024154589,
+      "grad_norm": 0.9082178473472595,
+      "learning_rate": 2.7592596396593917e-05,
+      "loss": 0.7656,
+      "step": 210
+    },
+    {
+      "epoch": 0.6924315619967794,
+      "grad_norm": 0.8561233282089233,
+      "learning_rate": 2.7446128609014427e-05,
+      "loss": 0.793,
+      "step": 215
+    },
+    {
+      "epoch": 0.7085346215780999,
+      "grad_norm": 0.884993314743042,
+      "learning_rate": 2.729574885410704e-05,
+      "loss": 0.7323,
+      "step": 220
+    },
+    {
+      "epoch": 0.7246376811594203,
+      "grad_norm": 0.860131025314331,
+      "learning_rate": 2.7141504398030284e-05,
+      "loss": 0.7582,
+      "step": 225
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.9162830114364624,
+      "learning_rate": 2.6983443721664574e-05,
+      "loss": 0.7518,
+      "step": 230
+    },
+    {
+      "epoch": 0.7568438003220612,
+      "grad_norm": 0.9591054320335388,
+      "learning_rate": 2.6821616505374074e-05,
+      "loss": 0.7457,
+      "step": 235
+    },
+    {
+      "epoch": 0.7729468599033816,
+      "grad_norm": 0.9484008550643921,
+      "learning_rate": 2.665607361339158e-05,
+      "loss": 0.7633,
+      "step": 240
+    },
+    {
+      "epoch": 0.789049919484702,
+      "grad_norm": 1.0148513317108154,
+      "learning_rate": 2.6486867077831264e-05,
+      "loss": 0.743,
+      "step": 245
+    },
+    {
+      "epoch": 0.8051529790660226,
+      "grad_norm": 1.052332878112793,
+      "learning_rate": 2.6314050082334356e-05,
+      "loss": 0.7033,
+      "step": 250
+    },
+    {
+      "epoch": 0.821256038647343,
+      "grad_norm": 0.9157591462135315,
+      "learning_rate": 2.613767694535292e-05,
+      "loss": 0.7297,
+      "step": 255
+    },
+    {
+      "epoch": 0.8373590982286635,
+      "grad_norm": 0.9024787545204163,
+      "learning_rate": 2.5957803103076878e-05,
+      "loss": 0.7438,
+      "step": 260
+    },
+    {
+      "epoch": 0.8534621578099839,
+      "grad_norm": 0.9129444360733032,
+      "learning_rate": 2.5774485092009765e-05,
+      "loss": 0.731,
+      "step": 265
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.050371527671814,
+      "learning_rate": 2.5587780531198628e-05,
+      "loss": 0.7255,
+      "step": 270
+    },
+    {
+      "epoch": 0.8856682769726248,
+      "grad_norm": 0.9377261996269226,
+      "learning_rate": 2.539774810412368e-05,
+      "loss": 0.7174,
+      "step": 275
+    },
+    {
+      "epoch": 0.9017713365539453,
+      "grad_norm": 0.9528700709342957,
+      "learning_rate": 2.520444754025336e-05,
+      "loss": 0.6912,
+      "step": 280
+    },
+    {
+      "epoch": 0.9178743961352657,
+      "grad_norm": 0.8837325572967529,
+      "learning_rate": 2.5007939596270654e-05,
+      "loss": 0.6673,
+      "step": 285
+    },
+    {
+      "epoch": 0.9339774557165862,
+      "grad_norm": 0.9170405864715576,
+      "learning_rate": 2.4808286036976538e-05,
+      "loss": 0.6914,
+      "step": 290
+    },
+    {
+      "epoch": 0.9500805152979066,
+      "grad_norm": 1.0151023864746094,
+      "learning_rate": 2.460554961587658e-05,
+      "loss": 0.6122,
+      "step": 295
+    },
+    {
+      "epoch": 0.966183574879227,
+      "grad_norm": 0.8477532863616943,
+      "learning_rate": 2.4399794055456738e-05,
+      "loss": 0.682,
+      "step": 300
+    },
+    {
+      "epoch": 0.9822866344605475,
+      "grad_norm": 0.9706119298934937,
+      "learning_rate": 2.4191084027154622e-05,
+      "loss": 0.6367,
+      "step": 305
+    },
+    {
+      "epoch": 0.998389694041868,
+      "grad_norm": 1.0305134057998657,
+      "learning_rate": 2.3979485131032502e-05,
+      "loss": 0.6319,
+      "step": 310
+    },
+    {
+      "epoch": 1.0128824476650564,
+      "grad_norm": 1.3823497295379639,
+      "learning_rate": 2.376506387515841e-05,
+      "loss": 0.6246,
+      "step": 315
+    },
+    {
+      "epoch": 1.0289855072463767,
+      "grad_norm": 1.1248315572738647,
+      "learning_rate": 2.3547887654701858e-05,
+      "loss": 0.5501,
+      "step": 320
+    },
+    {
+      "epoch": 1.0450885668276972,
+      "grad_norm": 1.0980432033538818,
+      "learning_rate": 2.3328024730750726e-05,
+      "loss": 0.5671,
+      "step": 325
+    },
+    {
+      "epoch": 1.0611916264090178,
+      "grad_norm": 0.9825987815856934,
+      "learning_rate": 2.3105544208856005e-05,
+      "loss": 0.5379,
+      "step": 330
+    },
+    {
+      "epoch": 1.077294685990338,
+      "grad_norm": 1.1022440195083618,
+      "learning_rate": 2.2880516017311066e-05,
+      "loss": 0.5525,
+      "step": 335
+    },
+    {
+      "epoch": 1.0933977455716586,
+      "grad_norm": 1.0931276082992554,
+      "learning_rate": 2.2653010885172373e-05,
+      "loss": 0.5548,
+      "step": 340
+    },
+    {
+      "epoch": 1.109500805152979,
+      "grad_norm": 1.1659009456634521,
+      "learning_rate": 2.24231003200285e-05,
+      "loss": 0.5554,
+      "step": 345
+    },
+    {
+      "epoch": 1.1256038647342996,
+      "grad_norm": 1.110284447669983,
+      "learning_rate": 2.2190856585524428e-05,
+      "loss": 0.5681,
+      "step": 350
+    },
+    {
+      "epoch": 1.14170692431562,
+      "grad_norm": 1.066433072090149,
+      "learning_rate": 2.1956352678648206e-05,
+      "loss": 0.543,
+      "step": 355
+    },
+    {
+      "epoch": 1.1578099838969405,
+      "grad_norm": 1.1335583925247192,
+      "learning_rate": 2.171966230678717e-05,
+      "loss": 0.5277,
+      "step": 360
+    },
+    {
+      "epoch": 1.1739130434782608,
+      "grad_norm": 1.2522046566009521,
+      "learning_rate": 2.1480859864560757e-05,
+      "loss": 0.5269,
+      "step": 365
+    },
+    {
+      "epoch": 1.1900161030595813,
+      "grad_norm": 1.0556542873382568,
+      "learning_rate": 2.1240020410437453e-05,
+      "loss": 0.531,
+      "step": 370
+    },
+    {
+      "epoch": 1.2061191626409018,
+      "grad_norm": 1.0087769031524658,
+      "learning_rate": 2.0997219643142967e-05,
+      "loss": 0.5474,
+      "step": 375
+    },
+    {
+      "epoch": 1.2222222222222223,
+      "grad_norm": 1.1095277070999146,
+      "learning_rate": 2.0752533877867242e-05,
+      "loss": 0.5337,
+      "step": 380
+    },
+    {
+      "epoch": 1.2383252818035426,
+      "grad_norm": 1.149065375328064,
+      "learning_rate": 2.0506040022277667e-05,
+      "loss": 0.505,
+      "step": 385
+    },
+    {
+      "epoch": 1.2544283413848631,
+      "grad_norm": 1.1680713891983032,
+      "learning_rate": 2.0257815552346084e-05,
+      "loss": 0.4953,
+      "step": 390
+    },
+    {
+      "epoch": 1.2705314009661834,
+      "grad_norm": 1.200576663017273,
+      "learning_rate": 2.0007938487997147e-05,
+      "loss": 0.4758,
+      "step": 395
+    },
+    {
+      "epoch": 1.286634460547504,
+      "grad_norm": 1.0905852317810059,
+      "learning_rate": 1.975648736858574e-05,
+      "loss": 0.5183,
+      "step": 400
+    },
+    {
+      "epoch": 1.3027375201288245,
+      "grad_norm": 1.0057950019836426,
+      "learning_rate": 1.950354122821111e-05,
+      "loss": 0.4492,
+      "step": 405
+    },
+    {
+      "epoch": 1.318840579710145,
+      "grad_norm": 1.0876065492630005,
+      "learning_rate": 1.9249179570875495e-05,
+      "loss": 0.53,
+      "step": 410
+    },
+    {
+      "epoch": 1.3349436392914653,
+      "grad_norm": 1.0443370342254639,
+      "learning_rate": 1.8993482345495077e-05,
+      "loss": 0.5038,
+      "step": 415
+    },
+    {
+      "epoch": 1.3510466988727858,
+      "grad_norm": 1.263616681098938,
+      "learning_rate": 1.873652992077109e-05,
+      "loss": 0.4766,
+      "step": 420
+    },
+    {
+      "epoch": 1.3671497584541064,
+      "grad_norm": 1.1731009483337402,
+      "learning_rate": 1.8478403059928934e-05,
+      "loss": 0.5002,
+      "step": 425
+    },
+    {
+      "epoch": 1.3832528180354267,
+      "grad_norm": 1.0387680530548096,
+      "learning_rate": 1.8219182895333362e-05,
+      "loss": 0.489,
+      "step": 430
+    },
+    {
+      "epoch": 1.3993558776167472,
+      "grad_norm": 1.1428155899047852,
+      "learning_rate": 1.7958950902987597e-05,
+      "loss": 0.4613,
+      "step": 435
+    },
+    {
+      "epoch": 1.4154589371980677,
+      "grad_norm": 1.0890045166015625,
+      "learning_rate": 1.7697788876924437e-05,
+      "loss": 0.4394,
+      "step": 440
+    },
+    {
+      "epoch": 1.431561996779388,
+      "grad_norm": 1.0482463836669922,
+      "learning_rate": 1.7435778903497437e-05,
+      "loss": 0.4535,
+      "step": 445
+    },
+    {
+      "epoch": 1.4476650563607085,
+      "grad_norm": 1.0537445545196533,
+      "learning_rate": 1.7173003335580147e-05,
+      "loss": 0.467,
+      "step": 450
+    },
+    {
+      "epoch": 1.463768115942029,
+      "grad_norm": 1.153641700744629,
+      "learning_rate": 1.690954476668165e-05,
+      "loss": 0.4597,
+      "step": 455
+    },
+    {
+      "epoch": 1.4798711755233493,
+      "grad_norm": 1.0458825826644897,
+      "learning_rate": 1.6645486004986412e-05,
+      "loss": 0.4213,
+      "step": 460
+    },
+    {
+      "epoch": 1.4959742351046699,
+      "grad_norm": 1.3109809160232544,
+      "learning_rate": 1.6380910047326687e-05,
+      "loss": 0.4792,
+      "step": 465
+    },
+    {
+      "epoch": 1.5120772946859904,
+      "grad_norm": 1.2872767448425293,
+      "learning_rate": 1.6115900053095626e-05,
+      "loss": 0.4722,
+      "step": 470
+    },
+    {
+      "epoch": 1.528180354267311,
+      "grad_norm": 1.0766595602035522,
+      "learning_rate": 1.585053931810926e-05,
+      "loss": 0.472,
+      "step": 475
+    },
+    {
+      "epoch": 1.5442834138486312,
+      "grad_norm": 1.1442352533340454,
+      "learning_rate": 1.5584911248425657e-05,
+      "loss": 0.4371,
+      "step": 480
+    },
+    {
+      "epoch": 1.5603864734299517,
+      "grad_norm": 1.1905001401901245,
+      "learning_rate": 1.5319099334129366e-05,
+      "loss": 0.5181,
+      "step": 485
+    },
+    {
+      "epoch": 1.576489533011272,
+      "grad_norm": 1.081666111946106,
+      "learning_rate": 1.5053187123089508e-05,
+      "loss": 0.4605,
+      "step": 490
+    },
+    {
+      "epoch": 1.5925925925925926,
+      "grad_norm": 1.2934837341308594,
+      "learning_rate": 1.4787258194699673e-05,
+      "loss": 0.4302,
+      "step": 495
+    },
+    {
+      "epoch": 1.608695652173913,
+      "grad_norm": 1.371206521987915,
+      "learning_rate": 1.4521396133607923e-05,
+      "loss": 0.4465,
+      "step": 500
+    },
+    {
+      "epoch": 1.6247987117552336,
+      "grad_norm": 1.5279136896133423,
+      "learning_rate": 1.4255684503445102e-05,
+      "loss": 0.4362,
+      "step": 505
+    },
+    {
+      "epoch": 1.640901771336554,
+      "grad_norm": 1.2111070156097412,
+      "learning_rate": 1.3990206820559842e-05,
+      "loss": 0.4001,
+      "step": 510
+    },
+    {
+      "epoch": 1.6570048309178744,
+      "grad_norm": 1.2455259561538696,
+      "learning_rate": 1.3725046527768315e-05,
+      "loss": 0.3935,
+      "step": 515
+    },
+    {
+      "epoch": 1.6731078904991947,
+      "grad_norm": 1.1695479154586792,
+      "learning_rate": 1.3460286968127212e-05,
+      "loss": 0.4023,
+      "step": 520
+    },
+    {
+      "epoch": 1.6892109500805152,
+      "grad_norm": 1.1728322505950928,
+      "learning_rate": 1.3196011358737966e-05,
+      "loss": 0.4121,
+      "step": 525
+    },
+    {
+      "epoch": 1.7053140096618358,
+      "grad_norm": 1.3643518686294556,
+      "learning_rate": 1.2932302764590663e-05,
+      "loss": 0.3953,
+      "step": 530
+    },
+    {
+      "epoch": 1.7214170692431563,
+      "grad_norm": 1.2518433332443237,
+      "learning_rate": 1.266924407245571e-05,
+      "loss": 0.3926,
+      "step": 535
+    },
+    {
+      "epoch": 1.7375201288244766,
+      "grad_norm": 1.1249760389328003,
+      "learning_rate": 1.2406917964831516e-05,
+      "loss": 0.439,
+      "step": 540
+    },
+    {
+      "epoch": 1.7536231884057971,
+      "grad_norm": 1.1554265022277832,
+      "learning_rate": 1.2145406893956396e-05,
+      "loss": 0.3995,
+      "step": 545
+    },
+    {
+      "epoch": 1.7697262479871174,
+      "grad_norm": 1.1654425859451294,
+      "learning_rate": 1.1884793055892874e-05,
+      "loss": 0.4113,
+      "step": 550
+    },
+    {
+      "epoch": 1.785829307568438,
+      "grad_norm": 1.2029690742492676,
+      "learning_rate": 1.1625158364692428e-05,
+      "loss": 0.3842,
+      "step": 555
+    },
+    {
+      "epoch": 1.8019323671497585,
+      "grad_norm": 1.2378252744674683,
+      "learning_rate": 1.1366584426648964e-05,
+      "loss": 0.3793,
+      "step": 560
+    },
+    {
+      "epoch": 1.818035426731079,
+      "grad_norm": 1.1385626792907715,
+      "learning_rate": 1.1109152514648946e-05,
+      "loss": 0.3656,
+      "step": 565
+    },
+    {
+      "epoch": 1.8341384863123995,
+      "grad_norm": 1.325968623161316,
+      "learning_rate": 1.0852943542626387e-05,
+      "loss": 0.3856,
+      "step": 570
+    },
+    {
+      "epoch": 1.8502415458937198,
+      "grad_norm": 1.2158111333847046,
+      "learning_rate": 1.0598038040130605e-05,
+      "loss": 0.3667,
+      "step": 575
+    },
+    {
+      "epoch": 1.86634460547504,
+      "grad_norm": 1.3492653369903564,
+      "learning_rate": 1.0344516127014838e-05,
+      "loss": 0.4068,
+      "step": 580
+    },
+    {
+      "epoch": 1.8824476650563606,
+      "grad_norm": 1.0512828826904297,
+      "learning_rate": 1.0092457488253595e-05,
+      "loss": 0.4009,
+      "step": 585
+    },
+    {
+      "epoch": 1.8985507246376812,
+      "grad_norm": 1.3343157768249512,
+      "learning_rate": 9.841941348896725e-06,
+      "loss": 0.3749,
+      "step": 590
+    },
+    {
+      "epoch": 1.9146537842190017,
+      "grad_norm": 1.2649831771850586,
+      "learning_rate": 9.593046449168054e-06,
+      "loss": 0.3697,
+      "step": 595
+    },
+    {
+      "epoch": 1.9307568438003222,
+      "grad_norm": 1.1662594079971313,
+      "learning_rate": 9.345851019716351e-06,
+      "loss": 0.3647,
+      "step": 600
+    },
+    {
+      "epoch": 1.9468599033816425,
+      "grad_norm": 1.3596150875091553,
+      "learning_rate": 9.100432757026517e-06,
+      "loss": 0.3574,
+      "step": 605
+    },
+    {
+      "epoch": 1.9629629629629628,
+      "grad_norm": 1.282422423362732,
+      "learning_rate": 8.856868798998663e-06,
+      "loss": 0.4012,
+      "step": 610
+    },
+    {
+      "epoch": 1.9790660225442833,
+      "grad_norm": 1.1718454360961914,
+      "learning_rate": 8.615235700702718e-06,
+      "loss": 0.396,
+      "step": 615
+    },
+    {
+      "epoch": 1.9951690821256038,
+      "grad_norm": 1.1926212310791016,
+      "learning_rate": 8.375609410316274e-06,
+      "loss": 0.3893,
+      "step": 620
+    },
+    {
+      "epoch": 2.0096618357487923,
+      "grad_norm": 1.150900959968567,
+      "learning_rate": 8.138065245253147e-06,
+      "loss": 0.3125,
+      "step": 625
+    },
+    {
+      "epoch": 2.025764895330113,
+      "grad_norm": 1.121811866760254,
+      "learning_rate": 7.902677868490222e-06,
+      "loss": 0.3064,
+      "step": 630
+    },
+    {
+      "epoch": 2.0418679549114334,
+      "grad_norm": 1.2439510822296143,
+      "learning_rate": 7.669521265099988e-06,
+      "loss": 0.2957,
+      "step": 635
+    },
+    {
+      "epoch": 2.0579710144927534,
+      "grad_norm": 1.21696138381958,
+      "learning_rate": 7.438668718996129e-06,
+      "loss": 0.3117,
+      "step": 640
+    },
+    {
+      "epoch": 2.074074074074074,
+      "grad_norm": 1.2005341053009033,
+      "learning_rate": 7.2101927898995405e-06,
+      "loss": 0.3065,
+      "step": 645
+    },
+    {
+      "epoch": 2.0901771336553945,
+      "grad_norm": 1.225339412689209,
+      "learning_rate": 6.984165290531887e-06,
+      "loss": 0.292,
+      "step": 650
+    },
+    {
+      "epoch": 2.106280193236715,
+      "grad_norm": 1.182876467704773,
+      "learning_rate": 6.7606572640440604e-06,
+      "loss": 0.2663,
+      "step": 655
+    },
+    {
+      "epoch": 2.1223832528180355,
+      "grad_norm": 1.3125640153884888,
+      "learning_rate": 6.539738961686448e-06,
+      "loss": 0.3079,
+      "step": 660
+    },
+    {
+      "epoch": 2.138486312399356,
+      "grad_norm": 1.2185289859771729,
+      "learning_rate": 6.3214798207281066e-06,
+      "loss": 0.2854,
+      "step": 665
+    },
+    {
+      "epoch": 2.154589371980676,
+      "grad_norm": 1.4302030801773071,
+      "learning_rate": 6.105948442631794e-06,
+      "loss": 0.2944,
+      "step": 670
+    },
+    {
+      "epoch": 2.1706924315619966,
+      "grad_norm": 1.252193570137024,
+      "learning_rate": 5.893212571491755e-06,
+      "loss": 0.2875,
+      "step": 675
+    },
+    {
+      "epoch": 2.186795491143317,
+      "grad_norm": 1.1633315086364746,
+      "learning_rate": 5.683339072740882e-06,
+      "loss": 0.3126,
+      "step": 680
+    },
+    {
+      "epoch": 2.2028985507246377,
+      "grad_norm": 1.2183589935302734,
+      "learning_rate": 5.476393912134141e-06,
+      "loss": 0.2526,
+      "step": 685
+    },
+    {
+      "epoch": 2.219001610305958,
+      "grad_norm": 1.2777475118637085,
+      "learning_rate": 5.272442135014742e-06,
+      "loss": 0.275,
+      "step": 690
+    },
+    {
+      "epoch": 2.2351046698872787,
+      "grad_norm": 1.1911357641220093,
+      "learning_rate": 5.071547845869597e-06,
+      "loss": 0.3123,
+      "step": 695
+    },
+    {
+      "epoch": 2.2512077294685993,
+      "grad_norm": 1.3494317531585693,
+      "learning_rate": 4.873774188180518e-06,
+      "loss": 0.2908,
+      "step": 700
+    },
+    {
+      "epoch": 2.2673107890499193,
+      "grad_norm": 1.2983713150024414,
+      "learning_rate": 4.679183324577483e-06,
+      "loss": 0.2854,
+      "step": 705
+    },
+    {
+      "epoch": 2.28341384863124,
+      "grad_norm": 1.3794441223144531,
+      "learning_rate": 4.487836417300128e-06,
+      "loss": 0.293,
+      "step": 710
+    },
+    {
+      "epoch": 2.2995169082125604,
+      "grad_norm": 1.2287911176681519,
+      "learning_rate": 4.2997936089737715e-06,
+      "loss": 0.2841,
+      "step": 715
+    },
+    {
+      "epoch": 2.315619967793881,
+      "grad_norm": 1.3285218477249146,
+      "learning_rate": 4.11511400370585e-06,
+      "loss": 0.3119,
+      "step": 720
+    },
+    {
+      "epoch": 2.3317230273752014,
+      "grad_norm": 1.223089337348938,
+      "learning_rate": 3.933855648508788e-06,
+      "loss": 0.2665,
+      "step": 725
+    },
+    {
+      "epoch": 2.3478260869565215,
+      "grad_norm": 1.1403647661209106,
+      "learning_rate": 3.756075515055105e-06,
+      "loss": 0.3001,
+      "step": 730
+    },
+    {
+      "epoch": 2.363929146537842,
+      "grad_norm": 1.1264787912368774,
+      "learning_rate": 3.581829481770584e-06,
+      "loss": 0.2715,
+      "step": 735
+    },
+    {
+      "epoch": 2.3800322061191626,
+      "grad_norm": 1.288489818572998,
+      "learning_rate": 3.4111723162709713e-06,
+      "loss": 0.3063,
+      "step": 740
+    },
+    {
+      "epoch": 2.396135265700483,
+      "grad_norm": 1.118708848953247,
+      "learning_rate": 3.2441576581478777e-06,
+      "loss": 0.2988,
+      "step": 745
+    },
+    {
+      "epoch": 2.4122383252818036,
+      "grad_norm": 1.0968046188354492,
+      "learning_rate": 3.0808380021092035e-06,
+      "loss": 0.306,
+      "step": 750
+    },
+    {
+      "epoch": 2.428341384863124,
+      "grad_norm": 1.1554595232009888,
+      "learning_rate": 2.9212646814794338e-06,
+      "loss": 0.2753,
+      "step": 755
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 1.2897075414657593,
+      "learning_rate": 2.7654878520649425e-06,
+      "loss": 0.2922,
+      "step": 760
+    },
+    {
+      "epoch": 2.4605475040257647,
+      "grad_norm": 1.2370507717132568,
+      "learning_rate": 2.613556476389454e-06,
+      "loss": 0.2563,
+      "step": 765
+    },
+    {
+      "epoch": 2.4766505636070852,
+      "grad_norm": 1.1680712699890137,
+      "learning_rate": 2.4655183083044858e-06,
+      "loss": 0.2941,
+      "step": 770
+    },
+    {
+      "epoch": 2.4927536231884058,
+      "grad_norm": 1.4701672792434692,
+      "learning_rate": 2.3214198779797807e-06,
+      "loss": 0.2834,
+      "step": 775
+    },
+    {
+      "epoch": 2.5088566827697263,
+      "grad_norm": 1.1617012023925781,
+      "learning_rate": 2.181306477278317e-06,
+      "loss": 0.2514,
+      "step": 780
+    },
+    {
+      "epoch": 2.524959742351047,
+      "grad_norm": 1.1539723873138428,
+      "learning_rate": 2.045222145520505e-06,
+      "loss": 0.2788,
+      "step": 785
+    },
+    {
+      "epoch": 2.541062801932367,
+      "grad_norm": 1.2071269750595093,
+      "learning_rate": 1.913209655642118e-06,
+      "loss": 0.3151,
+      "step": 790
+    },
+    {
+      "epoch": 2.5571658615136874,
+      "grad_norm": 1.2534750699996948,
+      "learning_rate": 1.7853105007502546e-06,
+      "loss": 0.2782,
+      "step": 795
+    },
+    {
+      "epoch": 2.573268921095008,
+      "grad_norm": 1.161564588546753,
+      "learning_rate": 1.6615648810815442e-06,
+      "loss": 0.2621,
+      "step": 800
+    },
+    {
+      "epoch": 2.5893719806763285,
+      "grad_norm": 1.2011932134628296,
+      "learning_rate": 1.5420116913667347e-06,
+      "loss": 0.2694,
+      "step": 805
+    },
+    {
+      "epoch": 2.605475040257649,
+      "grad_norm": 1.049499750137329,
+      "learning_rate": 1.4266885086056163e-06,
+      "loss": 0.2467,
+      "step": 810
+    },
+    {
+      "epoch": 2.6215780998389695,
+      "grad_norm": 1.4034699201583862,
+      "learning_rate": 1.3156315802561124e-06,
+      "loss": 0.23,
+      "step": 815
+    },
+    {
+      "epoch": 2.63768115942029,
+      "grad_norm": 1.231988787651062,
+      "learning_rate": 1.2088758128412802e-06,
+      "loss": 0.2798,
+      "step": 820
+    },
+    {
+      "epoch": 2.6537842190016105,
+      "grad_norm": 1.1785434484481812,
+      "learning_rate": 1.1064547609777682e-06,
+      "loss": 0.2397,
+      "step": 825
+    },
+    {
+      "epoch": 2.6698872785829306,
+      "grad_norm": 1.2145205736160278,
+      "learning_rate": 1.0084006168291926e-06,
+      "loss": 0.2585,
+      "step": 830
+    },
+    {
+      "epoch": 2.685990338164251,
+      "grad_norm": 1.1762062311172485,
+      "learning_rate": 9.14744199987752e-07,
+      "loss": 0.2784,
+      "step": 835
+    },
+    {
+      "epoch": 2.7020933977455717,
+      "grad_norm": 1.2627893686294556,
+      "learning_rate": 8.255149477872837e-07,
+      "loss": 0.2948,
+      "step": 840
+    },
+    {
+      "epoch": 2.718196457326892,
+      "grad_norm": 1.034361481666565,
+      "learning_rate": 7.407409060507264e-07,
+      "loss": 0.293,
+      "step": 845
+    },
+    {
+      "epoch": 2.7342995169082127,
+      "grad_norm": 1.165287733078003,
+      "learning_rate": 6.604487202750026e-07,
+      "loss": 0.3093,
+      "step": 850
+    },
+    {
+      "epoch": 2.750402576489533,
+      "grad_norm": 1.2327711582183838,
+      "learning_rate": 5.846636272560119e-07,
+      "loss": 0.2453,
+      "step": 855
+    },
+    {
+      "epoch": 2.7665056360708533,
+      "grad_norm": 1.0674206018447876,
+      "learning_rate": 5.134094471564033e-07,
+      "loss": 0.2565,
+      "step": 860
+    },
+    {
+      "epoch": 2.782608695652174,
+      "grad_norm": 1.3510218858718872,
+      "learning_rate": 4.4670857601861406e-07,
+      "loss": 0.2881,
+      "step": 865
+    },
+    {
+      "epoch": 2.7987117552334944,
+      "grad_norm": 1.191631555557251,
+      "learning_rate": 3.8458197872553226e-07,
+      "loss": 0.2695,
+      "step": 870
+    },
+    {
+      "epoch": 2.814814814814815,
+      "grad_norm": 1.2559245824813843,
+      "learning_rate": 3.2704918241096615e-07,
+      "loss": 0.2938,
+      "step": 875
+    },
+    {
+      "epoch": 2.8309178743961354,
+      "grad_norm": 1.1726124286651611,
+      "learning_rate": 2.741282703220471e-07,
+      "loss": 0.2655,
+      "step": 880
+    },
+    {
+      "epoch": 2.847020933977456,
+      "grad_norm": 1.0560024976730347,
+      "learning_rate": 2.2583587613544622e-07,
+      "loss": 0.2513,
+      "step": 885
+    },
+    {
+      "epoch": 2.863123993558776,
+      "grad_norm": 1.1970568895339966,
+      "learning_rate": 1.8218717872920622e-07,
+      "loss": 0.3052,
+      "step": 890
+    },
+    {
+      "epoch": 2.8792270531400965,
+      "grad_norm": 1.1824020147323608,
+      "learning_rate": 1.4319589741183303e-07,
+      "loss": 0.2742,
+      "step": 895
+    },
+    {
+      "epoch": 2.895330112721417,
+      "grad_norm": 1.2654105424880981,
+      "learning_rate": 1.0887428761016837e-07,
+      "loss": 0.276,
+      "step": 900
+    },
+    {
+      "epoch": 2.9114331723027376,
+      "grad_norm": 1.1142938137054443,
+      "learning_rate": 7.923313701735102e-08,
+      "loss": 0.2868,
+      "step": 905
+    },
+    {
+      "epoch": 2.927536231884058,
+      "grad_norm": 1.1351135969161987,
+      "learning_rate": 5.428176220211245e-08,
+      "loss": 0.2819,
+      "step": 910
+    },
+    {
+      "epoch": 2.943639291465378,
+      "grad_norm": 1.2691493034362793,
+      "learning_rate": 3.402800568048259e-08,
+      "loss": 0.2699,
+      "step": 915
+    },
+    {
+      "epoch": 2.9597423510466987,
+      "grad_norm": 1.2068809270858765,
+      "learning_rate": 1.8478233450774927e-08,
+      "loss": 0.2586,
+      "step": 920
+    },
+    {
+      "epoch": 2.975845410628019,
+      "grad_norm": 1.1773256063461304,
+      "learning_rate": 7.637332992688762e-09,
+      "loss": 0.2667,
+      "step": 925
+    },
+    {
+      "epoch": 2.9919484702093397,
+      "grad_norm": 1.0417470932006836,
+      "learning_rate": 1.5087117311179955e-09,
+      "loss": 0.2579,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "step": 933,
+      "total_flos": 1.3255839981219348e+18,
+      "train_loss": 0.5541779832696864,
+      "train_runtime": 632.7035,
+      "train_samples_per_second": 47.041,
+      "train_steps_per_second": 1.475
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 933,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3255839981219348e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

28_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88ece9781653ad03e17c665196ea2db35fcadece1c1c018c447774c8006f6592
+size 8145

28_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff