Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

52_128_e3_3e-5/.gitattributes +35 -0
52_128_e3_3e-5/README.md +63 -0
52_128_e3_3e-5/adapter_config.json +39 -0
52_128_e3_3e-5/adapter_model.safetensors +3 -0
52_128_e3_3e-5/all_results.json +9 -0
52_128_e3_3e-5/config.json +32 -0
52_128_e3_3e-5/merges.txt +0 -0
52_128_e3_3e-5/special_tokens_map.json +45 -0
52_128_e3_3e-5/tokenizer.json +0 -0
52_128_e3_3e-5/tokenizer_config.json +188 -0
52_128_e3_3e-5/train_results.json +9 -0
52_128_e3_3e-5/trainer_state.json +1555 -0
52_128_e3_3e-5/training_args.bin +3 -0
52_128_e3_3e-5/vocab.json +0 -0

52_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

52_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 52_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 52_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

52_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "up_proj",
+    "o_proj",
+    "down_proj",
+    "k_proj",
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

52_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfad912095da731d0cd33c50ac5afe24c879703fec24a9b182bc50c36ce42722
+size 791751704

52_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.6331277400077763e+18,
+    "train_loss": 0.5425666385190089,
+    "train_runtime": 744.8452,
+    "train_samples": 11547,
+    "train_samples_per_second": 46.508,
+    "train_steps_per_second": 1.454
+}

52_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

52_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

52_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

52_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

52_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

52_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.6331277400077763e+18,
+    "train_loss": 0.5425666385190089,
+    "train_runtime": 744.8452,
+    "train_samples": 11547,
+    "train_samples_per_second": 46.508,
+    "train_steps_per_second": 1.454
+}

52_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1555 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1083,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013850415512465374,
+      "grad_norm": 1.166269302368164,
+      "learning_rate": 2.181818181818182e-06,
+      "loss": 1.3121,
+      "step": 5
+    },
+    {
+      "epoch": 0.027700831024930747,
+      "grad_norm": 0.728911817073822,
+      "learning_rate": 4.90909090909091e-06,
+      "loss": 1.289,
+      "step": 10
+    },
+    {
+      "epoch": 0.04155124653739612,
+      "grad_norm": 0.7744038105010986,
+      "learning_rate": 7.636363636363636e-06,
+      "loss": 1.3236,
+      "step": 15
+    },
+    {
+      "epoch": 0.055401662049861494,
+      "grad_norm": 0.6141604781150818,
+      "learning_rate": 1.0363636363636364e-05,
+      "loss": 1.2626,
+      "step": 20
+    },
+    {
+      "epoch": 0.06925207756232687,
+      "grad_norm": 0.5221774578094482,
+      "learning_rate": 1.309090909090909e-05,
+      "loss": 1.2264,
+      "step": 25
+    },
+    {
+      "epoch": 0.08310249307479224,
+      "grad_norm": 0.48951759934425354,
+      "learning_rate": 1.5818181818181818e-05,
+      "loss": 1.218,
+      "step": 30
+    },
+    {
+      "epoch": 0.09695290858725762,
+      "grad_norm": 0.4979149401187897,
+      "learning_rate": 1.8545454545454545e-05,
+      "loss": 1.2085,
+      "step": 35
+    },
+    {
+      "epoch": 0.11080332409972299,
+      "grad_norm": 0.5113949775695801,
+      "learning_rate": 2.1272727272727273e-05,
+      "loss": 1.201,
+      "step": 40
+    },
+    {
+      "epoch": 0.12465373961218837,
+      "grad_norm": 0.5784400105476379,
+      "learning_rate": 2.4e-05,
+      "loss": 1.1388,
+      "step": 45
+    },
+    {
+      "epoch": 0.13850415512465375,
+      "grad_norm": 0.4366542398929596,
+      "learning_rate": 2.6727272727272728e-05,
+      "loss": 1.1923,
+      "step": 50
+    },
+    {
+      "epoch": 0.1523545706371191,
+      "grad_norm": 0.4140300750732422,
+      "learning_rate": 2.9454545454545456e-05,
+      "loss": 1.1626,
+      "step": 55
+    },
+    {
+      "epoch": 0.16620498614958448,
+      "grad_norm": 0.47412222623825073,
+      "learning_rate": 2.999887930004599e-05,
+      "loss": 1.1519,
+      "step": 60
+    },
+    {
+      "epoch": 0.18005540166204986,
+      "grad_norm": 0.5043430328369141,
+      "learning_rate": 2.9994326743489698e-05,
+      "loss": 1.1572,
+      "step": 65
+    },
+    {
+      "epoch": 0.19390581717451524,
+      "grad_norm": 0.4562720060348511,
+      "learning_rate": 2.998627334868592e-05,
+      "loss": 1.0982,
+      "step": 70
+    },
+    {
+      "epoch": 0.2077562326869806,
+      "grad_norm": 0.49329838156700134,
+      "learning_rate": 2.997472099592132e-05,
+      "loss": 1.1116,
+      "step": 75
+    },
+    {
+      "epoch": 0.22160664819944598,
+      "grad_norm": 0.6003950834274292,
+      "learning_rate": 2.9959672382410582e-05,
+      "loss": 1.0936,
+      "step": 80
+    },
+    {
+      "epoch": 0.23545706371191136,
+      "grad_norm": 0.4754634499549866,
+      "learning_rate": 2.9941131021666705e-05,
+      "loss": 1.1217,
+      "step": 85
+    },
+    {
+      "epoch": 0.24930747922437674,
+      "grad_norm": 0.4730839133262634,
+      "learning_rate": 2.991910124268063e-05,
+      "loss": 1.0754,
+      "step": 90
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 0.5307362079620361,
+      "learning_rate": 2.989358818891057e-05,
+      "loss": 1.0334,
+      "step": 95
+    },
+    {
+      "epoch": 0.2770083102493075,
+      "grad_norm": 0.6318102478981018,
+      "learning_rate": 2.9864597817081083e-05,
+      "loss": 1.0595,
+      "step": 100
+    },
+    {
+      "epoch": 0.29085872576177285,
+      "grad_norm": 0.5957023501396179,
+      "learning_rate": 2.983213689579234e-05,
+      "loss": 1.0472,
+      "step": 105
+    },
+    {
+      "epoch": 0.3047091412742382,
+      "grad_norm": 0.6093164086341858,
+      "learning_rate": 2.9796213003939798e-05,
+      "loss": 1.053,
+      "step": 110
+    },
+    {
+      "epoch": 0.3185595567867036,
+      "grad_norm": 0.8423909544944763,
+      "learning_rate": 2.975683452894469e-05,
+      "loss": 0.9818,
+      "step": 115
+    },
+    {
+      "epoch": 0.33240997229916897,
+      "grad_norm": 0.6107218861579895,
+      "learning_rate": 2.9714010664795768e-05,
+      "loss": 0.9909,
+      "step": 120
+    },
+    {
+      "epoch": 0.3462603878116344,
+      "grad_norm": 0.6231603026390076,
+      "learning_rate": 2.9667751409902703e-05,
+      "loss": 0.9985,
+      "step": 125
+    },
+    {
+      "epoch": 0.3601108033240997,
+      "grad_norm": 0.7548014521598816,
+      "learning_rate": 2.9618067564761684e-05,
+      "loss": 1.0456,
+      "step": 130
+    },
+    {
+      "epoch": 0.3739612188365651,
+      "grad_norm": 0.6734372973442078,
+      "learning_rate": 2.9564970729433746e-05,
+      "loss": 1.0237,
+      "step": 135
+    },
+    {
+      "epoch": 0.3878116343490305,
+      "grad_norm": 0.666469156742096,
+      "learning_rate": 2.95084733008364e-05,
+      "loss": 0.9747,
+      "step": 140
+    },
+    {
+      "epoch": 0.40166204986149584,
+      "grad_norm": 0.6276183128356934,
+      "learning_rate": 2.9448588469849266e-05,
+      "loss": 0.9402,
+      "step": 145
+    },
+    {
+      "epoch": 0.4155124653739612,
+      "grad_norm": 0.665331244468689,
+      "learning_rate": 2.9385330218234265e-05,
+      "loss": 0.9701,
+      "step": 150
+    },
+    {
+      "epoch": 0.4293628808864266,
+      "grad_norm": 0.7103444933891296,
+      "learning_rate": 2.9318713315371213e-05,
+      "loss": 0.906,
+      "step": 155
+    },
+    {
+      "epoch": 0.44321329639889195,
+      "grad_norm": 0.6646014451980591,
+      "learning_rate": 2.9248753314809497e-05,
+      "loss": 0.8974,
+      "step": 160
+    },
+    {
+      "epoch": 0.45706371191135736,
+      "grad_norm": 0.686049222946167,
+      "learning_rate": 2.9175466550636657e-05,
+      "loss": 0.9274,
+      "step": 165
+    },
+    {
+      "epoch": 0.4709141274238227,
+      "grad_norm": 0.6719313263893127,
+      "learning_rate": 2.909887013366477e-05,
+      "loss": 0.9203,
+      "step": 170
+    },
+    {
+      "epoch": 0.48476454293628807,
+      "grad_norm": 0.7174488306045532,
+      "learning_rate": 2.9018981947435438e-05,
+      "loss": 0.8434,
+      "step": 175
+    },
+    {
+      "epoch": 0.4986149584487535,
+      "grad_norm": 0.809901773929596,
+      "learning_rate": 2.8935820644044398e-05,
+      "loss": 0.8728,
+      "step": 180
+    },
+    {
+      "epoch": 0.5124653739612188,
+      "grad_norm": 0.7946971654891968,
+      "learning_rate": 2.8849405639786668e-05,
+      "loss": 0.8738,
+      "step": 185
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.7351150512695312,
+      "learning_rate": 2.8759757110623273e-05,
+      "loss": 0.8389,
+      "step": 190
+    },
+    {
+      "epoch": 0.5401662049861495,
+      "grad_norm": 0.8036453723907471,
+      "learning_rate": 2.8666895987470625e-05,
+      "loss": 0.8268,
+      "step": 195
+    },
+    {
+      "epoch": 0.554016620498615,
+      "grad_norm": 0.7742027640342712,
+      "learning_rate": 2.8570843951313625e-05,
+      "loss": 0.8723,
+      "step": 200
+    },
+    {
+      "epoch": 0.5678670360110804,
+      "grad_norm": 0.8550625443458557,
+      "learning_rate": 2.8471623428143625e-05,
+      "loss": 0.8258,
+      "step": 205
+    },
+    {
+      "epoch": 0.5817174515235457,
+      "grad_norm": 0.7565826773643494,
+      "learning_rate": 2.836925758372247e-05,
+      "loss": 0.8064,
+      "step": 210
+    },
+    {
+      "epoch": 0.5955678670360111,
+      "grad_norm": 0.8059237003326416,
+      "learning_rate": 2.8263770318173835e-05,
+      "loss": 0.7983,
+      "step": 215
+    },
+    {
+      "epoch": 0.6094182825484764,
+      "grad_norm": 0.837619423866272,
+      "learning_rate": 2.815518626040304e-05,
+      "loss": 0.8082,
+      "step": 220
+    },
+    {
+      "epoch": 0.6232686980609419,
+      "grad_norm": 0.7517977356910706,
+      "learning_rate": 2.804353076234679e-05,
+      "loss": 0.7869,
+      "step": 225
+    },
+    {
+      "epoch": 0.6371191135734072,
+      "grad_norm": 0.8017987608909607,
+      "learning_rate": 2.792882989305405e-05,
+      "loss": 0.8278,
+      "step": 230
+    },
+    {
+      "epoch": 0.6509695290858726,
+      "grad_norm": 0.8203588128089905,
+      "learning_rate": 2.7811110432599526e-05,
+      "loss": 0.7281,
+      "step": 235
+    },
+    {
+      "epoch": 0.6648199445983379,
+      "grad_norm": 0.808635413646698,
+      "learning_rate": 2.7690399865831098e-05,
+      "loss": 0.8071,
+      "step": 240
+    },
+    {
+      "epoch": 0.6786703601108033,
+      "grad_norm": 0.9712532758712769,
+      "learning_rate": 2.7566726375952737e-05,
+      "loss": 0.7496,
+      "step": 245
+    },
+    {
+      "epoch": 0.6925207756232687,
+      "grad_norm": 0.8443168997764587,
+      "learning_rate": 2.7440118837944356e-05,
+      "loss": 0.7302,
+      "step": 250
+    },
+    {
+      "epoch": 0.7063711911357341,
+      "grad_norm": 0.8988631367683411,
+      "learning_rate": 2.7310606811820153e-05,
+      "loss": 0.7562,
+      "step": 255
+    },
+    {
+      "epoch": 0.7202216066481995,
+      "grad_norm": 0.98554927110672,
+      "learning_rate": 2.7178220535727026e-05,
+      "loss": 0.76,
+      "step": 260
+    },
+    {
+      "epoch": 0.7340720221606648,
+      "grad_norm": 1.0017904043197632,
+      "learning_rate": 2.7042990918884612e-05,
+      "loss": 0.6883,
+      "step": 265
+    },
+    {
+      "epoch": 0.7479224376731302,
+      "grad_norm": 0.9568535089492798,
+      "learning_rate": 2.6904949534368724e-05,
+      "loss": 0.7097,
+      "step": 270
+    },
+    {
+      "epoch": 0.7617728531855956,
+      "grad_norm": 0.9097768068313599,
+      "learning_rate": 2.6764128611739704e-05,
+      "loss": 0.7479,
+      "step": 275
+    },
+    {
+      "epoch": 0.775623268698061,
+      "grad_norm": 0.9508199095726013,
+      "learning_rate": 2.662056102951756e-05,
+      "loss": 0.7171,
+      "step": 280
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 0.8845431804656982,
+      "learning_rate": 2.6474280307505595e-05,
+      "loss": 0.6851,
+      "step": 285
+    },
+    {
+      "epoch": 0.8033240997229917,
+      "grad_norm": 0.9472852945327759,
+      "learning_rate": 2.6325320598964256e-05,
+      "loss": 0.7154,
+      "step": 290
+    },
+    {
+      "epoch": 0.817174515235457,
+      "grad_norm": 0.9073575139045715,
+      "learning_rate": 2.617371668263712e-05,
+      "loss": 0.7731,
+      "step": 295
+    },
+    {
+      "epoch": 0.8310249307479224,
+      "grad_norm": 0.913396418094635,
+      "learning_rate": 2.6019503954630847e-05,
+      "loss": 0.7369,
+      "step": 300
+    },
+    {
+      "epoch": 0.8448753462603878,
+      "grad_norm": 1.0508403778076172,
+      "learning_rate": 2.5862718420150993e-05,
+      "loss": 0.6654,
+      "step": 305
+    },
+    {
+      "epoch": 0.8587257617728532,
+      "grad_norm": 0.9580985307693481,
+      "learning_rate": 2.570339668509558e-05,
+      "loss": 0.7042,
+      "step": 310
+    },
+    {
+      "epoch": 0.8725761772853186,
+      "grad_norm": 0.9638500213623047,
+      "learning_rate": 2.5541575947508464e-05,
+      "loss": 0.712,
+      "step": 315
+    },
+    {
+      "epoch": 0.8864265927977839,
+      "grad_norm": 1.0040977001190186,
+      "learning_rate": 2.5377293988894407e-05,
+      "loss": 0.7084,
+      "step": 320
+    },
+    {
+      "epoch": 0.9002770083102493,
+      "grad_norm": 0.9954433441162109,
+      "learning_rate": 2.5210589165397978e-05,
+      "loss": 0.6478,
+      "step": 325
+    },
+    {
+      "epoch": 0.9141274238227147,
+      "grad_norm": 1.0021045207977295,
+      "learning_rate": 2.5041500398848205e-05,
+      "loss": 0.6425,
+      "step": 330
+    },
+    {
+      "epoch": 0.9279778393351801,
+      "grad_norm": 0.9799656867980957,
+      "learning_rate": 2.487006716767126e-05,
+      "loss": 0.6123,
+      "step": 335
+    },
+    {
+      "epoch": 0.9418282548476454,
+      "grad_norm": 0.9448451399803162,
+      "learning_rate": 2.469632949767309e-05,
+      "loss": 0.7064,
+      "step": 340
+    },
+    {
+      "epoch": 0.9556786703601108,
+      "grad_norm": 1.0443326234817505,
+      "learning_rate": 2.4520327952694307e-05,
+      "loss": 0.6431,
+      "step": 345
+    },
+    {
+      "epoch": 0.9695290858725761,
+      "grad_norm": 0.9295867681503296,
+      "learning_rate": 2.4342103625139453e-05,
+      "loss": 0.6879,
+      "step": 350
+    },
+    {
+      "epoch": 0.9833795013850416,
+      "grad_norm": 0.9872089624404907,
+      "learning_rate": 2.4161698126382822e-05,
+      "loss": 0.6365,
+      "step": 355
+    },
+    {
+      "epoch": 0.997229916897507,
+      "grad_norm": 1.1937918663024902,
+      "learning_rate": 2.397915357705317e-05,
+      "loss": 0.6295,
+      "step": 360
+    },
+    {
+      "epoch": 1.0110803324099722,
+      "grad_norm": 0.993539035320282,
+      "learning_rate": 2.379451259719947e-05,
+      "loss": 0.6167,
+      "step": 365
+    },
+    {
+      "epoch": 1.0249307479224377,
+      "grad_norm": 1.0144009590148926,
+      "learning_rate": 2.36078182963401e-05,
+      "loss": 0.5869,
+      "step": 370
+    },
+    {
+      "epoch": 1.0387811634349031,
+      "grad_norm": 0.9811075925827026,
+      "learning_rate": 2.341911426339774e-05,
+      "loss": 0.5884,
+      "step": 375
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 1.0487927198410034,
+      "learning_rate": 2.3228444556522334e-05,
+      "loss": 0.5478,
+      "step": 380
+    },
+    {
+      "epoch": 1.0664819944598338,
+      "grad_norm": 1.0601048469543457,
+      "learning_rate": 2.3035853692804503e-05,
+      "loss": 0.6091,
+      "step": 385
+    },
+    {
+      "epoch": 1.080332409972299,
+      "grad_norm": 1.0482460260391235,
+      "learning_rate": 2.2841386637881806e-05,
+      "loss": 0.5331,
+      "step": 390
+    },
+    {
+      "epoch": 1.0941828254847645,
+      "grad_norm": 1.0302704572677612,
+      "learning_rate": 2.2645088795440284e-05,
+      "loss": 0.5962,
+      "step": 395
+    },
+    {
+      "epoch": 1.10803324099723,
+      "grad_norm": 1.0893882513046265,
+      "learning_rate": 2.24470059966137e-05,
+      "loss": 0.5262,
+      "step": 400
+    },
+    {
+      "epoch": 1.1218836565096952,
+      "grad_norm": 1.0055537223815918,
+      "learning_rate": 2.224718448928301e-05,
+      "loss": 0.5527,
+      "step": 405
+    },
+    {
+      "epoch": 1.1357340720221607,
+      "grad_norm": 1.0064983367919922,
+      "learning_rate": 2.2045670927278534e-05,
+      "loss": 0.4985,
+      "step": 410
+    },
+    {
+      "epoch": 1.149584487534626,
+      "grad_norm": 1.1342278718948364,
+      "learning_rate": 2.184251235948731e-05,
+      "loss": 0.5173,
+      "step": 415
+    },
+    {
+      "epoch": 1.1634349030470914,
+      "grad_norm": 1.0559486150741577,
+      "learning_rate": 2.1637756218868253e-05,
+      "loss": 0.5065,
+      "step": 420
+    },
+    {
+      "epoch": 1.1772853185595569,
+      "grad_norm": 1.028171420097351,
+      "learning_rate": 2.1431450311377632e-05,
+      "loss": 0.5465,
+      "step": 425
+    },
+    {
+      "epoch": 1.1911357340720221,
+      "grad_norm": 1.0894719362258911,
+      "learning_rate": 2.1223642804807436e-05,
+      "loss": 0.5073,
+      "step": 430
+    },
+    {
+      "epoch": 1.2049861495844876,
+      "grad_norm": 1.0107749700546265,
+      "learning_rate": 2.1014382217539285e-05,
+      "loss": 0.4693,
+      "step": 435
+    },
+    {
+      "epoch": 1.2188365650969528,
+      "grad_norm": 1.0477194786071777,
+      "learning_rate": 2.080371740721649e-05,
+      "loss": 0.5139,
+      "step": 440
+    },
+    {
+      "epoch": 1.2326869806094183,
+      "grad_norm": 1.1310961246490479,
+      "learning_rate": 2.059169755933686e-05,
+      "loss": 0.4949,
+      "step": 445
+    },
+    {
+      "epoch": 1.2465373961218837,
+      "grad_norm": 1.079956293106079,
+      "learning_rate": 2.0378372175769038e-05,
+      "loss": 0.5071,
+      "step": 450
+    },
+    {
+      "epoch": 1.260387811634349,
+      "grad_norm": 1.1665548086166382,
+      "learning_rate": 2.0163791063194886e-05,
+      "loss": 0.4989,
+      "step": 455
+    },
+    {
+      "epoch": 1.2742382271468145,
+      "grad_norm": 1.0178254842758179,
+      "learning_rate": 1.994800432148077e-05,
+      "loss": 0.4976,
+      "step": 460
+    },
+    {
+      "epoch": 1.2880886426592797,
+      "grad_norm": 1.1011598110198975,
+      "learning_rate": 1.9731062331980365e-05,
+      "loss": 0.4835,
+      "step": 465
+    },
+    {
+      "epoch": 1.3019390581717452,
+      "grad_norm": 1.0449156761169434,
+      "learning_rate": 1.9513015745771726e-05,
+      "loss": 0.4454,
+      "step": 470
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 1.0050218105316162,
+      "learning_rate": 1.9293915471831415e-05,
+      "loss": 0.4791,
+      "step": 475
+    },
+    {
+      "epoch": 1.3296398891966759,
+      "grad_norm": 0.9669800996780396,
+      "learning_rate": 1.9073812665148393e-05,
+      "loss": 0.4768,
+      "step": 480
+    },
+    {
+      "epoch": 1.3434903047091413,
+      "grad_norm": 1.0121712684631348,
+      "learning_rate": 1.8852758714780477e-05,
+      "loss": 0.5003,
+      "step": 485
+    },
+    {
+      "epoch": 1.3573407202216066,
+      "grad_norm": 1.2069580554962158,
+      "learning_rate": 1.863080523185617e-05,
+      "loss": 0.4958,
+      "step": 490
+    },
+    {
+      "epoch": 1.371191135734072,
+      "grad_norm": 1.0648419857025146,
+      "learning_rate": 1.8408004037524584e-05,
+      "loss": 0.475,
+      "step": 495
+    },
+    {
+      "epoch": 1.3850415512465375,
+      "grad_norm": 1.131237268447876,
+      "learning_rate": 1.8184407150856406e-05,
+      "loss": 0.458,
+      "step": 500
+    },
+    {
+      "epoch": 1.3988919667590027,
+      "grad_norm": 1.0657203197479248,
+      "learning_rate": 1.7960066776698592e-05,
+      "loss": 0.3788,
+      "step": 505
+    },
+    {
+      "epoch": 1.4127423822714682,
+      "grad_norm": 1.1692873239517212,
+      "learning_rate": 1.773503529348572e-05,
+      "loss": 0.4737,
+      "step": 510
+    },
+    {
+      "epoch": 1.4265927977839334,
+      "grad_norm": 1.0813369750976562,
+      "learning_rate": 1.7509365241010787e-05,
+      "loss": 0.4659,
+      "step": 515
+    },
+    {
+      "epoch": 1.440443213296399,
+      "grad_norm": 1.3035024404525757,
+      "learning_rate": 1.7283109308158364e-05,
+      "loss": 0.4317,
+      "step": 520
+    },
+    {
+      "epoch": 1.4542936288088644,
+      "grad_norm": 1.1406413316726685,
+      "learning_rate": 1.7056320320602925e-05,
+      "loss": 0.4342,
+      "step": 525
+    },
+    {
+      "epoch": 1.4681440443213296,
+      "grad_norm": 1.104560136795044,
+      "learning_rate": 1.6829051228475236e-05,
+      "loss": 0.3989,
+      "step": 530
+    },
+    {
+      "epoch": 1.481994459833795,
+      "grad_norm": 1.1475344896316528,
+      "learning_rate": 1.660135509399967e-05,
+      "loss": 0.4529,
+      "step": 535
+    },
+    {
+      "epoch": 1.4958448753462603,
+      "grad_norm": 1.0217986106872559,
+      "learning_rate": 1.6373285079105413e-05,
+      "loss": 0.4571,
+      "step": 540
+    },
+    {
+      "epoch": 1.5096952908587258,
+      "grad_norm": 1.0224664211273193,
+      "learning_rate": 1.6144894433014314e-05,
+      "loss": 0.4263,
+      "step": 545
+    },
+    {
+      "epoch": 1.5235457063711912,
+      "grad_norm": 1.038535475730896,
+      "learning_rate": 1.59162364798084e-05,
+      "loss": 0.449,
+      "step": 550
+    },
+    {
+      "epoch": 1.5373961218836565,
+      "grad_norm": 1.2136776447296143,
+      "learning_rate": 1.5687364605979893e-05,
+      "loss": 0.4287,
+      "step": 555
+    },
+    {
+      "epoch": 1.5512465373961217,
+      "grad_norm": 1.097532868385315,
+      "learning_rate": 1.545833224796668e-05,
+      "loss": 0.4351,
+      "step": 560
+    },
+    {
+      "epoch": 1.5650969529085872,
+      "grad_norm": 1.184402585029602,
+      "learning_rate": 1.522919287967611e-05,
+      "loss": 0.4045,
+      "step": 565
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 1.0747792720794678,
+      "learning_rate": 1.5e-05,
+      "loss": 0.389,
+      "step": 570
+    },
+    {
+      "epoch": 1.5927977839335181,
+      "grad_norm": 1.2019383907318115,
+      "learning_rate": 1.4770807120323892e-05,
+      "loss": 0.3807,
+      "step": 575
+    },
+    {
+      "epoch": 1.6066481994459834,
+      "grad_norm": 1.1164624691009521,
+      "learning_rate": 1.4541667752033318e-05,
+      "loss": 0.4311,
+      "step": 580
+    },
+    {
+      "epoch": 1.6204986149584486,
+      "grad_norm": 1.2304741144180298,
+      "learning_rate": 1.4312635394020115e-05,
+      "loss": 0.3815,
+      "step": 585
+    },
+    {
+      "epoch": 1.634349030470914,
+      "grad_norm": 1.2289693355560303,
+      "learning_rate": 1.4083763520191603e-05,
+      "loss": 0.4074,
+      "step": 590
+    },
+    {
+      "epoch": 1.6481994459833795,
+      "grad_norm": 1.1576597690582275,
+      "learning_rate": 1.3855105566985689e-05,
+      "loss": 0.4274,
+      "step": 595
+    },
+    {
+      "epoch": 1.662049861495845,
+      "grad_norm": 1.0766600370407104,
+      "learning_rate": 1.3626714920894587e-05,
+      "loss": 0.444,
+      "step": 600
+    },
+    {
+      "epoch": 1.6759002770083102,
+      "grad_norm": 1.1293400526046753,
+      "learning_rate": 1.3398644906000333e-05,
+      "loss": 0.4366,
+      "step": 605
+    },
+    {
+      "epoch": 1.6897506925207755,
+      "grad_norm": 1.1147147417068481,
+      "learning_rate": 1.317094877152477e-05,
+      "loss": 0.3835,
+      "step": 610
+    },
+    {
+      "epoch": 1.703601108033241,
+      "grad_norm": 1.1310534477233887,
+      "learning_rate": 1.2943679679397079e-05,
+      "loss": 0.3518,
+      "step": 615
+    },
+    {
+      "epoch": 1.7174515235457064,
+      "grad_norm": 1.2087517976760864,
+      "learning_rate": 1.2716890691841635e-05,
+      "loss": 0.4468,
+      "step": 620
+    },
+    {
+      "epoch": 1.7313019390581719,
+      "grad_norm": 1.2036828994750977,
+      "learning_rate": 1.2490634758989217e-05,
+      "loss": 0.3958,
+      "step": 625
+    },
+    {
+      "epoch": 1.745152354570637,
+      "grad_norm": 1.1396667957305908,
+      "learning_rate": 1.2264964706514284e-05,
+      "loss": 0.3643,
+      "step": 630
+    },
+    {
+      "epoch": 1.7590027700831024,
+      "grad_norm": 1.2344303131103516,
+      "learning_rate": 1.203993322330141e-05,
+      "loss": 0.4234,
+      "step": 635
+    },
+    {
+      "epoch": 1.7728531855955678,
+      "grad_norm": 1.2577507495880127,
+      "learning_rate": 1.1815592849143598e-05,
+      "loss": 0.3717,
+      "step": 640
+    },
+    {
+      "epoch": 1.7867036011080333,
+      "grad_norm": 1.1713330745697021,
+      "learning_rate": 1.159199596247542e-05,
+      "loss": 0.3611,
+      "step": 645
+    },
+    {
+      "epoch": 1.8005540166204987,
+      "grad_norm": 1.1130380630493164,
+      "learning_rate": 1.1369194768143839e-05,
+      "loss": 0.3781,
+      "step": 650
+    },
+    {
+      "epoch": 1.814404432132964,
+      "grad_norm": 1.1080358028411865,
+      "learning_rate": 1.114724128521952e-05,
+      "loss": 0.368,
+      "step": 655
+    },
+    {
+      "epoch": 1.8282548476454292,
+      "grad_norm": 1.1815565824508667,
+      "learning_rate": 1.092618733485161e-05,
+      "loss": 0.378,
+      "step": 660
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 1.0377371311187744,
+      "learning_rate": 1.0706084528168589e-05,
+      "loss": 0.3885,
+      "step": 665
+    },
+    {
+      "epoch": 1.8559556786703602,
+      "grad_norm": 1.0419414043426514,
+      "learning_rate": 1.0486984254228275e-05,
+      "loss": 0.3978,
+      "step": 670
+    },
+    {
+      "epoch": 1.8698060941828256,
+      "grad_norm": 1.169210433959961,
+      "learning_rate": 1.0268937668019636e-05,
+      "loss": 0.4224,
+      "step": 675
+    },
+    {
+      "epoch": 1.8836565096952909,
+      "grad_norm": 1.2426797151565552,
+      "learning_rate": 1.0051995678519233e-05,
+      "loss": 0.3717,
+      "step": 680
+    },
+    {
+      "epoch": 1.897506925207756,
+      "grad_norm": 1.2293890714645386,
+      "learning_rate": 9.836208936805113e-06,
+      "loss": 0.3771,
+      "step": 685
+    },
+    {
+      "epoch": 1.9113573407202216,
+      "grad_norm": 1.1375775337219238,
+      "learning_rate": 9.621627824230963e-06,
+      "loss": 0.3391,
+      "step": 690
+    },
+    {
+      "epoch": 1.925207756232687,
+      "grad_norm": 1.0823240280151367,
+      "learning_rate": 9.408302440663143e-06,
+      "loss": 0.3621,
+      "step": 695
+    },
+    {
+      "epoch": 1.9390581717451525,
+      "grad_norm": 1.1625359058380127,
+      "learning_rate": 9.196282592783514e-06,
+      "loss": 0.3904,
+      "step": 700
+    },
+    {
+      "epoch": 1.9529085872576177,
+      "grad_norm": 1.3116464614868164,
+      "learning_rate": 8.985617782460714e-06,
+      "loss": 0.3387,
+      "step": 705
+    },
+    {
+      "epoch": 1.966759002770083,
+      "grad_norm": 1.2245113849639893,
+      "learning_rate": 8.776357195192566e-06,
+      "loss": 0.3582,
+      "step": 710
+    },
+    {
+      "epoch": 1.9806094182825484,
+      "grad_norm": 1.1081751585006714,
+      "learning_rate": 8.568549688622365e-06,
+      "loss": 0.3872,
+      "step": 715
+    },
+    {
+      "epoch": 1.994459833795014,
+      "grad_norm": 1.2392699718475342,
+      "learning_rate": 8.362243781131748e-06,
+      "loss": 0.3734,
+      "step": 720
+    },
+    {
+      "epoch": 2.0083102493074794,
+      "grad_norm": 1.1349526643753052,
+      "learning_rate": 8.157487640512692e-06,
+      "loss": 0.3133,
+      "step": 725
+    },
+    {
+      "epoch": 2.0221606648199444,
+      "grad_norm": 1.3567701578140259,
+      "learning_rate": 7.954329072721467e-06,
+      "loss": 0.2727,
+      "step": 730
+    },
+    {
+      "epoch": 2.03601108033241,
+      "grad_norm": 1.0499221086502075,
+      "learning_rate": 7.752815510716992e-06,
+      "loss": 0.2877,
+      "step": 735
+    },
+    {
+      "epoch": 2.0498614958448753,
+      "grad_norm": 1.466962218284607,
+      "learning_rate": 7.552994003386302e-06,
+      "loss": 0.3138,
+      "step": 740
+    },
+    {
+      "epoch": 2.063711911357341,
+      "grad_norm": 1.1422373056411743,
+      "learning_rate": 7.354911204559719e-06,
+      "loss": 0.3155,
+      "step": 745
+    },
+    {
+      "epoch": 2.0775623268698062,
+      "grad_norm": 1.1860963106155396,
+      "learning_rate": 7.158613362118194e-06,
+      "loss": 0.3449,
+      "step": 750
+    },
+    {
+      "epoch": 2.0914127423822713,
+      "grad_norm": 1.2930771112442017,
+      "learning_rate": 6.964146307195498e-06,
+      "loss": 0.2754,
+      "step": 755
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 1.260765552520752,
+      "learning_rate": 6.7715554434776715e-06,
+      "loss": 0.2849,
+      "step": 760
+    },
+    {
+      "epoch": 2.119113573407202,
+      "grad_norm": 1.1116093397140503,
+      "learning_rate": 6.5808857366022615e-06,
+      "loss": 0.2517,
+      "step": 765
+    },
+    {
+      "epoch": 2.1329639889196677,
+      "grad_norm": 1.1734720468521118,
+      "learning_rate": 6.392181703659902e-06,
+      "loss": 0.3333,
+      "step": 770
+    },
+    {
+      "epoch": 2.146814404432133,
+      "grad_norm": 1.0698226690292358,
+      "learning_rate": 6.205487402800536e-06,
+      "loss": 0.2688,
+      "step": 775
+    },
+    {
+      "epoch": 2.160664819944598,
+      "grad_norm": 1.1430819034576416,
+      "learning_rate": 6.020846422946834e-06,
+      "loss": 0.2975,
+      "step": 780
+    },
+    {
+      "epoch": 2.1745152354570636,
+      "grad_norm": 1.188155174255371,
+      "learning_rate": 5.838301873617179e-06,
+      "loss": 0.3045,
+      "step": 785
+    },
+    {
+      "epoch": 2.188365650969529,
+      "grad_norm": 1.1246861219406128,
+      "learning_rate": 5.657896374860552e-06,
+      "loss": 0.2633,
+      "step": 790
+    },
+    {
+      "epoch": 2.2022160664819945,
+      "grad_norm": 1.1961162090301514,
+      "learning_rate": 5.4796720473056935e-06,
+      "loss": 0.2695,
+      "step": 795
+    },
+    {
+      "epoch": 2.21606648199446,
+      "grad_norm": 1.191179633140564,
+      "learning_rate": 5.303670502326913e-06,
+      "loss": 0.2679,
+      "step": 800
+    },
+    {
+      "epoch": 2.229916897506925,
+      "grad_norm": 1.2098121643066406,
+      "learning_rate": 5.129932832328745e-06,
+      "loss": 0.277,
+      "step": 805
+    },
+    {
+      "epoch": 2.2437673130193905,
+      "grad_norm": 1.255091905593872,
+      "learning_rate": 4.958499601151797e-06,
+      "loss": 0.3077,
+      "step": 810
+    },
+    {
+      "epoch": 2.257617728531856,
+      "grad_norm": 1.1651173830032349,
+      "learning_rate": 4.789410834602026e-06,
+      "loss": 0.2855,
+      "step": 815
+    },
+    {
+      "epoch": 2.2714681440443214,
+      "grad_norm": 1.124585747718811,
+      "learning_rate": 4.622706011105595e-06,
+      "loss": 0.2856,
+      "step": 820
+    },
+    {
+      "epoch": 2.285318559556787,
+      "grad_norm": 1.165735125541687,
+      "learning_rate": 4.458424052491538e-06,
+      "loss": 0.2857,
+      "step": 825
+    },
+    {
+      "epoch": 2.299168975069252,
+      "grad_norm": 1.1442289352416992,
+      "learning_rate": 4.296603314904423e-06,
+      "loss": 0.2699,
+      "step": 830
+    },
+    {
+      "epoch": 2.3130193905817173,
+      "grad_norm": 1.0728230476379395,
+      "learning_rate": 4.137281579849013e-06,
+      "loss": 0.2899,
+      "step": 835
+    },
+    {
+      "epoch": 2.326869806094183,
+      "grad_norm": 1.1440761089324951,
+      "learning_rate": 3.980496045369155e-06,
+      "loss": 0.2626,
+      "step": 840
+    },
+    {
+      "epoch": 2.3407202216066483,
+      "grad_norm": 1.0914793014526367,
+      "learning_rate": 3.826283317362884e-06,
+      "loss": 0.2771,
+      "step": 845
+    },
+    {
+      "epoch": 2.3545706371191137,
+      "grad_norm": 1.0821000337600708,
+      "learning_rate": 3.674679401035749e-06,
+      "loss": 0.2792,
+      "step": 850
+    },
+    {
+      "epoch": 2.3684210526315788,
+      "grad_norm": 1.0938249826431274,
+      "learning_rate": 3.5257196924944045e-06,
+      "loss": 0.2747,
+      "step": 855
+    },
+    {
+      "epoch": 2.3822714681440442,
+      "grad_norm": 1.165023922920227,
+      "learning_rate": 3.379438970482443e-06,
+      "loss": 0.2963,
+      "step": 860
+    },
+    {
+      "epoch": 2.3961218836565097,
+      "grad_norm": 1.213396430015564,
+      "learning_rate": 3.2358713882603036e-06,
+      "loss": 0.3184,
+      "step": 865
+    },
+    {
+      "epoch": 2.409972299168975,
+      "grad_norm": 1.2111999988555908,
+      "learning_rate": 3.095050465631278e-06,
+      "loss": 0.2437,
+      "step": 870
+    },
+    {
+      "epoch": 2.4238227146814406,
+      "grad_norm": 1.2239055633544922,
+      "learning_rate": 2.957009081115389e-06,
+      "loss": 0.2703,
+      "step": 875
+    },
+    {
+      "epoch": 2.4376731301939056,
+      "grad_norm": 1.2412350177764893,
+      "learning_rate": 2.821779464272977e-06,
+      "loss": 0.2941,
+      "step": 880
+    },
+    {
+      "epoch": 2.451523545706371,
+      "grad_norm": 1.1965274810791016,
+      "learning_rate": 2.6893931881798466e-06,
+      "loss": 0.2394,
+      "step": 885
+    },
+    {
+      "epoch": 2.4653739612188366,
+      "grad_norm": 1.233730673789978,
+      "learning_rate": 2.5598811620556495e-06,
+      "loss": 0.266,
+      "step": 890
+    },
+    {
+      "epoch": 2.479224376731302,
+      "grad_norm": 1.2566840648651123,
+      "learning_rate": 2.4332736240472654e-06,
+      "loss": 0.2776,
+      "step": 895
+    },
+    {
+      "epoch": 2.4930747922437675,
+      "grad_norm": 1.1643321514129639,
+      "learning_rate": 2.3096001341689036e-06,
+      "loss": 0.285,
+      "step": 900
+    },
+    {
+      "epoch": 2.5069252077562325,
+      "grad_norm": 1.1712685823440552,
+      "learning_rate": 2.188889567400477e-06,
+      "loss": 0.2512,
+      "step": 905
+    },
+    {
+      "epoch": 2.520775623268698,
+      "grad_norm": 1.2773274183273315,
+      "learning_rate": 2.071170106945951e-06,
+      "loss": 0.3291,
+      "step": 910
+    },
+    {
+      "epoch": 2.5346260387811634,
+      "grad_norm": 1.192179799079895,
+      "learning_rate": 1.9564692376532127e-06,
+      "loss": 0.2967,
+      "step": 915
+    },
+    {
+      "epoch": 2.548476454293629,
+      "grad_norm": 1.1872867345809937,
+      "learning_rate": 1.844813739596964e-06,
+      "loss": 0.2752,
+      "step": 920
+    },
+    {
+      "epoch": 2.5623268698060944,
+      "grad_norm": 1.2757831811904907,
+      "learning_rate": 1.7362296818261652e-06,
+      "loss": 0.2832,
+      "step": 925
+    },
+    {
+      "epoch": 2.5761772853185594,
+      "grad_norm": 1.2760881185531616,
+      "learning_rate": 1.6307424162775287e-06,
+      "loss": 0.2672,
+      "step": 930
+    },
+    {
+      "epoch": 2.590027700831025,
+      "grad_norm": 1.219934105873108,
+      "learning_rate": 1.5283765718563809e-06,
+      "loss": 0.2353,
+      "step": 935
+    },
+    {
+      "epoch": 2.6038781163434903,
+      "grad_norm": 1.240593671798706,
+      "learning_rate": 1.4291560486863752e-06,
+      "loss": 0.2423,
+      "step": 940
+    },
+    {
+      "epoch": 2.6177285318559558,
+      "grad_norm": 1.153835415840149,
+      "learning_rate": 1.3331040125293758e-06,
+      "loss": 0.2523,
+      "step": 945
+    },
+    {
+      "epoch": 2.6315789473684212,
+      "grad_norm": 1.1657174825668335,
+      "learning_rate": 1.2402428893767315e-06,
+      "loss": 0.2733,
+      "step": 950
+    },
+    {
+      "epoch": 2.6454293628808863,
+      "grad_norm": 1.263363003730774,
+      "learning_rate": 1.1505943602133345e-06,
+      "loss": 0.2347,
+      "step": 955
+    },
+    {
+      "epoch": 2.6592797783933517,
+      "grad_norm": 1.240174412727356,
+      "learning_rate": 1.0641793559556017e-06,
+      "loss": 0.2558,
+      "step": 960
+    },
+    {
+      "epoch": 2.673130193905817,
+      "grad_norm": 1.1093220710754395,
+      "learning_rate": 9.810180525645634e-07,
+      "loss": 0.2513,
+      "step": 965
+    },
+    {
+      "epoch": 2.6869806094182827,
+      "grad_norm": 1.1914353370666504,
+      "learning_rate": 9.011298663352329e-07,
+      "loss": 0.2717,
+      "step": 970
+    },
+    {
+      "epoch": 2.700831024930748,
+      "grad_norm": 1.0666946172714233,
+      "learning_rate": 8.24533449363345e-07,
+      "loss": 0.2736,
+      "step": 975
+    },
+    {
+      "epoch": 2.714681440443213,
+      "grad_norm": 1.2350205183029175,
+      "learning_rate": 7.51246685190507e-07,
+      "loss": 0.2662,
+      "step": 980
+    },
+    {
+      "epoch": 2.7285318559556786,
+      "grad_norm": 1.2075366973876953,
+      "learning_rate": 6.812866846287862e-07,
+      "loss": 0.241,
+      "step": 985
+    },
+    {
+      "epoch": 2.742382271468144,
+      "grad_norm": 1.181928038597107,
+      "learning_rate": 6.14669781765737e-07,
+      "loss": 0.2746,
+      "step": 990
+    },
+    {
+      "epoch": 2.7562326869806095,
+      "grad_norm": 1.2523207664489746,
+      "learning_rate": 5.514115301507378e-07,
+      "loss": 0.2646,
+      "step": 995
+    },
+    {
+      "epoch": 2.770083102493075,
+      "grad_norm": 1.2733880281448364,
+      "learning_rate": 4.915266991636025e-07,
+      "loss": 0.2738,
+      "step": 1000
+    },
+    {
+      "epoch": 2.78393351800554,
+      "grad_norm": 1.239798903465271,
+      "learning_rate": 4.3502927056625783e-07,
+      "loss": 0.2504,
+      "step": 1005
+    },
+    {
+      "epoch": 2.7977839335180055,
+      "grad_norm": 1.1889458894729614,
+      "learning_rate": 3.8193243523831576e-07,
+      "loss": 0.2653,
+      "step": 1010
+    },
+    {
+      "epoch": 2.811634349030471,
+      "grad_norm": 1.235689640045166,
+      "learning_rate": 3.322485900972955e-07,
+      "loss": 0.255,
+      "step": 1015
+    },
+    {
+      "epoch": 2.8254847645429364,
+      "grad_norm": 1.220137596130371,
+      "learning_rate": 2.859893352042336e-07,
+      "loss": 0.269,
+      "step": 1020
+    },
+    {
+      "epoch": 2.839335180055402,
+      "grad_norm": 1.1083120107650757,
+      "learning_rate": 2.4316547105531105e-07,
+      "loss": 0.2836,
+      "step": 1025
+    },
+    {
+      "epoch": 2.853185595567867,
+      "grad_norm": 1.165167212486267,
+      "learning_rate": 2.0378699606020457e-07,
+      "loss": 0.2848,
+      "step": 1030
+    },
+    {
+      "epoch": 2.8670360110803323,
+      "grad_norm": 1.048997163772583,
+      "learning_rate": 1.678631042076595e-07,
+      "loss": 0.2878,
+      "step": 1035
+    },
+    {
+      "epoch": 2.880886426592798,
+      "grad_norm": 1.2000727653503418,
+      "learning_rate": 1.354021829189167e-07,
+      "loss": 0.2643,
+      "step": 1040
+    },
+    {
+      "epoch": 2.8947368421052633,
+      "grad_norm": 1.195650339126587,
+      "learning_rate": 1.0641181108943076e-07,
+      "loss": 0.2655,
+      "step": 1045
+    },
+    {
+      "epoch": 2.9085872576177287,
+      "grad_norm": 1.200669288635254,
+      "learning_rate": 8.089875731937035e-08,
+      "loss": 0.3047,
+      "step": 1050
+    },
+    {
+      "epoch": 2.9224376731301938,
+      "grad_norm": 1.1938587427139282,
+      "learning_rate": 5.8868978333299076e-08,
+      "loss": 0.2626,
+      "step": 1055
+    },
+    {
+      "epoch": 2.936288088642659,
+      "grad_norm": 1.1180493831634521,
+      "learning_rate": 4.0327617589417944e-08,
+      "loss": 0.2473,
+      "step": 1060
+    },
+    {
+      "epoch": 2.9501385041551247,
+      "grad_norm": 1.107406497001648,
+      "learning_rate": 2.5279004078681002e-08,
+      "loss": 0.2639,
+      "step": 1065
+    },
+    {
+      "epoch": 2.96398891966759,
+      "grad_norm": 1.2065048217773438,
+      "learning_rate": 1.3726651314078797e-08,
+      "loss": 0.2511,
+      "step": 1070
+    },
+    {
+      "epoch": 2.9778393351800556,
+      "grad_norm": 1.2908570766448975,
+      "learning_rate": 5.673256510301261e-09,
+      "loss": 0.2621,
+      "step": 1075
+    },
+    {
+      "epoch": 2.9916897506925206,
+      "grad_norm": 1.0611200332641602,
+      "learning_rate": 1.1206999540114282e-09,
+      "loss": 0.2437,
+      "step": 1080
+    },
+    {
+      "epoch": 3.0,
+      "step": 1083,
+      "total_flos": 1.6331277400077763e+18,
+      "train_loss": 0.5425666385190089,
+      "train_runtime": 744.8452,
+      "train_samples_per_second": 46.508,
+      "train_steps_per_second": 1.454
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1083,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6331277400077763e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

52_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9a4e5edd1e99be8605c1ba7efc83d02e9a86fc4ea8bf9346349b436cd6e70cb
+size 8145

52_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff