Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

48_128_e3_3e-5/.gitattributes +35 -0
48_128_e3_3e-5/README.md +63 -0
48_128_e3_3e-5/adapter_config.json +39 -0
48_128_e3_3e-5/adapter_model.safetensors +3 -0
48_128_e3_3e-5/all_results.json +9 -0
48_128_e3_3e-5/config.json +32 -0
48_128_e3_3e-5/merges.txt +0 -0
48_128_e3_3e-5/special_tokens_map.json +45 -0
48_128_e3_3e-5/tokenizer.json +0 -0
48_128_e3_3e-5/tokenizer_config.json +188 -0
48_128_e3_3e-5/train_results.json +9 -0
48_128_e3_3e-5/trainer_state.json +1275 -0
48_128_e3_3e-5/training_args.bin +3 -0
48_128_e3_3e-5/vocab.json +0 -0

48_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

48_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 48_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 48_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

48_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "q_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

48_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:276ce6827cf8b422db732a0eadbd637fd94f08e8b8c1e23dafe065c34b84a7b5
+size 791751704

48_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.2894719010175713e+18,
+    "train_loss": 0.5719404688227474,
+    "train_runtime": 600.3611,
+    "train_samples": 9393,
+    "train_samples_per_second": 46.937,
+    "train_steps_per_second": 1.469
+}

48_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

48_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

48_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

48_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

48_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

48_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.2894719010175713e+18,
+    "train_loss": 0.5719404688227474,
+    "train_runtime": 600.3611,
+    "train_samples": 9393,
+    "train_samples_per_second": 46.937,
+    "train_steps_per_second": 1.469
+}

48_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1275 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 882,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.017006802721088437,
+      "grad_norm": 1.1433281898498535,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 1.3301,
+      "step": 5
+    },
+    {
+      "epoch": 0.034013605442176874,
+      "grad_norm": 0.9398791790008545,
+      "learning_rate": 6e-06,
+      "loss": 1.2737,
+      "step": 10
+    },
+    {
+      "epoch": 0.05102040816326531,
+      "grad_norm": 0.6441721320152283,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 1.2801,
+      "step": 15
+    },
+    {
+      "epoch": 0.06802721088435375,
+      "grad_norm": 0.6339272260665894,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 1.2638,
+      "step": 20
+    },
+    {
+      "epoch": 0.08503401360544217,
+      "grad_norm": 0.6292125582695007,
+      "learning_rate": 1.6e-05,
+      "loss": 1.2474,
+      "step": 25
+    },
+    {
+      "epoch": 0.10204081632653061,
+      "grad_norm": 0.543237030506134,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 1.2293,
+      "step": 30
+    },
+    {
+      "epoch": 0.11904761904761904,
+      "grad_norm": 0.6048358678817749,
+      "learning_rate": 2.2666666666666668e-05,
+      "loss": 1.2049,
+      "step": 35
+    },
+    {
+      "epoch": 0.1360544217687075,
+      "grad_norm": 0.41205382347106934,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.1933,
+      "step": 40
+    },
+    {
+      "epoch": 0.15306122448979592,
+      "grad_norm": 0.43666911125183105,
+      "learning_rate": 2.9333333333333333e-05,
+      "loss": 1.1154,
+      "step": 45
+    },
+    {
+      "epoch": 0.17006802721088435,
+      "grad_norm": 0.47460851073265076,
+      "learning_rate": 2.999830947375427e-05,
+      "loss": 1.1638,
+      "step": 50
+    },
+    {
+      "epoch": 0.1870748299319728,
+      "grad_norm": 0.5880778431892395,
+      "learning_rate": 2.999144236394577e-05,
+      "loss": 1.1351,
+      "step": 55
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 0.47244954109191895,
+      "learning_rate": 2.9979295429345726e-05,
+      "loss": 1.1068,
+      "step": 60
+    },
+    {
+      "epoch": 0.22108843537414966,
+      "grad_norm": 0.5443029403686523,
+      "learning_rate": 2.9961872947973883e-05,
+      "loss": 1.0811,
+      "step": 65
+    },
+    {
+      "epoch": 0.23809523809523808,
+      "grad_norm": 0.46638795733451843,
+      "learning_rate": 2.993918105584082e-05,
+      "loss": 1.1038,
+      "step": 70
+    },
+    {
+      "epoch": 0.25510204081632654,
+      "grad_norm": 0.524568498134613,
+      "learning_rate": 2.9911227744786943e-05,
+      "loss": 1.1417,
+      "step": 75
+    },
+    {
+      "epoch": 0.272108843537415,
+      "grad_norm": 0.4871973693370819,
+      "learning_rate": 2.9878022859667807e-05,
+      "loss": 1.1339,
+      "step": 80
+    },
+    {
+      "epoch": 0.2891156462585034,
+      "grad_norm": 0.5032399892807007,
+      "learning_rate": 2.983957809488688e-05,
+      "loss": 1.0604,
+      "step": 85
+    },
+    {
+      "epoch": 0.30612244897959184,
+      "grad_norm": 0.5796931385993958,
+      "learning_rate": 2.9795906990276912e-05,
+      "loss": 1.0474,
+      "step": 90
+    },
+    {
+      "epoch": 0.3231292517006803,
+      "grad_norm": 0.554927408695221,
+      "learning_rate": 2.9747024926331336e-05,
+      "loss": 1.0546,
+      "step": 95
+    },
+    {
+      "epoch": 0.3401360544217687,
+      "grad_norm": 0.6022518277168274,
+      "learning_rate": 2.969294911878742e-05,
+      "loss": 1.0508,
+      "step": 100
+    },
+    {
+      "epoch": 0.35714285714285715,
+      "grad_norm": 0.6416018605232239,
+      "learning_rate": 2.963369861256308e-05,
+      "loss": 1.063,
+      "step": 105
+    },
+    {
+      "epoch": 0.3741496598639456,
+      "grad_norm": 0.597299337387085,
+      "learning_rate": 2.956929427504947e-05,
+      "loss": 1.0064,
+      "step": 110
+    },
+    {
+      "epoch": 0.391156462585034,
+      "grad_norm": 0.5981664061546326,
+      "learning_rate": 2.9499758788761692e-05,
+      "loss": 1.0104,
+      "step": 115
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.6414693593978882,
+      "learning_rate": 2.9425116643350276e-05,
+      "loss": 1.0229,
+      "step": 120
+    },
+    {
+      "epoch": 0.42517006802721086,
+      "grad_norm": 0.6046665906906128,
+      "learning_rate": 2.9345394126976174e-05,
+      "loss": 0.9673,
+      "step": 125
+    },
+    {
+      "epoch": 0.4421768707482993,
+      "grad_norm": 0.6705865859985352,
+      "learning_rate": 2.9260619317052375e-05,
+      "loss": 0.9075,
+      "step": 130
+    },
+    {
+      "epoch": 0.45918367346938777,
+      "grad_norm": 0.6524149179458618,
+      "learning_rate": 2.9170822070355308e-05,
+      "loss": 0.9733,
+      "step": 135
+    },
+    {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.6652526259422302,
+      "learning_rate": 2.907603401250963e-05,
+      "loss": 0.8661,
+      "step": 140
+    },
+    {
+      "epoch": 0.4931972789115646,
+      "grad_norm": 0.6798329949378967,
+      "learning_rate": 2.8976288526850027e-05,
+      "loss": 0.951,
+      "step": 145
+    },
+    {
+      "epoch": 0.5102040816326531,
+      "grad_norm": 0.6991934180259705,
+      "learning_rate": 2.887162074266394e-05,
+      "loss": 0.906,
+      "step": 150
+    },
+    {
+      "epoch": 0.5272108843537415,
+      "grad_norm": 0.7025867104530334,
+      "learning_rate": 2.8762067522819435e-05,
+      "loss": 0.9009,
+      "step": 155
+    },
+    {
+      "epoch": 0.54421768707483,
+      "grad_norm": 0.7299946546554565,
+      "learning_rate": 2.864766745078246e-05,
+      "loss": 0.8796,
+      "step": 160
+    },
+    {
+      "epoch": 0.5612244897959183,
+      "grad_norm": 0.769443929195404,
+      "learning_rate": 2.8528460817028198e-05,
+      "loss": 0.841,
+      "step": 165
+    },
+    {
+      "epoch": 0.5782312925170068,
+      "grad_norm": 0.703625500202179,
+      "learning_rate": 2.8404489604851186e-05,
+      "loss": 0.888,
+      "step": 170
+    },
+    {
+      "epoch": 0.5952380952380952,
+      "grad_norm": 0.7110118865966797,
+      "learning_rate": 2.827579747557923e-05,
+      "loss": 0.8683,
+      "step": 175
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 0.7656919956207275,
+      "learning_rate": 2.8142429753196394e-05,
+      "loss": 0.9204,
+      "step": 180
+    },
+    {
+      "epoch": 0.6292517006802721,
+      "grad_norm": 0.7983347773551941,
+      "learning_rate": 2.8004433408380333e-05,
+      "loss": 0.8573,
+      "step": 185
+    },
+    {
+      "epoch": 0.6462585034013606,
+      "grad_norm": 0.8442152142524719,
+      "learning_rate": 2.7861857041959763e-05,
+      "loss": 0.8513,
+      "step": 190
+    },
+    {
+      "epoch": 0.6632653061224489,
+      "grad_norm": 0.9158267974853516,
+      "learning_rate": 2.7714750867797764e-05,
+      "loss": 0.8022,
+      "step": 195
+    },
+    {
+      "epoch": 0.6802721088435374,
+      "grad_norm": 1.004762887954712,
+      "learning_rate": 2.7563166695106978e-05,
+      "loss": 0.86,
+      "step": 200
+    },
+    {
+      "epoch": 0.6972789115646258,
+      "grad_norm": 0.8251765966415405,
+      "learning_rate": 2.740715791020298e-05,
+      "loss": 0.8522,
+      "step": 205
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 0.847248375415802,
+      "learning_rate": 2.7246779457702185e-05,
+      "loss": 0.8283,
+      "step": 210
+    },
+    {
+      "epoch": 0.7312925170068028,
+      "grad_norm": 0.875170886516571,
+      "learning_rate": 2.708208782117096e-05,
+      "loss": 0.8455,
+      "step": 215
+    },
+    {
+      "epoch": 0.7482993197278912,
+      "grad_norm": 0.9393242001533508,
+      "learning_rate": 2.691314100323268e-05,
+      "loss": 0.7951,
+      "step": 220
+    },
+    {
+      "epoch": 0.7653061224489796,
+      "grad_norm": 0.9585595726966858,
+      "learning_rate": 2.6739998505139885e-05,
+      "loss": 0.7984,
+      "step": 225
+    },
+    {
+      "epoch": 0.782312925170068,
+      "grad_norm": 0.9472615122795105,
+      "learning_rate": 2.6562721305818525e-05,
+      "loss": 0.8345,
+      "step": 230
+    },
+    {
+      "epoch": 0.7993197278911565,
+      "grad_norm": 0.9588419795036316,
+      "learning_rate": 2.6381371840391862e-05,
+      "loss": 0.732,
+      "step": 235
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 1.0619289875030518,
+      "learning_rate": 2.6196013978191507e-05,
+      "loss": 0.7933,
+      "step": 240
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.9172425270080566,
+      "learning_rate": 2.600671300026329e-05,
+      "loss": 0.7848,
+      "step": 245
+    },
+    {
+      "epoch": 0.8503401360544217,
+      "grad_norm": 0.9859588146209717,
+      "learning_rate": 2.581353557637602e-05,
+      "loss": 0.6907,
+      "step": 250
+    },
+    {
+      "epoch": 0.8673469387755102,
+      "grad_norm": 0.9304193258285522,
+      "learning_rate": 2.5616549741541054e-05,
+      "loss": 0.6784,
+      "step": 255
+    },
+    {
+      "epoch": 0.8843537414965986,
+      "grad_norm": 0.9122022390365601,
+      "learning_rate": 2.541582487205117e-05,
+      "loss": 0.6934,
+      "step": 260
+    },
+    {
+      "epoch": 0.9013605442176871,
+      "grad_norm": 1.0330214500427246,
+      "learning_rate": 2.521143166104692e-05,
+      "loss": 0.68,
+      "step": 265
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "grad_norm": 0.887536346912384,
+      "learning_rate": 2.5003442093619303e-05,
+      "loss": 0.6743,
+      "step": 270
+    },
+    {
+      "epoch": 0.935374149659864,
+      "grad_norm": 1.0340311527252197,
+      "learning_rate": 2.479192942145736e-05,
+      "loss": 0.6899,
+      "step": 275
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.9371677041053772,
+      "learning_rate": 2.4576968137049752e-05,
+      "loss": 0.6959,
+      "step": 280
+    },
+    {
+      "epoch": 0.9693877551020408,
+      "grad_norm": 1.0774980783462524,
+      "learning_rate": 2.4358633947449284e-05,
+      "loss": 0.7023,
+      "step": 285
+    },
+    {
+      "epoch": 0.9863945578231292,
+      "grad_norm": 0.9024520516395569,
+      "learning_rate": 2.4137003747609695e-05,
+      "loss": 0.6132,
+      "step": 290
+    },
+    {
+      "epoch": 1.0034013605442176,
+      "grad_norm": 1.1820048093795776,
+      "learning_rate": 2.3912155593304094e-05,
+      "loss": 0.6546,
+      "step": 295
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "grad_norm": 1.1501511335372925,
+      "learning_rate": 2.368416867363453e-05,
+      "loss": 0.5871,
+      "step": 300
+    },
+    {
+      "epoch": 1.0374149659863945,
+      "grad_norm": 1.0908896923065186,
+      "learning_rate": 2.345312328314249e-05,
+      "loss": 0.5857,
+      "step": 305
+    },
+    {
+      "epoch": 1.054421768707483,
+      "grad_norm": 1.0592602491378784,
+      "learning_rate": 2.321910079352998e-05,
+      "loss": 0.5877,
+      "step": 310
+    },
+    {
+      "epoch": 1.0714285714285714,
+      "grad_norm": 1.0759689807891846,
+      "learning_rate": 2.298218362500129e-05,
+      "loss": 0.5899,
+      "step": 315
+    },
+    {
+      "epoch": 1.08843537414966,
+      "grad_norm": 1.1115432977676392,
+      "learning_rate": 2.2742455217235526e-05,
+      "loss": 0.517,
+      "step": 320
+    },
+    {
+      "epoch": 1.1054421768707483,
+      "grad_norm": 1.1038812398910522,
+      "learning_rate": 2.25e-05,
+      "loss": 0.5397,
+      "step": 325
+    },
+    {
+      "epoch": 1.1224489795918366,
+      "grad_norm": 1.1548855304718018,
+      "learning_rate": 2.2254903363415004e-05,
+      "loss": 0.5899,
+      "step": 330
+    },
+    {
+      "epoch": 1.1394557823129252,
+      "grad_norm": 1.1969225406646729,
+      "learning_rate": 2.2007251627880314e-05,
+      "loss": 0.5593,
+      "step": 335
+    },
+    {
+      "epoch": 1.1564625850340136,
+      "grad_norm": 1.2267694473266602,
+      "learning_rate": 2.1757132013674096e-05,
+      "loss": 0.5611,
+      "step": 340
+    },
+    {
+      "epoch": 1.1734693877551021,
+      "grad_norm": 1.144618034362793,
+      "learning_rate": 2.150463261023483e-05,
+      "loss": 0.5588,
+      "step": 345
+    },
+    {
+      "epoch": 1.1904761904761905,
+      "grad_norm": 1.16307532787323,
+      "learning_rate": 2.124984234513718e-05,
+      "loss": 0.5055,
+      "step": 350
+    },
+    {
+      "epoch": 1.2074829931972788,
+      "grad_norm": 1.0773085355758667,
+      "learning_rate": 2.0992850952772658e-05,
+      "loss": 0.5012,
+      "step": 355
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 1.1232171058654785,
+      "learning_rate": 2.073374894274611e-05,
+      "loss": 0.5677,
+      "step": 360
+    },
+    {
+      "epoch": 1.2414965986394557,
+      "grad_norm": 1.2116920948028564,
+      "learning_rate": 2.0472627567999246e-05,
+      "loss": 0.5012,
+      "step": 365
+    },
+    {
+      "epoch": 1.2585034013605443,
+      "grad_norm": 1.0795994997024536,
+      "learning_rate": 2.0209578792672304e-05,
+      "loss": 0.5139,
+      "step": 370
+    },
+    {
+      "epoch": 1.2755102040816326,
+      "grad_norm": 1.106628656387329,
+      "learning_rate": 1.9944695259715293e-05,
+      "loss": 0.5296,
+      "step": 375
+    },
+    {
+      "epoch": 1.2925170068027212,
+      "grad_norm": 1.1491825580596924,
+      "learning_rate": 1.9678070258260114e-05,
+      "loss": 0.5379,
+      "step": 380
+    },
+    {
+      "epoch": 1.3095238095238095,
+      "grad_norm": 1.1903096437454224,
+      "learning_rate": 1.9409797690765157e-05,
+      "loss": 0.4991,
+      "step": 385
+    },
+    {
+      "epoch": 1.3265306122448979,
+      "grad_norm": 1.0933802127838135,
+      "learning_rate": 1.913997203994384e-05,
+      "loss": 0.4748,
+      "step": 390
+    },
+    {
+      "epoch": 1.3435374149659864,
+      "grad_norm": 1.2259540557861328,
+      "learning_rate": 1.8868688335488854e-05,
+      "loss": 0.502,
+      "step": 395
+    },
+    {
+      "epoch": 1.3605442176870748,
+      "grad_norm": 1.1215910911560059,
+      "learning_rate": 1.8596042120603676e-05,
+      "loss": 0.4677,
+      "step": 400
+    },
+    {
+      "epoch": 1.3775510204081631,
+      "grad_norm": 1.1573269367218018,
+      "learning_rate": 1.832212941835331e-05,
+      "loss": 0.4823,
+      "step": 405
+    },
+    {
+      "epoch": 1.3945578231292517,
+      "grad_norm": 1.241136074066162,
+      "learning_rate": 1.8047046697846008e-05,
+      "loss": 0.4878,
+      "step": 410
+    },
+    {
+      "epoch": 1.4115646258503403,
+      "grad_norm": 1.1451834440231323,
+      "learning_rate": 1.777089084025784e-05,
+      "loss": 0.5235,
+      "step": 415
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 1.0896785259246826,
+      "learning_rate": 1.749375910471225e-05,
+      "loss": 0.4873,
+      "step": 420
+    },
+    {
+      "epoch": 1.445578231292517,
+      "grad_norm": 1.1399846076965332,
+      "learning_rate": 1.721574909402637e-05,
+      "loss": 0.5127,
+      "step": 425
+    },
+    {
+      "epoch": 1.4625850340136055,
+      "grad_norm": 1.1373587846755981,
+      "learning_rate": 1.6936958720336425e-05,
+      "loss": 0.4823,
+      "step": 430
+    },
+    {
+      "epoch": 1.4795918367346939,
+      "grad_norm": 1.1319400072097778,
+      "learning_rate": 1.665748617061407e-05,
+      "loss": 0.4515,
+      "step": 435
+    },
+    {
+      "epoch": 1.4965986394557822,
+      "grad_norm": 1.2227659225463867,
+      "learning_rate": 1.6377429872086054e-05,
+      "loss": 0.4574,
+      "step": 440
+    },
+    {
+      "epoch": 1.5136054421768708,
+      "grad_norm": 1.1438450813293457,
+      "learning_rate": 1.6096888457569142e-05,
+      "loss": 0.4475,
+      "step": 445
+    },
+    {
+      "epoch": 1.5306122448979593,
+      "grad_norm": 1.1018154621124268,
+      "learning_rate": 1.581596073073276e-05,
+      "loss": 0.4425,
+      "step": 450
+    },
+    {
+      "epoch": 1.5476190476190477,
+      "grad_norm": 1.1121821403503418,
+      "learning_rate": 1.5534745631301366e-05,
+      "loss": 0.4658,
+      "step": 455
+    },
+    {
+      "epoch": 1.564625850340136,
+      "grad_norm": 1.1833640336990356,
+      "learning_rate": 1.5253342200208965e-05,
+      "loss": 0.4956,
+      "step": 460
+    },
+    {
+      "epoch": 1.5816326530612246,
+      "grad_norm": 1.1173557043075562,
+      "learning_rate": 1.4971849544717944e-05,
+      "loss": 0.4429,
+      "step": 465
+    },
+    {
+      "epoch": 1.598639455782313,
+      "grad_norm": 1.1760377883911133,
+      "learning_rate": 1.4690366803514559e-05,
+      "loss": 0.4696,
+      "step": 470
+    },
+    {
+      "epoch": 1.6156462585034013,
+      "grad_norm": 1.5227094888687134,
+      "learning_rate": 1.440899311179337e-05,
+      "loss": 0.4512,
+      "step": 475
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 1.3512581586837769,
+      "learning_rate": 1.4127827566342864e-05,
+      "loss": 0.4798,
+      "step": 480
+    },
+    {
+      "epoch": 1.6496598639455784,
+      "grad_norm": 1.124464511871338,
+      "learning_rate": 1.3846969190644672e-05,
+      "loss": 0.4827,
+      "step": 485
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 1.1032418012619019,
+      "learning_rate": 1.3566516899998529e-05,
+      "loss": 0.418,
+      "step": 490
+    },
+    {
+      "epoch": 1.683673469387755,
+      "grad_norm": 1.293270230293274,
+      "learning_rate": 1.3286569466685383e-05,
+      "loss": 0.4294,
+      "step": 495
+    },
+    {
+      "epoch": 1.7006802721088436,
+      "grad_norm": 1.139399766921997,
+      "learning_rate": 1.300722548518086e-05,
+      "loss": 0.4646,
+      "step": 500
+    },
+    {
+      "epoch": 1.717687074829932,
+      "grad_norm": 1.4658235311508179,
+      "learning_rate": 1.2728583337431355e-05,
+      "loss": 0.4359,
+      "step": 505
+    },
+    {
+      "epoch": 1.7346938775510203,
+      "grad_norm": 1.3578505516052246,
+      "learning_rate": 1.2450741158204936e-05,
+      "loss": 0.4517,
+      "step": 510
+    },
+    {
+      "epoch": 1.751700680272109,
+      "grad_norm": 1.247159719467163,
+      "learning_rate": 1.217379680052939e-05,
+      "loss": 0.3944,
+      "step": 515
+    },
+    {
+      "epoch": 1.7687074829931972,
+      "grad_norm": 1.416696310043335,
+      "learning_rate": 1.1897847801229392e-05,
+      "loss": 0.4599,
+      "step": 520
+    },
+    {
+      "epoch": 1.7857142857142856,
+      "grad_norm": 1.2439894676208496,
+      "learning_rate": 1.1622991346575107e-05,
+      "loss": 0.425,
+      "step": 525
+    },
+    {
+      "epoch": 1.8027210884353742,
+      "grad_norm": 1.3869054317474365,
+      "learning_rate": 1.1349324238054218e-05,
+      "loss": 0.4182,
+      "step": 530
+    },
+    {
+      "epoch": 1.8197278911564627,
+      "grad_norm": 1.4277966022491455,
+      "learning_rate": 1.10769428582795e-05,
+      "loss": 0.3934,
+      "step": 535
+    },
+    {
+      "epoch": 1.836734693877551,
+      "grad_norm": 1.3725769519805908,
+      "learning_rate": 1.0805943137043875e-05,
+      "loss": 0.3902,
+      "step": 540
+    },
+    {
+      "epoch": 1.8537414965986394,
+      "grad_norm": 1.203027367591858,
+      "learning_rate": 1.0536420517534996e-05,
+      "loss": 0.4227,
+      "step": 545
+    },
+    {
+      "epoch": 1.870748299319728,
+      "grad_norm": 1.3372395038604736,
+      "learning_rate": 1.0268469922721167e-05,
+      "loss": 0.4268,
+      "step": 550
+    },
+    {
+      "epoch": 1.8877551020408163,
+      "grad_norm": 1.1439579725265503,
+      "learning_rate": 1.0002185721920504e-05,
+      "loss": 0.4132,
+      "step": 555
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 1.2041549682617188,
+      "learning_rate": 9.737661697565068e-06,
+      "loss": 0.3732,
+      "step": 560
+    },
+    {
+      "epoch": 1.9217687074829932,
+      "grad_norm": 1.2072548866271973,
+      "learning_rate": 9.474991012171694e-06,
+      "loss": 0.3682,
+      "step": 565
+    },
+    {
+      "epoch": 1.9387755102040818,
+      "grad_norm": 1.4039056301116943,
+      "learning_rate": 9.214266175531181e-06,
+      "loss": 0.4016,
+      "step": 570
+    },
+    {
+      "epoch": 1.95578231292517,
+      "grad_norm": 1.0873271226882935,
+      "learning_rate": 8.955579012127313e-06,
+      "loss": 0.382,
+      "step": 575
+    },
+    {
+      "epoch": 1.9727891156462585,
+      "grad_norm": 1.8985044956207275,
+      "learning_rate": 8.699020628797277e-06,
+      "loss": 0.405,
+      "step": 580
+    },
+    {
+      "epoch": 1.989795918367347,
+      "grad_norm": 1.1280423402786255,
+      "learning_rate": 8.444681382644803e-06,
+      "loss": 0.3776,
+      "step": 585
+    },
+    {
+      "epoch": 2.006802721088435,
+      "grad_norm": 1.1131600141525269,
+      "learning_rate": 8.192650849217373e-06,
+      "loss": 0.3355,
+      "step": 590
+    },
+    {
+      "epoch": 2.0238095238095237,
+      "grad_norm": 1.3514256477355957,
+      "learning_rate": 7.943017790958668e-06,
+      "loss": 0.2928,
+      "step": 595
+    },
+    {
+      "epoch": 2.0408163265306123,
+      "grad_norm": 1.1556528806686401,
+      "learning_rate": 7.695870125947413e-06,
+      "loss": 0.3045,
+      "step": 600
+    },
+    {
+      "epoch": 2.057823129251701,
+      "grad_norm": 1.2753350734710693,
+      "learning_rate": 7.451294896933535e-06,
+      "loss": 0.2944,
+      "step": 605
+    },
+    {
+      "epoch": 2.074829931972789,
+      "grad_norm": 1.2302922010421753,
+      "learning_rate": 7.209378240682687e-06,
+      "loss": 0.2976,
+      "step": 610
+    },
+    {
+      "epoch": 2.0918367346938775,
+      "grad_norm": 1.2608729600906372,
+      "learning_rate": 6.970205357639764e-06,
+      "loss": 0.3018,
+      "step": 615
+    },
+    {
+      "epoch": 2.108843537414966,
+      "grad_norm": 1.080639362335205,
+      "learning_rate": 6.733860481922261e-06,
+      "loss": 0.3101,
+      "step": 620
+    },
+    {
+      "epoch": 2.1258503401360542,
+      "grad_norm": 1.0515425205230713,
+      "learning_rate": 6.500426851653887e-06,
+      "loss": 0.3287,
+      "step": 625
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 1.2037572860717773,
+      "learning_rate": 6.269986679649012e-06,
+      "loss": 0.3215,
+      "step": 630
+    },
+    {
+      "epoch": 2.1598639455782314,
+      "grad_norm": 1.2401001453399658,
+      "learning_rate": 6.0426211244582105e-06,
+      "loss": 0.3002,
+      "step": 635
+    },
+    {
+      "epoch": 2.17687074829932,
+      "grad_norm": 1.3358227014541626,
+      "learning_rate": 5.818410261785056e-06,
+      "loss": 0.3273,
+      "step": 640
+    },
+    {
+      "epoch": 2.193877551020408,
+      "grad_norm": 1.2087550163269043,
+      "learning_rate": 5.5974330562843604e-06,
+      "loss": 0.3226,
+      "step": 645
+    },
+    {
+      "epoch": 2.2108843537414966,
+      "grad_norm": 1.2536941766738892,
+      "learning_rate": 5.379767333751651e-06,
+      "loss": 0.3763,
+      "step": 650
+    },
+    {
+      "epoch": 2.227891156462585,
+      "grad_norm": 1.5392537117004395,
+      "learning_rate": 5.1654897537137366e-06,
+      "loss": 0.2881,
+      "step": 655
+    },
+    {
+      "epoch": 2.2448979591836733,
+      "grad_norm": 1.337850570678711,
+      "learning_rate": 4.954675782430108e-06,
+      "loss": 0.2868,
+      "step": 660
+    },
+    {
+      "epoch": 2.261904761904762,
+      "grad_norm": 1.1110904216766357,
+      "learning_rate": 4.747399666314474e-06,
+      "loss": 0.3334,
+      "step": 665
+    },
+    {
+      "epoch": 2.2789115646258504,
+      "grad_norm": 1.3458690643310547,
+      "learning_rate": 4.543734405786016e-06,
+      "loss": 0.3295,
+      "step": 670
+    },
+    {
+      "epoch": 2.295918367346939,
+      "grad_norm": 1.2913514375686646,
+      "learning_rate": 4.343751729559394e-06,
+      "loss": 0.3106,
+      "step": 675
+    },
+    {
+      "epoch": 2.312925170068027,
+      "grad_norm": 1.2402405738830566,
+      "learning_rate": 4.1475220693826726e-06,
+      "loss": 0.2991,
+      "step": 680
+    },
+    {
+      "epoch": 2.3299319727891157,
+      "grad_norm": 1.2858036756515503,
+      "learning_rate": 3.9551145352320425e-06,
+      "loss": 0.2686,
+      "step": 685
+    },
+    {
+      "epoch": 2.3469387755102042,
+      "grad_norm": 1.3551723957061768,
+      "learning_rate": 3.7665968909719856e-06,
+      "loss": 0.3313,
+      "step": 690
+    },
+    {
+      "epoch": 2.3639455782312924,
+      "grad_norm": 1.1230688095092773,
+      "learning_rate": 3.5820355304896106e-06,
+      "loss": 0.3063,
+      "step": 695
+    },
+    {
+      "epoch": 2.380952380952381,
+      "grad_norm": 1.1118614673614502,
+      "learning_rate": 3.4014954543114114e-06,
+      "loss": 0.3245,
+      "step": 700
+    },
+    {
+      "epoch": 2.3979591836734695,
+      "grad_norm": 1.3280174732208252,
+      "learning_rate": 3.225040246710802e-06,
+      "loss": 0.3033,
+      "step": 705
+    },
+    {
+      "epoch": 2.4149659863945576,
+      "grad_norm": 1.2824195623397827,
+      "learning_rate": 3.0527320533144027e-06,
+      "loss": 0.3037,
+      "step": 710
+    },
+    {
+      "epoch": 2.431972789115646,
+      "grad_norm": 1.2117950916290283,
+      "learning_rate": 2.8846315592150258e-06,
+      "loss": 0.2778,
+      "step": 715
+    },
+    {
+      "epoch": 2.4489795918367347,
+      "grad_norm": 1.2348297834396362,
+      "learning_rate": 2.7207979675990465e-06,
+      "loss": 0.3176,
+      "step": 720
+    },
+    {
+      "epoch": 2.4659863945578233,
+      "grad_norm": 1.2137082815170288,
+      "learning_rate": 2.5612889788956556e-06,
+      "loss": 0.275,
+      "step": 725
+    },
+    {
+      "epoch": 2.4829931972789114,
+      "grad_norm": 1.355455756187439,
+      "learning_rate": 2.406160770455415e-06,
+      "loss": 0.2669,
+      "step": 730
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.1579939126968384,
+      "learning_rate": 2.255467976765186e-06,
+      "loss": 0.3021,
+      "step": 735
+    },
+    {
+      "epoch": 2.5170068027210886,
+      "grad_norm": 1.2816822528839111,
+      "learning_rate": 2.1092636702064342e-06,
+      "loss": 0.2625,
+      "step": 740
+    },
+    {
+      "epoch": 2.534013605442177,
+      "grad_norm": 1.2603325843811035,
+      "learning_rate": 1.967599342363745e-06,
+      "loss": 0.268,
+      "step": 745
+    },
+    {
+      "epoch": 2.5510204081632653,
+      "grad_norm": 1.2388482093811035,
+      "learning_rate": 1.8305248858900036e-06,
+      "loss": 0.2834,
+      "step": 750
+    },
+    {
+      "epoch": 2.568027210884354,
+      "grad_norm": 1.1518625020980835,
+      "learning_rate": 1.6980885769347698e-06,
+      "loss": 0.2979,
+      "step": 755
+    },
+    {
+      "epoch": 2.5850340136054424,
+      "grad_norm": 1.1612802743911743,
+      "learning_rate": 1.5703370581419125e-06,
+      "loss": 0.2623,
+      "step": 760
+    },
+    {
+      "epoch": 2.6020408163265305,
+      "grad_norm": 1.2561304569244385,
+      "learning_rate": 1.4473153222225865e-06,
+      "loss": 0.269,
+      "step": 765
+    },
+    {
+      "epoch": 2.619047619047619,
+      "grad_norm": 1.1958523988723755,
+      "learning_rate": 1.329066696109284e-06,
+      "loss": 0.2987,
+      "step": 770
+    },
+    {
+      "epoch": 2.6360544217687076,
+      "grad_norm": 1.1086229085922241,
+      "learning_rate": 1.215632825696541e-06,
+      "loss": 0.2818,
+      "step": 775
+    },
+    {
+      "epoch": 2.6530612244897958,
+      "grad_norm": 1.1904957294464111,
+      "learning_rate": 1.1070536611737225e-06,
+      "loss": 0.2663,
+      "step": 780
+    },
+    {
+      "epoch": 2.6700680272108843,
+      "grad_norm": 1.2800511121749878,
+      "learning_rate": 1.0033674429549738e-06,
+      "loss": 0.3159,
+      "step": 785
+    },
+    {
+      "epoch": 2.687074829931973,
+      "grad_norm": 1.1981767416000366,
+      "learning_rate": 9.046106882113753e-07,
+      "loss": 0.2977,
+      "step": 790
+    },
+    {
+      "epoch": 2.704081632653061,
+      "grad_norm": 1.2983245849609375,
+      "learning_rate": 8.108181780099733e-07,
+      "loss": 0.2991,
+      "step": 795
+    },
+    {
+      "epoch": 2.7210884353741496,
+      "grad_norm": 1.2695153951644897,
+      "learning_rate": 7.220229450642724e-07,
+      "loss": 0.2446,
+      "step": 800
+    },
+    {
+      "epoch": 2.738095238095238,
+      "grad_norm": 1.1371307373046875,
+      "learning_rate": 6.382562621004678e-07,
+      "loss": 0.331,
+      "step": 805
+    },
+    {
+      "epoch": 2.7551020408163263,
+      "grad_norm": 1.265984058380127,
+      "learning_rate": 5.595476308435176e-07,
+      "loss": 0.3006,
+      "step": 810
+    },
+    {
+      "epoch": 2.772108843537415,
+      "grad_norm": 1.3409372568130493,
+      "learning_rate": 4.859247716269688e-07,
+      "loss": 0.2738,
+      "step": 815
+    },
+    {
+      "epoch": 2.7891156462585034,
+      "grad_norm": 1.1452726125717163,
+      "learning_rate": 4.1741361363014154e-07,
+      "loss": 0.3161,
+      "step": 820
+    },
+    {
+      "epoch": 2.806122448979592,
+      "grad_norm": 1.2100369930267334,
+      "learning_rate": 3.5403828574615104e-07,
+      "loss": 0.2829,
+      "step": 825
+    },
+    {
+      "epoch": 2.8231292517006805,
+      "grad_norm": 1.1733680963516235,
+      "learning_rate": 2.9582110808397845e-07,
+      "loss": 0.2879,
+      "step": 830
+    },
+    {
+      "epoch": 2.8401360544217686,
+      "grad_norm": 1.279393196105957,
+      "learning_rate": 2.4278258410756536e-07,
+      "loss": 0.3064,
+      "step": 835
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 1.2601673603057861,
+      "learning_rate": 1.9494139341470873e-07,
+      "loss": 0.2627,
+      "step": 840
+    },
+    {
+      "epoch": 2.8741496598639458,
+      "grad_norm": 1.3420478105545044,
+      "learning_rate": 1.5231438515831807e-07,
+      "loss": 0.2882,
+      "step": 845
+    },
+    {
+      "epoch": 2.891156462585034,
+      "grad_norm": 1.2073465585708618,
+      "learning_rate": 1.149165721123141e-07,
+      "loss": 0.2775,
+      "step": 850
+    },
+    {
+      "epoch": 2.9081632653061225,
+      "grad_norm": 1.2766053676605225,
+      "learning_rate": 8.276112538429803e-08,
+      "loss": 0.2805,
+      "step": 855
+    },
+    {
+      "epoch": 2.925170068027211,
+      "grad_norm": 1.3124281167984009,
+      "learning_rate": 5.5859369776825595e-08,
+      "loss": 0.2862,
+      "step": 860
+    },
+    {
+      "epoch": 2.942176870748299,
+      "grad_norm": 1.2218525409698486,
+      "learning_rate": 3.4220779798939116e-08,
+      "loss": 0.2946,
+      "step": 865
+    },
+    {
+      "epoch": 2.9591836734693877,
+      "grad_norm": 1.1960614919662476,
+      "learning_rate": 1.7852976329338354e-08,
+      "loss": 0.3099,
+      "step": 870
+    },
+    {
+      "epoch": 2.9761904761904763,
+      "grad_norm": 1.3529045581817627,
+      "learning_rate": 6.76172393239749e-09,
+      "loss": 0.2939,
+      "step": 875
+    },
+    {
+      "epoch": 2.9931972789115644,
+      "grad_norm": 1.2719964981079102,
+      "learning_rate": 9.509288279391237e-10,
+      "loss": 0.2984,
+      "step": 880
+    },
+    {
+      "epoch": 3.0,
+      "step": 882,
+      "total_flos": 1.2894719010175713e+18,
+      "train_loss": 0.5719404688227474,
+      "train_runtime": 600.3611,
+      "train_samples_per_second": 46.937,
+      "train_steps_per_second": 1.469
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 882,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2894719010175713e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

48_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7fb88212e19850c97d27c1f856bbb929f154d1b7ba43e7a0c4e79632bf02c80
+size 8145

48_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff