Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

10_128_e3_3e-5/.gitattributes +35 -0
10_128_e3_3e-5/README.md +63 -0
10_128_e3_3e-5/adapter_config.json +39 -0
10_128_e3_3e-5/adapter_model.safetensors +3 -0
10_128_e3_3e-5/all_results.json +9 -0
10_128_e3_3e-5/config.json +32 -0
10_128_e3_3e-5/merges.txt +0 -0
10_128_e3_3e-5/special_tokens_map.json +45 -0
10_128_e3_3e-5/tokenizer.json +0 -0
10_128_e3_3e-5/tokenizer_config.json +188 -0
10_128_e3_3e-5/train_results.json +9 -0
10_128_e3_3e-5/trainer_state.json +1163 -0
10_128_e3_3e-5/training_args.bin +3 -0
10_128_e3_3e-5/vocab.json +0 -0

10_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

10_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 10_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 10_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

10_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "up_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

10_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcf47c60d2accbaec61e0f7ea6ac479530c1c3c9339fbbdf637b11ffe64b07b5
+size 791751704

10_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.1268309917305405e+18,
+    "train_loss": 0.6050885462396303,
+    "train_runtime": 539.6995,
+    "train_samples": 8523,
+    "train_samples_per_second": 47.376,
+    "train_steps_per_second": 1.484
+}

10_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

10_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

10_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

10_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

10_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

10_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.1268309917305405e+18,
+    "train_loss": 0.6050885462396303,
+    "train_runtime": 539.6995,
+    "train_samples": 8523,
+    "train_samples_per_second": 47.376,
+    "train_steps_per_second": 1.484
+}

10_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1163 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 801,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01876172607879925,
+      "grad_norm": 1.0696531534194946,
+      "learning_rate": 2.9268292682926833e-06,
+      "loss": 1.3304,
+      "step": 5
+    },
+    {
+      "epoch": 0.0375234521575985,
+      "grad_norm": 0.6684181094169617,
+      "learning_rate": 6.585365853658537e-06,
+      "loss": 1.3376,
+      "step": 10
+    },
+    {
+      "epoch": 0.05628517823639775,
+      "grad_norm": 0.6116899847984314,
+      "learning_rate": 1.024390243902439e-05,
+      "loss": 1.3256,
+      "step": 15
+    },
+    {
+      "epoch": 0.075046904315197,
+      "grad_norm": 0.4908987879753113,
+      "learning_rate": 1.3902439024390245e-05,
+      "loss": 1.2638,
+      "step": 20
+    },
+    {
+      "epoch": 0.09380863039399624,
+      "grad_norm": 0.48929277062416077,
+      "learning_rate": 1.7560975609756096e-05,
+      "loss": 1.264,
+      "step": 25
+    },
+    {
+      "epoch": 0.1125703564727955,
+      "grad_norm": 0.4926508069038391,
+      "learning_rate": 2.121951219512195e-05,
+      "loss": 1.2365,
+      "step": 30
+    },
+    {
+      "epoch": 0.13133208255159476,
+      "grad_norm": 0.6299135088920593,
+      "learning_rate": 2.4878048780487805e-05,
+      "loss": 1.2247,
+      "step": 35
+    },
+    {
+      "epoch": 0.150093808630394,
+      "grad_norm": 0.49663758277893066,
+      "learning_rate": 2.8536585365853658e-05,
+      "loss": 1.1925,
+      "step": 40
+    },
+    {
+      "epoch": 0.16885553470919323,
+      "grad_norm": 0.4971533417701721,
+      "learning_rate": 2.999884662437762e-05,
+      "loss": 1.2344,
+      "step": 45
+    },
+    {
+      "epoch": 0.18761726078799248,
+      "grad_norm": 0.4359768033027649,
+      "learning_rate": 2.999179886011389e-05,
+      "loss": 1.2331,
+      "step": 50
+    },
+    {
+      "epoch": 0.20637898686679174,
+      "grad_norm": 0.396613746881485,
+      "learning_rate": 2.9978347102739695e-05,
+      "loss": 1.1624,
+      "step": 55
+    },
+    {
+      "epoch": 0.225140712945591,
+      "grad_norm": 0.4837495684623718,
+      "learning_rate": 2.9958497098394115e-05,
+      "loss": 1.1888,
+      "step": 60
+    },
+    {
+      "epoch": 0.24390243902439024,
+      "grad_norm": 0.5129842758178711,
+      "learning_rate": 2.9932257326332545e-05,
+      "loss": 1.1225,
+      "step": 65
+    },
+    {
+      "epoch": 0.2626641651031895,
+      "grad_norm": 0.5073619484901428,
+      "learning_rate": 2.9899638995304575e-05,
+      "loss": 1.1284,
+      "step": 70
+    },
+    {
+      "epoch": 0.28142589118198874,
+      "grad_norm": 0.5617268085479736,
+      "learning_rate": 2.9860656038766035e-05,
+      "loss": 1.1082,
+      "step": 75
+    },
+    {
+      "epoch": 0.300187617260788,
+      "grad_norm": 0.528480589389801,
+      "learning_rate": 2.981532510892707e-05,
+      "loss": 1.0783,
+      "step": 80
+    },
+    {
+      "epoch": 0.31894934333958724,
+      "grad_norm": 0.5872980952262878,
+      "learning_rate": 2.9763665569638878e-05,
+      "loss": 1.1571,
+      "step": 85
+    },
+    {
+      "epoch": 0.33771106941838647,
+      "grad_norm": 0.5219384431838989,
+      "learning_rate": 2.970569948812214e-05,
+      "loss": 1.0974,
+      "step": 90
+    },
+    {
+      "epoch": 0.35647279549718575,
+      "grad_norm": 0.6264052391052246,
+      "learning_rate": 2.964145162554061e-05,
+      "loss": 1.0843,
+      "step": 95
+    },
+    {
+      "epoch": 0.37523452157598497,
+      "grad_norm": 0.7435789108276367,
+      "learning_rate": 2.9570949426424015e-05,
+      "loss": 0.9733,
+      "step": 100
+    },
+    {
+      "epoch": 0.39399624765478425,
+      "grad_norm": 0.6759941577911377,
+      "learning_rate": 2.9494223006944636e-05,
+      "loss": 1.0487,
+      "step": 105
+    },
+    {
+      "epoch": 0.41275797373358347,
+      "grad_norm": 0.6874338984489441,
+      "learning_rate": 2.9411305142052725e-05,
+      "loss": 1.029,
+      "step": 110
+    },
+    {
+      "epoch": 0.43151969981238275,
+      "grad_norm": 0.6738393902778625,
+      "learning_rate": 2.9322231251476117e-05,
+      "loss": 1.0347,
+      "step": 115
+    },
+    {
+      "epoch": 0.450281425891182,
+      "grad_norm": 0.5868513584136963,
+      "learning_rate": 2.9227039384590143e-05,
+      "loss": 0.9995,
+      "step": 120
+    },
+    {
+      "epoch": 0.46904315196998125,
+      "grad_norm": 0.6344810724258423,
+      "learning_rate": 2.9125770204164183e-05,
+      "loss": 0.9521,
+      "step": 125
+    },
+    {
+      "epoch": 0.4878048780487805,
+      "grad_norm": 0.6045148968696594,
+      "learning_rate": 2.9018466968991913e-05,
+      "loss": 0.9883,
+      "step": 130
+    },
+    {
+      "epoch": 0.5065666041275797,
+      "grad_norm": 0.9563856720924377,
+      "learning_rate": 2.8905175515412607e-05,
+      "loss": 0.9961,
+      "step": 135
+    },
+    {
+      "epoch": 0.525328330206379,
+      "grad_norm": 0.8189799189567566,
+      "learning_rate": 2.8785944237731366e-05,
+      "loss": 0.9583,
+      "step": 140
+    },
+    {
+      "epoch": 0.5440900562851783,
+      "grad_norm": 0.772591769695282,
+      "learning_rate": 2.8660824067546728e-05,
+      "loss": 0.9703,
+      "step": 145
+    },
+    {
+      "epoch": 0.5628517823639775,
+      "grad_norm": 0.7021933794021606,
+      "learning_rate": 2.8529868451994387e-05,
+      "loss": 0.9135,
+      "step": 150
+    },
+    {
+      "epoch": 0.5816135084427767,
+      "grad_norm": 0.8586011528968811,
+      "learning_rate": 2.8393133330916343e-05,
+      "loss": 0.976,
+      "step": 155
+    },
+    {
+      "epoch": 0.600375234521576,
+      "grad_norm": 0.7351802587509155,
+      "learning_rate": 2.825067711296533e-05,
+      "loss": 0.9825,
+      "step": 160
+    },
+    {
+      "epoch": 0.6191369606003753,
+      "grad_norm": 0.8357824683189392,
+      "learning_rate": 2.8102560650654564e-05,
+      "loss": 0.9014,
+      "step": 165
+    },
+    {
+      "epoch": 0.6378986866791745,
+      "grad_norm": 0.8417012691497803,
+      "learning_rate": 2.794884721436361e-05,
+      "loss": 0.8286,
+      "step": 170
+    },
+    {
+      "epoch": 0.6566604127579737,
+      "grad_norm": 0.8231289982795715,
+      "learning_rate": 2.7789602465311384e-05,
+      "loss": 0.8614,
+      "step": 175
+    },
+    {
+      "epoch": 0.6754221388367729,
+      "grad_norm": 0.9089785218238831,
+      "learning_rate": 2.7624894427507907e-05,
+      "loss": 0.8241,
+      "step": 180
+    },
+    {
+      "epoch": 0.6941838649155723,
+      "grad_norm": 0.8490611910820007,
+      "learning_rate": 2.745479345869671e-05,
+      "loss": 0.8536,
+      "step": 185
+    },
+    {
+      "epoch": 0.7129455909943715,
+      "grad_norm": 0.8751655220985413,
+      "learning_rate": 2.727937222030039e-05,
+      "loss": 0.8818,
+      "step": 190
+    },
+    {
+      "epoch": 0.7317073170731707,
+      "grad_norm": 1.1125720739364624,
+      "learning_rate": 2.709870564638206e-05,
+      "loss": 0.7899,
+      "step": 195
+    },
+    {
+      "epoch": 0.7504690431519699,
+      "grad_norm": 1.0530298948287964,
+      "learning_rate": 2.6912870911636064e-05,
+      "loss": 0.8365,
+      "step": 200
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 1.0012403726577759,
+      "learning_rate": 2.6721947398421535e-05,
+      "loss": 0.7771,
+      "step": 205
+    },
+    {
+      "epoch": 0.7879924953095685,
+      "grad_norm": 0.8847233057022095,
+      "learning_rate": 2.6526016662852887e-05,
+      "loss": 0.8064,
+      "step": 210
+    },
+    {
+      "epoch": 0.8067542213883677,
+      "grad_norm": 0.9447755217552185,
+      "learning_rate": 2.632516239996181e-05,
+      "loss": 0.7857,
+      "step": 215
+    },
+    {
+      "epoch": 0.8255159474671669,
+      "grad_norm": 1.038436770439148,
+      "learning_rate": 2.6119470407945566e-05,
+      "loss": 0.8169,
+      "step": 220
+    },
+    {
+      "epoch": 0.8442776735459663,
+      "grad_norm": 0.9454640746116638,
+      "learning_rate": 2.5909028551516845e-05,
+      "loss": 0.781,
+      "step": 225
+    },
+    {
+      "epoch": 0.8630393996247655,
+      "grad_norm": 1.0459352731704712,
+      "learning_rate": 2.5693926724370958e-05,
+      "loss": 0.7921,
+      "step": 230
+    },
+    {
+      "epoch": 0.8818011257035647,
+      "grad_norm": 1.097281813621521,
+      "learning_rate": 2.5474256810786226e-05,
+      "loss": 0.7594,
+      "step": 235
+    },
+    {
+      "epoch": 0.900562851782364,
+      "grad_norm": 0.9328632950782776,
+      "learning_rate": 2.5250112646374125e-05,
+      "loss": 0.7259,
+      "step": 240
+    },
+    {
+      "epoch": 0.9193245778611632,
+      "grad_norm": 1.0641539096832275,
+      "learning_rate": 2.5021589977995867e-05,
+      "loss": 0.7704,
+      "step": 245
+    },
+    {
+      "epoch": 0.9380863039399625,
+      "grad_norm": 0.9576089978218079,
+      "learning_rate": 2.478878642286253e-05,
+      "loss": 0.7943,
+      "step": 250
+    },
+    {
+      "epoch": 0.9568480300187617,
+      "grad_norm": 1.1007577180862427,
+      "learning_rate": 2.4551801426836288e-05,
+      "loss": 0.7019,
+      "step": 255
+    },
+    {
+      "epoch": 0.975609756097561,
+      "grad_norm": 0.933595597743988,
+      "learning_rate": 2.431073622195047e-05,
+      "loss": 0.7454,
+      "step": 260
+    },
+    {
+      "epoch": 0.9943714821763602,
+      "grad_norm": 1.171541452407837,
+      "learning_rate": 2.4065693783166626e-05,
+      "loss": 0.7196,
+      "step": 265
+    },
+    {
+      "epoch": 1.0112570356472796,
+      "grad_norm": 1.0217924118041992,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 0.657,
+      "step": 270
+    },
+    {
+      "epoch": 1.0300187617260788,
+      "grad_norm": 1.0809696912765503,
+      "learning_rate": 2.3564097553741828e-05,
+      "loss": 0.6031,
+      "step": 275
+    },
+    {
+      "epoch": 1.048780487804878,
+      "grad_norm": 1.0966053009033203,
+      "learning_rate": 2.330775802816856e-05,
+      "loss": 0.6243,
+      "step": 280
+    },
+    {
+      "epoch": 1.0675422138836772,
+      "grad_norm": 1.170552372932434,
+      "learning_rate": 2.3047869707305794e-05,
+      "loss": 0.653,
+      "step": 285
+    },
+    {
+      "epoch": 1.0863039399624765,
+      "grad_norm": 1.1501471996307373,
+      "learning_rate": 2.2784543606718227e-05,
+      "loss": 0.5903,
+      "step": 290
+    },
+    {
+      "epoch": 1.1050656660412759,
+      "grad_norm": 1.2040247917175293,
+      "learning_rate": 2.251789221047464e-05,
+      "loss": 0.5643,
+      "step": 295
+    },
+    {
+      "epoch": 1.123827392120075,
+      "grad_norm": 1.0230525732040405,
+      "learning_rate": 2.2248029423098443e-05,
+      "loss": 0.5873,
+      "step": 300
+    },
+    {
+      "epoch": 1.1425891181988743,
+      "grad_norm": 1.0803359746932983,
+      "learning_rate": 2.1975070520911534e-05,
+      "loss": 0.5905,
+      "step": 305
+    },
+    {
+      "epoch": 1.1613508442776737,
+      "grad_norm": 1.2849054336547852,
+      "learning_rate": 2.16991321027921e-05,
+      "loss": 0.5905,
+      "step": 310
+    },
+    {
+      "epoch": 1.1801125703564728,
+      "grad_norm": 1.2298587560653687,
+      "learning_rate": 2.1420332040367486e-05,
+      "loss": 0.6061,
+      "step": 315
+    },
+    {
+      "epoch": 1.198874296435272,
+      "grad_norm": 1.247847557067871,
+      "learning_rate": 2.113878942766341e-05,
+      "loss": 0.5815,
+      "step": 320
+    },
+    {
+      "epoch": 1.2176360225140712,
+      "grad_norm": 1.0723464488983154,
+      "learning_rate": 2.0854624530230984e-05,
+      "loss": 0.5586,
+      "step": 325
+    },
+    {
+      "epoch": 1.2363977485928705,
+      "grad_norm": 1.2919312715530396,
+      "learning_rate": 2.056795873377331e-05,
+      "loss": 0.5461,
+      "step": 330
+    },
+    {
+      "epoch": 1.2551594746716699,
+      "grad_norm": 1.109418272972107,
+      "learning_rate": 2.0278914492293585e-05,
+      "loss": 0.5735,
+      "step": 335
+    },
+    {
+      "epoch": 1.273921200750469,
+      "grad_norm": 1.216676950454712,
+      "learning_rate": 1.9987615275786852e-05,
+      "loss": 0.5085,
+      "step": 340
+    },
+    {
+      "epoch": 1.2926829268292683,
+      "grad_norm": 1.149660348892212,
+      "learning_rate": 1.9694185517497785e-05,
+      "loss": 0.5581,
+      "step": 345
+    },
+    {
+      "epoch": 1.3114446529080674,
+      "grad_norm": 1.3039333820343018,
+      "learning_rate": 1.9398750560766973e-05,
+      "loss": 0.5582,
+      "step": 350
+    },
+    {
+      "epoch": 1.3302063789868668,
+      "grad_norm": 1.2310184240341187,
+      "learning_rate": 1.910143660548844e-05,
+      "loss": 0.5922,
+      "step": 355
+    },
+    {
+      "epoch": 1.3489681050656661,
+      "grad_norm": 1.155681848526001,
+      "learning_rate": 1.880237065420131e-05,
+      "loss": 0.5908,
+      "step": 360
+    },
+    {
+      "epoch": 1.3677298311444652,
+      "grad_norm": 1.2159004211425781,
+      "learning_rate": 1.8501680457838582e-05,
+      "loss": 0.5883,
+      "step": 365
+    },
+    {
+      "epoch": 1.3864915572232646,
+      "grad_norm": 1.2675368785858154,
+      "learning_rate": 1.8199494461156203e-05,
+      "loss": 0.5185,
+      "step": 370
+    },
+    {
+      "epoch": 1.4052532833020637,
+      "grad_norm": 1.1656074523925781,
+      "learning_rate": 1.7895941747865804e-05,
+      "loss": 0.4981,
+      "step": 375
+    },
+    {
+      "epoch": 1.424015009380863,
+      "grad_norm": 1.1017036437988281,
+      "learning_rate": 1.7591151985494456e-05,
+      "loss": 0.4865,
+      "step": 380
+    },
+    {
+      "epoch": 1.4427767354596623,
+      "grad_norm": 1.2797452211380005,
+      "learning_rate": 1.7285255369995066e-05,
+      "loss": 0.5328,
+      "step": 385
+    },
+    {
+      "epoch": 1.4615384615384617,
+      "grad_norm": 1.2624801397323608,
+      "learning_rate": 1.6978382570131037e-05,
+      "loss": 0.5192,
+      "step": 390
+    },
+    {
+      "epoch": 1.4803001876172608,
+      "grad_norm": 1.2553631067276,
+      "learning_rate": 1.6670664671658944e-05,
+      "loss": 0.51,
+      "step": 395
+    },
+    {
+      "epoch": 1.49906191369606,
+      "grad_norm": 1.2062615156173706,
+      "learning_rate": 1.6362233121333124e-05,
+      "loss": 0.475,
+      "step": 400
+    },
+    {
+      "epoch": 1.5178236397748592,
+      "grad_norm": 1.3637845516204834,
+      "learning_rate": 1.6053219670756022e-05,
+      "loss": 0.526,
+      "step": 405
+    },
+    {
+      "epoch": 1.5365853658536586,
+      "grad_norm": 1.0783133506774902,
+      "learning_rate": 1.5743756320098334e-05,
+      "loss": 0.5101,
+      "step": 410
+    },
+    {
+      "epoch": 1.555347091932458,
+      "grad_norm": 1.238605260848999,
+      "learning_rate": 1.5433975261712957e-05,
+      "loss": 0.5369,
+      "step": 415
+    },
+    {
+      "epoch": 1.574108818011257,
+      "grad_norm": 1.145218849182129,
+      "learning_rate": 1.5124008823666874e-05,
+      "loss": 0.5014,
+      "step": 420
+    },
+    {
+      "epoch": 1.5928705440900561,
+      "grad_norm": 1.2945690155029297,
+      "learning_rate": 1.4813989413215026e-05,
+      "loss": 0.515,
+      "step": 425
+    },
+    {
+      "epoch": 1.6116322701688555,
+      "grad_norm": 1.4563132524490356,
+      "learning_rate": 1.4504049460240376e-05,
+      "loss": 0.4284,
+      "step": 430
+    },
+    {
+      "epoch": 1.6303939962476548,
+      "grad_norm": 1.231803297996521,
+      "learning_rate": 1.4194321360684354e-05,
+      "loss": 0.4913,
+      "step": 435
+    },
+    {
+      "epoch": 1.6491557223264541,
+      "grad_norm": 1.390836477279663,
+      "learning_rate": 1.3884937419991688e-05,
+      "loss": 0.4712,
+      "step": 440
+    },
+    {
+      "epoch": 1.6679174484052532,
+      "grad_norm": 1.1985927820205688,
+      "learning_rate": 1.3576029796594015e-05,
+      "loss": 0.476,
+      "step": 445
+    },
+    {
+      "epoch": 1.6866791744840526,
+      "grad_norm": 1.281071424484253,
+      "learning_rate": 1.3267730445456208e-05,
+      "loss": 0.4279,
+      "step": 450
+    },
+    {
+      "epoch": 1.7054409005628517,
+      "grad_norm": 1.2874833345413208,
+      "learning_rate": 1.2960171061709665e-05,
+      "loss": 0.4522,
+      "step": 455
+    },
+    {
+      "epoch": 1.724202626641651,
+      "grad_norm": 1.4192219972610474,
+      "learning_rate": 1.2653483024396535e-05,
+      "loss": 0.4876,
+      "step": 460
+    },
+    {
+      "epoch": 1.7429643527204504,
+      "grad_norm": 1.2156274318695068,
+      "learning_rate": 1.234779734034906e-05,
+      "loss": 0.4666,
+      "step": 465
+    },
+    {
+      "epoch": 1.7617260787992497,
+      "grad_norm": 1.2382467985153198,
+      "learning_rate": 1.2043244588227797e-05,
+      "loss": 0.4307,
+      "step": 470
+    },
+    {
+      "epoch": 1.7804878048780488,
+      "grad_norm": 1.1710734367370605,
+      "learning_rate": 1.1739954862742825e-05,
+      "loss": 0.4381,
+      "step": 475
+    },
+    {
+      "epoch": 1.799249530956848,
+      "grad_norm": 1.1785454750061035,
+      "learning_rate": 1.1438057719081672e-05,
+      "loss": 0.4505,
+      "step": 480
+    },
+    {
+      "epoch": 1.8180112570356473,
+      "grad_norm": 1.2967588901519775,
+      "learning_rate": 1.1137682117567642e-05,
+      "loss": 0.4545,
+      "step": 485
+    },
+    {
+      "epoch": 1.8367729831144466,
+      "grad_norm": 1.268123984336853,
+      "learning_rate": 1.0838956368572335e-05,
+      "loss": 0.4131,
+      "step": 490
+    },
+    {
+      "epoch": 1.855534709193246,
+      "grad_norm": 1.2306824922561646,
+      "learning_rate": 1.0542008077705742e-05,
+      "loss": 0.4986,
+      "step": 495
+    },
+    {
+      "epoch": 1.874296435272045,
+      "grad_norm": 1.3436534404754639,
+      "learning_rate": 1.0246964091307435e-05,
+      "loss": 0.395,
+      "step": 500
+    },
+    {
+      "epoch": 1.8930581613508441,
+      "grad_norm": 1.4677764177322388,
+      "learning_rate": 9.953950442262046e-06,
+      "loss": 0.4281,
+      "step": 505
+    },
+    {
+      "epoch": 1.9118198874296435,
+      "grad_norm": 1.3258951902389526,
+      "learning_rate": 9.663092296162252e-06,
+      "loss": 0.4121,
+      "step": 510
+    },
+    {
+      "epoch": 1.9305816135084428,
+      "grad_norm": 1.234534740447998,
+      "learning_rate": 9.374513897842268e-06,
+      "loss": 0.4414,
+      "step": 515
+    },
+    {
+      "epoch": 1.9493433395872422,
+      "grad_norm": 1.3914878368377686,
+      "learning_rate": 9.08833851830458e-06,
+      "loss": 0.4597,
+      "step": 520
+    },
+    {
+      "epoch": 1.9681050656660413,
+      "grad_norm": 1.3980244398117065,
+      "learning_rate": 8.804688402062736e-06,
+      "loss": 0.4242,
+      "step": 525
+    },
+    {
+      "epoch": 1.9868667917448404,
+      "grad_norm": 1.4999836683273315,
+      "learning_rate": 8.523684714922608e-06,
+      "loss": 0.3803,
+      "step": 530
+    },
+    {
+      "epoch": 2.00375234521576,
+      "grad_norm": 1.219685435295105,
+      "learning_rate": 8.245447492224397e-06,
+      "loss": 0.3732,
+      "step": 535
+    },
+    {
+      "epoch": 2.0225140712945593,
+      "grad_norm": 1.320766568183899,
+      "learning_rate": 7.97009558756758e-06,
+      "loss": 0.3438,
+      "step": 540
+    },
+    {
+      "epoch": 2.041275797373358,
+      "grad_norm": 1.3914555311203003,
+      "learning_rate": 7.697746622040658e-06,
+      "loss": 0.3618,
+      "step": 545
+    },
+    {
+      "epoch": 2.0600375234521575,
+      "grad_norm": 1.2568089962005615,
+      "learning_rate": 7.4285169339773486e-06,
+      "loss": 0.3433,
+      "step": 550
+    },
+    {
+      "epoch": 2.078799249530957,
+      "grad_norm": 1.3057646751403809,
+      "learning_rate": 7.1625215292607685e-06,
+      "loss": 0.3419,
+      "step": 555
+    },
+    {
+      "epoch": 2.097560975609756,
+      "grad_norm": 1.399520754814148,
+      "learning_rate": 6.899874032196796e-06,
+      "loss": 0.3047,
+      "step": 560
+    },
+    {
+      "epoch": 2.1163227016885555,
+      "grad_norm": 1.2716020345687866,
+      "learning_rate": 6.640686636977554e-06,
+      "loss": 0.3231,
+      "step": 565
+    },
+    {
+      "epoch": 2.1350844277673544,
+      "grad_norm": 1.3657764196395874,
+      "learning_rate": 6.3850700597558465e-06,
+      "loss": 0.2973,
+      "step": 570
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 2.339411735534668,
+      "learning_rate": 6.133133491350907e-06,
+      "loss": 0.3694,
+      "step": 575
+    },
+    {
+      "epoch": 2.172607879924953,
+      "grad_norm": 1.308742880821228,
+      "learning_rate": 5.884984550605782e-06,
+      "loss": 0.324,
+      "step": 580
+    },
+    {
+      "epoch": 2.1913696060037524,
+      "grad_norm": 1.360335350036621,
+      "learning_rate": 5.640729238416137e-06,
+      "loss": 0.3533,
+      "step": 585
+    },
+    {
+      "epoch": 2.2101313320825517,
+      "grad_norm": 1.4764569997787476,
+      "learning_rate": 5.400471892450251e-06,
+      "loss": 0.359,
+      "step": 590
+    },
+    {
+      "epoch": 2.2288930581613506,
+      "grad_norm": 1.2256900072097778,
+      "learning_rate": 5.164315142579485e-06,
+      "loss": 0.3321,
+      "step": 595
+    },
+    {
+      "epoch": 2.24765478424015,
+      "grad_norm": 1.2927685976028442,
+      "learning_rate": 4.93235986703821e-06,
+      "loss": 0.3713,
+      "step": 600
+    },
+    {
+      "epoch": 2.2664165103189493,
+      "grad_norm": 1.4236794710159302,
+      "learning_rate": 4.704705149332035e-06,
+      "loss": 0.3375,
+      "step": 605
+    },
+    {
+      "epoch": 2.2851782363977486,
+      "grad_norm": 1.4847577810287476,
+      "learning_rate": 4.481448235912671e-06,
+      "loss": 0.3206,
+      "step": 610
+    },
+    {
+      "epoch": 2.303939962476548,
+      "grad_norm": 1.4018380641937256,
+      "learning_rate": 4.262684494637483e-06,
+      "loss": 0.3209,
+      "step": 615
+    },
+    {
+      "epoch": 2.3227016885553473,
+      "grad_norm": 1.3895155191421509,
+      "learning_rate": 4.048507374031557e-06,
+      "loss": 0.347,
+      "step": 620
+    },
+    {
+      "epoch": 2.341463414634146,
+      "grad_norm": 1.6010600328445435,
+      "learning_rate": 3.8390083633696434e-06,
+      "loss": 0.3341,
+      "step": 625
+    },
+    {
+      "epoch": 2.3602251407129455,
+      "grad_norm": 1.3875012397766113,
+      "learning_rate": 3.634276953594982e-06,
+      "loss": 0.3296,
+      "step": 630
+    },
+    {
+      "epoch": 2.378986866791745,
+      "grad_norm": 1.3787410259246826,
+      "learning_rate": 3.4344005990917936e-06,
+      "loss": 0.305,
+      "step": 635
+    },
+    {
+      "epoch": 2.397748592870544,
+      "grad_norm": 1.3879263401031494,
+      "learning_rate": 3.2394646803277063e-06,
+      "loss": 0.3147,
+      "step": 640
+    },
+    {
+      "epoch": 2.416510318949343,
+      "grad_norm": 1.4562877416610718,
+      "learning_rate": 3.049552467382071e-06,
+      "loss": 0.3361,
+      "step": 645
+    },
+    {
+      "epoch": 2.4352720450281424,
+      "grad_norm": 1.35879385471344,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 0.3533,
+      "step": 650
+    },
+    {
+      "epoch": 2.4540337711069418,
+      "grad_norm": 1.5851706266403198,
+      "learning_rate": 2.6851214748178223e-06,
+      "loss": 0.3318,
+      "step": 655
+    },
+    {
+      "epoch": 2.472795497185741,
+      "grad_norm": 1.312781572341919,
+      "learning_rate": 2.5107583678831445e-06,
+      "loss": 0.3236,
+      "step": 660
+    },
+    {
+      "epoch": 2.4915572232645404,
+      "grad_norm": 1.3993843793869019,
+      "learning_rate": 2.3417302456366586e-06,
+      "loss": 0.3056,
+      "step": 665
+    },
+    {
+      "epoch": 2.5103189493433398,
+      "grad_norm": 1.5529543161392212,
+      "learning_rate": 2.1781093112169132e-06,
+      "loss": 0.3138,
+      "step": 670
+    },
+    {
+      "epoch": 2.529080675422139,
+      "grad_norm": 1.5525503158569336,
+      "learning_rate": 2.019965457993387e-06,
+      "loss": 0.3436,
+      "step": 675
+    },
+    {
+      "epoch": 2.547842401500938,
+      "grad_norm": 1.3457770347595215,
+      "learning_rate": 1.867366239710358e-06,
+      "loss": 0.3177,
+      "step": 680
+    },
+    {
+      "epoch": 2.5666041275797373,
+      "grad_norm": 1.2777607440948486,
+      "learning_rate": 1.7203768416302213e-06,
+      "loss": 0.285,
+      "step": 685
+    },
+    {
+      "epoch": 2.5853658536585367,
+      "grad_norm": 1.3526350259780884,
+      "learning_rate": 1.579060052688548e-06,
+      "loss": 0.3034,
+      "step": 690
+    },
+    {
+      "epoch": 2.604127579737336,
+      "grad_norm": 1.3901035785675049,
+      "learning_rate": 1.4434762386727386e-06,
+      "loss": 0.2846,
+      "step": 695
+    },
+    {
+      "epoch": 2.622889305816135,
+      "grad_norm": 1.1691950559616089,
+      "learning_rate": 1.313683316435793e-06,
+      "loss": 0.3179,
+      "step": 700
+    },
+    {
+      "epoch": 2.641651031894934,
+      "grad_norm": 1.366736888885498,
+      "learning_rate": 1.18973672915619e-06,
+      "loss": 0.2804,
+      "step": 705
+    },
+    {
+      "epoch": 2.6604127579737336,
+      "grad_norm": 1.2566338777542114,
+      "learning_rate": 1.0716894226543954e-06,
+      "loss": 0.3552,
+      "step": 710
+    },
+    {
+      "epoch": 2.679174484052533,
+      "grad_norm": 1.3853604793548584,
+      "learning_rate": 9.595918227762052e-07,
+      "loss": 0.274,
+      "step": 715
+    },
+    {
+      "epoch": 2.6979362101313322,
+      "grad_norm": 1.4857863187789917,
+      "learning_rate": 8.534918138525211e-07,
+      "loss": 0.2908,
+      "step": 720
+    },
+    {
+      "epoch": 2.7166979362101316,
+      "grad_norm": 1.4838248491287231,
+      "learning_rate": 7.534347182447521e-07,
+      "loss": 0.3371,
+      "step": 725
+    },
+    {
+      "epoch": 2.7354596622889304,
+      "grad_norm": 1.2655830383300781,
+      "learning_rate": 6.594632769846353e-07,
+      "loss": 0.2639,
+      "step": 730
+    },
+    {
+      "epoch": 2.75422138836773,
+      "grad_norm": 1.2457119226455688,
+      "learning_rate": 5.71617631516711e-07,
+      "loss": 0.293,
+      "step": 735
+    },
+    {
+      "epoch": 2.772983114446529,
+      "grad_norm": 1.4320305585861206,
+      "learning_rate": 4.899353065512263e-07,
+      "loss": 0.3562,
+      "step": 740
+    },
+    {
+      "epoch": 2.7917448405253285,
+      "grad_norm": 1.3314355611801147,
+      "learning_rate": 4.1445119403485165e-07,
+      "loss": 0.3022,
+      "step": 745
+    },
+    {
+      "epoch": 2.8105065666041273,
+      "grad_norm": 1.353570818901062,
+      "learning_rate": 3.45197538246011e-07,
+      "loss": 0.3152,
+      "step": 750
+    },
+    {
+      "epoch": 2.8292682926829267,
+      "grad_norm": 1.2059180736541748,
+      "learning_rate": 2.822039220212064e-07,
+      "loss": 0.3293,
+      "step": 755
+    },
+    {
+      "epoch": 2.848030018761726,
+      "grad_norm": 1.3070722818374634,
+      "learning_rate": 2.2549725411822485e-07,
+      "loss": 0.2951,
+      "step": 760
+    },
+    {
+      "epoch": 2.8667917448405253,
+      "grad_norm": 1.4743932485580444,
+      "learning_rate": 1.751017577216163e-07,
+      "loss": 0.3245,
+      "step": 765
+    },
+    {
+      "epoch": 2.8855534709193247,
+      "grad_norm": 1.5637805461883545,
+      "learning_rate": 1.3103896009537207e-07,
+      "loss": 0.2771,
+      "step": 770
+    },
+    {
+      "epoch": 2.904315196998124,
+      "grad_norm": 1.5998591184616089,
+      "learning_rate": 9.3327683387191e-08,
+      "loss": 0.2802,
+      "step": 775
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 1.2156660556793213,
+      "learning_rate": 6.198403658829233e-08,
+      "loss": 0.3222,
+      "step": 780
+    },
+    {
+      "epoch": 2.9418386491557222,
+      "grad_norm": 1.3603795766830444,
+      "learning_rate": 3.702140865220027e-08,
+      "loss": 0.2951,
+      "step": 785
+    },
+    {
+      "epoch": 2.9606003752345216,
+      "grad_norm": 1.2459323406219482,
+      "learning_rate": 1.8450462775428946e-08,
+      "loss": 0.3317,
+      "step": 790
+    },
+    {
+      "epoch": 2.979362101313321,
+      "grad_norm": 1.2606308460235596,
+      "learning_rate": 6.279131842517605e-09,
+      "loss": 0.3282,
+      "step": 795
+    },
+    {
+      "epoch": 2.99812382739212,
+      "grad_norm": 1.2627543210983276,
+      "learning_rate": 5.126150373813144e-10,
+      "loss": 0.2983,
+      "step": 800
+    },
+    {
+      "epoch": 3.0,
+      "step": 801,
+      "total_flos": 1.1268309917305405e+18,
+      "train_loss": 0.6050885462396303,
+      "train_runtime": 539.6995,
+      "train_samples_per_second": 47.376,
+      "train_steps_per_second": 1.484
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 801,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1268309917305405e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

10_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b7bc5d5922d51164fa639868ed6c09cbdb54a44a01128c2875296d50753d42d
+size 8145

10_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff