Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

33_128_e3_3e-5/.gitattributes +35 -0
33_128_e3_3e-5/README.md +63 -0
33_128_e3_3e-5/adapter_config.json +39 -0
33_128_e3_3e-5/adapter_model.safetensors +3 -0
33_128_e3_3e-5/all_results.json +9 -0
33_128_e3_3e-5/config.json +32 -0
33_128_e3_3e-5/merges.txt +0 -0
33_128_e3_3e-5/special_tokens_map.json +45 -0
33_128_e3_3e-5/tokenizer.json +0 -0
33_128_e3_3e-5/tokenizer_config.json +188 -0
33_128_e3_3e-5/train_results.json +9 -0
33_128_e3_3e-5/trainer_state.json +1114 -0
33_128_e3_3e-5/training_args.bin +3 -0
33_128_e3_3e-5/vocab.json +0 -0

33_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

33_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 33_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 33_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

33_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "k_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "o_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

33_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18d2de2ba6ded777affa6040ca29af12c5aafaf217ae099a66fcf64392b86491
+size 791751704

33_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.0846370135686513e+18,
+    "train_loss": 0.5519534474104838,
+    "train_runtime": 521.6672,
+    "train_samples": 8148,
+    "train_samples_per_second": 46.857,
+    "train_steps_per_second": 1.466
+}

33_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

33_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

33_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

33_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

33_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

33_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.0846370135686513e+18,
+    "train_loss": 0.5519534474104838,
+    "train_runtime": 521.6672,
+    "train_samples": 8148,
+    "train_samples_per_second": 46.857,
+    "train_steps_per_second": 1.466
+}

33_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1114 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 765,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0196078431372549,
+      "grad_norm": 1.0652228593826294,
+      "learning_rate": 3.076923076923077e-06,
+      "loss": 1.376,
+      "step": 5
+    },
+    {
+      "epoch": 0.0392156862745098,
+      "grad_norm": 0.7288665771484375,
+      "learning_rate": 6.923076923076923e-06,
+      "loss": 1.3269,
+      "step": 10
+    },
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 0.6073998808860779,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 1.3313,
+      "step": 15
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": 0.5213105082511902,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 1.2925,
+      "step": 20
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "grad_norm": 0.5318129658699036,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 1.3049,
+      "step": 25
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 0.7445459961891174,
+      "learning_rate": 2.230769230769231e-05,
+      "loss": 1.1858,
+      "step": 30
+    },
+    {
+      "epoch": 0.13725490196078433,
+      "grad_norm": 0.4316466748714447,
+      "learning_rate": 2.6153846153846157e-05,
+      "loss": 1.2056,
+      "step": 35
+    },
+    {
+      "epoch": 0.1568627450980392,
+      "grad_norm": 0.45736411213874817,
+      "learning_rate": 3e-05,
+      "loss": 1.2123,
+      "step": 40
+    },
+    {
+      "epoch": 0.17647058823529413,
+      "grad_norm": 0.42540010809898376,
+      "learning_rate": 2.9996489161648808e-05,
+      "loss": 1.157,
+      "step": 45
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "grad_norm": 0.4674363434314728,
+      "learning_rate": 2.998595829006001e-05,
+      "loss": 1.1633,
+      "step": 50
+    },
+    {
+      "epoch": 0.21568627450980393,
+      "grad_norm": 0.5556497573852539,
+      "learning_rate": 2.9968412314858662e-05,
+      "loss": 1.1965,
+      "step": 55
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 0.4780976176261902,
+      "learning_rate": 2.9943859449522446e-05,
+      "loss": 1.13,
+      "step": 60
+    },
+    {
+      "epoch": 0.2549019607843137,
+      "grad_norm": 0.49295440316200256,
+      "learning_rate": 2.9912311187536867e-05,
+      "loss": 1.1542,
+      "step": 65
+    },
+    {
+      "epoch": 0.27450980392156865,
+      "grad_norm": 0.5305011868476868,
+      "learning_rate": 2.9873782297014996e-05,
+      "loss": 1.1006,
+      "step": 70
+    },
+    {
+      "epoch": 0.29411764705882354,
+      "grad_norm": 0.5086564421653748,
+      "learning_rate": 2.9828290813784366e-05,
+      "loss": 1.0172,
+      "step": 75
+    },
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 0.7239808440208435,
+      "learning_rate": 2.977585803294418e-05,
+      "loss": 1.0444,
+      "step": 80
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.528880774974823,
+      "learning_rate": 2.971650849889681e-05,
+      "loss": 1.0699,
+      "step": 85
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 0.6257346868515015,
+      "learning_rate": 2.9650269993858287e-05,
+      "loss": 1.0563,
+      "step": 90
+    },
+    {
+      "epoch": 0.37254901960784315,
+      "grad_norm": 0.6212525367736816,
+      "learning_rate": 2.957717352485313e-05,
+      "loss": 1.0016,
+      "step": 95
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.6256663799285889,
+      "learning_rate": 2.9497253309199556e-05,
+      "loss": 0.9701,
+      "step": 100
+    },
+    {
+      "epoch": 0.4117647058823529,
+      "grad_norm": 0.6223200559616089,
+      "learning_rate": 2.9410546758491995e-05,
+      "loss": 0.96,
+      "step": 105
+    },
+    {
+      "epoch": 0.43137254901960786,
+      "grad_norm": 0.6633890271186829,
+      "learning_rate": 2.9317094461088247e-05,
+      "loss": 1.019,
+      "step": 110
+    },
+    {
+      "epoch": 0.45098039215686275,
+      "grad_norm": 0.6415439248085022,
+      "learning_rate": 2.9216940163109612e-05,
+      "loss": 0.9994,
+      "step": 115
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.6531383991241455,
+      "learning_rate": 2.91101307479628e-05,
+      "loss": 0.916,
+      "step": 120
+    },
+    {
+      "epoch": 0.49019607843137253,
+      "grad_norm": 0.9472516179084778,
+      "learning_rate": 2.8996716214393282e-05,
+      "loss": 0.9018,
+      "step": 125
+    },
+    {
+      "epoch": 0.5098039215686274,
+      "grad_norm": 0.687556266784668,
+      "learning_rate": 2.8876749653080256e-05,
+      "loss": 0.9445,
+      "step": 130
+    },
+    {
+      "epoch": 0.5294117647058824,
+      "grad_norm": 0.6623567342758179,
+      "learning_rate": 2.8750287221784304e-05,
+      "loss": 0.8802,
+      "step": 135
+    },
+    {
+      "epoch": 0.5490196078431373,
+      "grad_norm": 0.7270511388778687,
+      "learning_rate": 2.861738811905926e-05,
+      "loss": 0.8745,
+      "step": 140
+    },
+    {
+      "epoch": 0.5686274509803921,
+      "grad_norm": 0.776639461517334,
+      "learning_rate": 2.8478114556540683e-05,
+      "loss": 0.867,
+      "step": 145
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.8078317642211914,
+      "learning_rate": 2.8332531729823853e-05,
+      "loss": 0.8839,
+      "step": 150
+    },
+    {
+      "epoch": 0.6078431372549019,
+      "grad_norm": 0.8602754473686218,
+      "learning_rate": 2.818070778794494e-05,
+      "loss": 0.82,
+      "step": 155
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 0.9495329856872559,
+      "learning_rate": 2.802271380147966e-05,
+      "loss": 0.777,
+      "step": 160
+    },
+    {
+      "epoch": 0.6470588235294118,
+      "grad_norm": 0.868281900882721,
+      "learning_rate": 2.785862372927426e-05,
+      "loss": 0.7771,
+      "step": 165
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.7764987945556641,
+      "learning_rate": 2.7688514383824546e-05,
+      "loss": 0.7713,
+      "step": 170
+    },
+    {
+      "epoch": 0.6862745098039216,
+      "grad_norm": 0.8674659132957458,
+      "learning_rate": 2.751246539531905e-05,
+      "loss": 0.7872,
+      "step": 175
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.8856565952301025,
+      "learning_rate": 2.7330559174363165e-05,
+      "loss": 0.7346,
+      "step": 180
+    },
+    {
+      "epoch": 0.7254901960784313,
+      "grad_norm": 0.8669881224632263,
+      "learning_rate": 2.714288087340181e-05,
+      "loss": 0.8176,
+      "step": 185
+    },
+    {
+      "epoch": 0.7450980392156863,
+      "grad_norm": 0.851826548576355,
+      "learning_rate": 2.6949518346858538e-05,
+      "loss": 0.7655,
+      "step": 190
+    },
+    {
+      "epoch": 0.7647058823529411,
+      "grad_norm": 0.8610787391662598,
+      "learning_rate": 2.6750562110009885e-05,
+      "loss": 0.6622,
+      "step": 195
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.8771219849586487,
+      "learning_rate": 2.6546105296614028e-05,
+      "loss": 0.8051,
+      "step": 200
+    },
+    {
+      "epoch": 0.803921568627451,
+      "grad_norm": 0.9200812578201294,
+      "learning_rate": 2.6336243615313876e-05,
+      "loss": 0.728,
+      "step": 205
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 1.0292985439300537,
+      "learning_rate": 2.6121075304834636e-05,
+      "loss": 0.6794,
+      "step": 210
+    },
+    {
+      "epoch": 0.8431372549019608,
+      "grad_norm": 0.8790132403373718,
+      "learning_rate": 2.5900701087997162e-05,
+      "loss": 0.7104,
+      "step": 215
+    },
+    {
+      "epoch": 0.8627450980392157,
+      "grad_norm": 1.0894644260406494,
+      "learning_rate": 2.5675224124568402e-05,
+      "loss": 0.7118,
+      "step": 220
+    },
+    {
+      "epoch": 0.8823529411764706,
+      "grad_norm": 1.0564581155776978,
+      "learning_rate": 2.5444749962971095e-05,
+      "loss": 0.6774,
+      "step": 225
+    },
+    {
+      "epoch": 0.9019607843137255,
+      "grad_norm": 1.115193486213684,
+      "learning_rate": 2.52093864908753e-05,
+      "loss": 0.6885,
+      "step": 230
+    },
+    {
+      "epoch": 0.9215686274509803,
+      "grad_norm": 0.9952273964881897,
+      "learning_rate": 2.496924388469492e-05,
+      "loss": 0.6996,
+      "step": 235
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 0.8817581534385681,
+      "learning_rate": 2.472443455801284e-05,
+      "loss": 0.6639,
+      "step": 240
+    },
+    {
+      "epoch": 0.9607843137254902,
+      "grad_norm": 1.038901925086975,
+      "learning_rate": 2.4475073108958762e-05,
+      "loss": 0.6551,
+      "step": 245
+    },
+    {
+      "epoch": 0.9803921568627451,
+      "grad_norm": 1.089471697807312,
+      "learning_rate": 2.4221276266564517e-05,
+      "loss": 0.6568,
+      "step": 250
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.2447035312652588,
+      "learning_rate": 2.396316283612178e-05,
+      "loss": 0.6813,
+      "step": 255
+    },
+    {
+      "epoch": 1.0196078431372548,
+      "grad_norm": 1.3847177028656006,
+      "learning_rate": 2.3700853643567973e-05,
+      "loss": 0.5481,
+      "step": 260
+    },
+    {
+      "epoch": 1.0392156862745099,
+      "grad_norm": 1.3060532808303833,
+      "learning_rate": 2.343447147892617e-05,
+      "loss": 0.57,
+      "step": 265
+    },
+    {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 1.3095122575759888,
+      "learning_rate": 2.3164141038825662e-05,
+      "loss": 0.5182,
+      "step": 270
+    },
+    {
+      "epoch": 1.0784313725490196,
+      "grad_norm": 1.2007273435592651,
+      "learning_rate": 2.288998886813e-05,
+      "loss": 0.5296,
+      "step": 275
+    },
+    {
+      "epoch": 1.0980392156862746,
+      "grad_norm": 1.149629831314087,
+      "learning_rate": 2.2612143300699835e-05,
+      "loss": 0.5626,
+      "step": 280
+    },
+    {
+      "epoch": 1.1176470588235294,
+      "grad_norm": 1.1458351612091064,
+      "learning_rate": 2.2330734399318354e-05,
+      "loss": 0.5798,
+      "step": 285
+    },
+    {
+      "epoch": 1.1372549019607843,
+      "grad_norm": 1.1756832599639893,
+      "learning_rate": 2.204589389480734e-05,
+      "loss": 0.5275,
+      "step": 290
+    },
+    {
+      "epoch": 1.156862745098039,
+      "grad_norm": 1.055282711982727,
+      "learning_rate": 2.17577551243624e-05,
+      "loss": 0.5602,
+      "step": 295
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 1.18598473072052,
+      "learning_rate": 2.1466452969136325e-05,
+      "loss": 0.5564,
+      "step": 300
+    },
+    {
+      "epoch": 1.196078431372549,
+      "grad_norm": 1.1277996301651,
+      "learning_rate": 2.1172123791099543e-05,
+      "loss": 0.5188,
+      "step": 305
+    },
+    {
+      "epoch": 1.215686274509804,
+      "grad_norm": 1.1880922317504883,
+      "learning_rate": 2.0874905369207556e-05,
+      "loss": 0.5038,
+      "step": 310
+    },
+    {
+      "epoch": 1.2352941176470589,
+      "grad_norm": 1.2108352184295654,
+      "learning_rate": 2.0574936834904913e-05,
+      "loss": 0.4834,
+      "step": 315
+    },
+    {
+      "epoch": 1.2549019607843137,
+      "grad_norm": 1.1632972955703735,
+      "learning_rate": 2.027235860699621e-05,
+      "loss": 0.4821,
+      "step": 320
+    },
+    {
+      "epoch": 1.2745098039215685,
+      "grad_norm": 1.1364831924438477,
+      "learning_rate": 1.9967312325914348e-05,
+      "loss": 0.4769,
+      "step": 325
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 1.2223823070526123,
+      "learning_rate": 1.9659940787416997e-05,
+      "loss": 0.4714,
+      "step": 330
+    },
+    {
+      "epoch": 1.3137254901960784,
+      "grad_norm": 1.0981035232543945,
+      "learning_rate": 1.9350387875742205e-05,
+      "loss": 0.522,
+      "step": 335
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 1.1234050989151,
+      "learning_rate": 1.903879849625452e-05,
+      "loss": 0.4906,
+      "step": 340
+    },
+    {
+      "epoch": 1.3529411764705883,
+      "grad_norm": 2.9931135177612305,
+      "learning_rate": 1.8725318507613043e-05,
+      "loss": 0.4728,
+      "step": 345
+    },
+    {
+      "epoch": 1.3725490196078431,
+      "grad_norm": 1.1978720426559448,
+      "learning_rate": 1.8410094653493317e-05,
+      "loss": 0.4437,
+      "step": 350
+    },
+    {
+      "epoch": 1.392156862745098,
+      "grad_norm": 1.3743282556533813,
+      "learning_rate": 1.8093274493894822e-05,
+      "loss": 0.4406,
+      "step": 355
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 1.2579342126846313,
+      "learning_rate": 1.7775006336066473e-05,
+      "loss": 0.4412,
+      "step": 360
+    },
+    {
+      "epoch": 1.4313725490196079,
+      "grad_norm": 1.2456141710281372,
+      "learning_rate": 1.7455439165082197e-05,
+      "loss": 0.4547,
+      "step": 365
+    },
+    {
+      "epoch": 1.4509803921568627,
+      "grad_norm": 1.1532795429229736,
+      "learning_rate": 1.713472257409928e-05,
+      "loss": 0.4561,
+      "step": 370
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 1.103567123413086,
+      "learning_rate": 1.6813006694332053e-05,
+      "loss": 0.4162,
+      "step": 375
+    },
+    {
+      "epoch": 1.4901960784313726,
+      "grad_norm": 1.1722495555877686,
+      "learning_rate": 1.64904421247737e-05,
+      "loss": 0.4819,
+      "step": 380
+    },
+    {
+      "epoch": 1.5098039215686274,
+      "grad_norm": 1.7910538911819458,
+      "learning_rate": 1.6167179861699095e-05,
+      "loss": 0.4427,
+      "step": 385
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 1.0207178592681885,
+      "learning_rate": 1.584337122798167e-05,
+      "loss": 0.3987,
+      "step": 390
+    },
+    {
+      "epoch": 1.5490196078431373,
+      "grad_norm": 1.5075358152389526,
+      "learning_rate": 1.5519167802257375e-05,
+      "loss": 0.4533,
+      "step": 395
+    },
+    {
+      "epoch": 1.5686274509803921,
+      "grad_norm": 1.1776559352874756,
+      "learning_rate": 1.5194721347968963e-05,
+      "loss": 0.4204,
+      "step": 400
+    },
+    {
+      "epoch": 1.5882352941176472,
+      "grad_norm": 1.2848119735717773,
+      "learning_rate": 1.487018374232372e-05,
+      "loss": 0.4495,
+      "step": 405
+    },
+    {
+      "epoch": 1.607843137254902,
+      "grad_norm": 1.2450084686279297,
+      "learning_rate": 1.4545706905197951e-05,
+      "loss": 0.4012,
+      "step": 410
+    },
+    {
+      "epoch": 1.6274509803921569,
+      "grad_norm": 1.3432210683822632,
+      "learning_rate": 1.4221442728021507e-05,
+      "loss": 0.4281,
+      "step": 415
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 1.1769319772720337,
+      "learning_rate": 1.3897543002675602e-05,
+      "loss": 0.4527,
+      "step": 420
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 1.2629084587097168,
+      "learning_rate": 1.3574159350437264e-05,
+      "loss": 0.3887,
+      "step": 425
+    },
+    {
+      "epoch": 1.6862745098039216,
+      "grad_norm": 1.2655893564224243,
+      "learning_rate": 1.3251443151003614e-05,
+      "loss": 0.4204,
+      "step": 430
+    },
+    {
+      "epoch": 1.7058823529411766,
+      "grad_norm": 1.3256423473358154,
+      "learning_rate": 1.2929545471629256e-05,
+      "loss": 0.4029,
+      "step": 435
+    },
+    {
+      "epoch": 1.7254901960784315,
+      "grad_norm": 1.3878262042999268,
+      "learning_rate": 1.2608616996409917e-05,
+      "loss": 0.4046,
+      "step": 440
+    },
+    {
+      "epoch": 1.7450980392156863,
+      "grad_norm": 1.2398390769958496,
+      "learning_rate": 1.228880795574543e-05,
+      "loss": 0.3894,
+      "step": 445
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 1.5444411039352417,
+      "learning_rate": 1.1970268056015133e-05,
+      "loss": 0.4041,
+      "step": 450
+    },
+    {
+      "epoch": 1.784313725490196,
+      "grad_norm": 1.414083480834961,
+      "learning_rate": 1.1653146409498544e-05,
+      "loss": 0.3785,
+      "step": 455
+    },
+    {
+      "epoch": 1.803921568627451,
+      "grad_norm": 1.2047076225280762,
+      "learning_rate": 1.1337591464574133e-05,
+      "loss": 0.3803,
+      "step": 460
+    },
+    {
+      "epoch": 1.8235294117647058,
+      "grad_norm": 1.4704443216323853,
+      "learning_rate": 1.102375093622891e-05,
+      "loss": 0.4082,
+      "step": 465
+    },
+    {
+      "epoch": 1.843137254901961,
+      "grad_norm": 1.177104115486145,
+      "learning_rate": 1.0711771736911288e-05,
+      "loss": 0.4236,
+      "step": 470
+    },
+    {
+      "epoch": 1.8627450980392157,
+      "grad_norm": 1.3298603296279907,
+      "learning_rate": 1.0401799907759627e-05,
+      "loss": 0.3146,
+      "step": 475
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 1.3480234146118164,
+      "learning_rate": 1.0093980550238676e-05,
+      "loss": 0.4299,
+      "step": 480
+    },
+    {
+      "epoch": 1.9019607843137254,
+      "grad_norm": 1.1792060136795044,
+      "learning_rate": 9.788457758215848e-06,
+      "loss": 0.375,
+      "step": 485
+    },
+    {
+      "epoch": 1.9215686274509802,
+      "grad_norm": 1.2653385400772095,
+      "learning_rate": 9.485374550509197e-06,
+      "loss": 0.3485,
+      "step": 490
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 1.4782161712646484,
+      "learning_rate": 9.184872803938624e-06,
+      "loss": 0.3595,
+      "step": 495
+    },
+    {
+      "epoch": 1.9607843137254903,
+      "grad_norm": 1.3896888494491577,
+      "learning_rate": 8.887093186911648e-06,
+      "loss": 0.3636,
+      "step": 500
+    },
+    {
+      "epoch": 1.9803921568627452,
+      "grad_norm": 1.282004475593567,
+      "learning_rate": 8.592175093574893e-06,
+      "loss": 0.3389,
+      "step": 505
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.1644220352172852,
+      "learning_rate": 8.300256578562035e-06,
+      "loss": 0.3065,
+      "step": 510
+    },
+    {
+      "epoch": 2.019607843137255,
+      "grad_norm": 1.1562118530273438,
+      "learning_rate": 8.011474292368799e-06,
+      "loss": 0.3116,
+      "step": 515
+    },
+    {
+      "epoch": 2.0392156862745097,
+      "grad_norm": 1.3126078844070435,
+      "learning_rate": 7.725963417385252e-06,
+      "loss": 0.3244,
+      "step": 520
+    },
+    {
+      "epoch": 2.0588235294117645,
+      "grad_norm": 1.117200255393982,
+      "learning_rate": 7.443857604615335e-06,
+      "loss": 0.2852,
+      "step": 525
+    },
+    {
+      "epoch": 2.0784313725490198,
+      "grad_norm": 1.2432302236557007,
+      "learning_rate": 7.165288911113258e-06,
+      "loss": 0.2821,
+      "step": 530
+    },
+    {
+      "epoch": 2.0980392156862746,
+      "grad_norm": 1.1310175657272339,
+      "learning_rate": 6.890387738166042e-06,
+      "loss": 0.2891,
+      "step": 535
+    },
+    {
+      "epoch": 2.1176470588235294,
+      "grad_norm": 1.2833739519119263,
+      "learning_rate": 6.619282770251108e-06,
+      "loss": 0.3167,
+      "step": 540
+    },
+    {
+      "epoch": 2.1372549019607843,
+      "grad_norm": 1.303999662399292,
+      "learning_rate": 6.352100914797599e-06,
+      "loss": 0.3184,
+      "step": 545
+    },
+    {
+      "epoch": 2.156862745098039,
+      "grad_norm": 1.2675715684890747,
+      "learning_rate": 6.088967242779506e-06,
+      "loss": 0.2906,
+      "step": 550
+    },
+    {
+      "epoch": 2.176470588235294,
+      "grad_norm": 1.3340975046157837,
+      "learning_rate": 5.830004930168456e-06,
+      "loss": 0.3153,
+      "step": 555
+    },
+    {
+      "epoch": 2.196078431372549,
+      "grad_norm": 1.1683777570724487,
+      "learning_rate": 5.575335200273597e-06,
+      "loss": 0.3351,
+      "step": 560
+    },
+    {
+      "epoch": 2.215686274509804,
+      "grad_norm": 1.2579437494277954,
+      "learning_rate": 5.325077266995542e-06,
+      "loss": 0.2695,
+      "step": 565
+    },
+    {
+      "epoch": 2.235294117647059,
+      "grad_norm": 1.3197240829467773,
+      "learning_rate": 5.079348279020937e-06,
+      "loss": 0.2726,
+      "step": 570
+    },
+    {
+      "epoch": 2.2549019607843137,
+      "grad_norm": 1.3008521795272827,
+      "learning_rate": 4.838263264983787e-06,
+      "loss": 0.2688,
+      "step": 575
+    },
+    {
+      "epoch": 2.2745098039215685,
+      "grad_norm": 1.2385681867599487,
+      "learning_rate": 4.60193507961917e-06,
+      "loss": 0.2505,
+      "step": 580
+    },
+    {
+      "epoch": 2.2941176470588234,
+      "grad_norm": 1.0824759006500244,
+      "learning_rate": 4.3704743509346384e-06,
+      "loss": 0.2575,
+      "step": 585
+    },
+    {
+      "epoch": 2.313725490196078,
+      "grad_norm": 1.442531704902649,
+      "learning_rate": 4.1439894284239474e-06,
+      "loss": 0.2791,
+      "step": 590
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 1.2099601030349731,
+      "learning_rate": 3.922586332347344e-06,
+      "loss": 0.2947,
+      "step": 595
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 1.0101568698883057,
+      "learning_rate": 3.7063687041022676e-06,
+      "loss": 0.2735,
+      "step": 600
+    },
+    {
+      "epoch": 2.372549019607843,
+      "grad_norm": 1.2070919275283813,
+      "learning_rate": 3.4954377577075763e-06,
+      "loss": 0.3231,
+      "step": 605
+    },
+    {
+      "epoch": 2.392156862745098,
+      "grad_norm": 1.4214380979537964,
+      "learning_rate": 3.289892232424079e-06,
+      "loss": 0.3123,
+      "step": 610
+    },
+    {
+      "epoch": 2.411764705882353,
+      "grad_norm": 1.2210997343063354,
+      "learning_rate": 3.0898283465335238e-06,
+      "loss": 0.2874,
+      "step": 615
+    },
+    {
+      "epoch": 2.431372549019608,
+      "grad_norm": 1.2848354578018188,
+      "learning_rate": 2.89533975229767e-06,
+      "loss": 0.2692,
+      "step": 620
+    },
+    {
+      "epoch": 2.450980392156863,
+      "grad_norm": 1.3479093313217163,
+      "learning_rate": 2.7065174921185903e-06,
+      "loss": 0.2626,
+      "step": 625
+    },
+    {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 1.1919423341751099,
+      "learning_rate": 2.523449955920635e-06,
+      "loss": 0.2389,
+      "step": 630
+    },
+    {
+      "epoch": 2.4901960784313726,
+      "grad_norm": 1.2317248582839966,
+      "learning_rate": 2.3462228397740615e-06,
+      "loss": 0.2634,
+      "step": 635
+    },
+    {
+      "epoch": 2.5098039215686274,
+      "grad_norm": 1.3734697103500366,
+      "learning_rate": 2.1749191057796996e-06,
+      "loss": 0.256,
+      "step": 640
+    },
+    {
+      "epoch": 2.5294117647058822,
+      "grad_norm": 1.2957366704940796,
+      "learning_rate": 2.0096189432334194e-06,
+      "loss": 0.2317,
+      "step": 645
+    },
+    {
+      "epoch": 2.549019607843137,
+      "grad_norm": 1.0884097814559937,
+      "learning_rate": 1.8503997310885707e-06,
+      "loss": 0.2527,
+      "step": 650
+    },
+    {
+      "epoch": 2.568627450980392,
+      "grad_norm": 1.275486946105957,
+      "learning_rate": 1.6973360017339889e-06,
+      "loss": 0.2314,
+      "step": 655
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 1.1145325899124146,
+      "learning_rate": 1.550499406104493e-06,
+      "loss": 0.2497,
+      "step": 660
+    },
+    {
+      "epoch": 2.607843137254902,
+      "grad_norm": 1.6413379907608032,
+      "learning_rate": 1.4099586801402575e-06,
+      "loss": 0.2612,
+      "step": 665
+    },
+    {
+      "epoch": 2.627450980392157,
+      "grad_norm": 1.27677583694458,
+      "learning_rate": 1.275779612610703e-06,
+      "loss": 0.2545,
+      "step": 670
+    },
+    {
+      "epoch": 2.6470588235294117,
+      "grad_norm": 1.5093032121658325,
+      "learning_rate": 1.1480250143179871e-06,
+      "loss": 0.2657,
+      "step": 675
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 1.2446153163909912,
+      "learning_rate": 1.0267546886945429e-06,
+      "loss": 0.2479,
+      "step": 680
+    },
+    {
+      "epoch": 2.686274509803922,
+      "grad_norm": 1.177180528640747,
+      "learning_rate": 9.120254038083764e-07,
+      "loss": 0.2485,
+      "step": 685
+    },
+    {
+      "epoch": 2.7058823529411766,
+      "grad_norm": 1.3679747581481934,
+      "learning_rate": 8.03890865789273e-07,
+      "loss": 0.2489,
+      "step": 690
+    },
+    {
+      "epoch": 2.7254901960784315,
+      "grad_norm": 1.2032582759857178,
+      "learning_rate": 7.024016936883232e-07,
+      "loss": 0.2873,
+      "step": 695
+    },
+    {
+      "epoch": 2.7450980392156863,
+      "grad_norm": 1.3447718620300293,
+      "learning_rate": 6.076053957825411e-07,
+      "loss": 0.2388,
+      "step": 700
+    },
+    {
+      "epoch": 2.764705882352941,
+      "grad_norm": 1.2323724031448364,
+      "learning_rate": 5.195463473356937e-07,
+      "loss": 0.253,
+      "step": 705
+    },
+    {
+      "epoch": 2.784313725490196,
+      "grad_norm": 1.231139898300171,
+      "learning_rate": 4.382657698257103e-07,
+      "loss": 0.2725,
+      "step": 710
+    },
+    {
+      "epoch": 2.803921568627451,
+      "grad_norm": 1.2171943187713623,
+      "learning_rate": 3.638017116484216e-07,
+      "loss": 0.2419,
+      "step": 715
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 1.2464810609817505,
+      "learning_rate": 2.9618903030665836e-07,
+      "loss": 0.2659,
+      "step": 720
+    },
+    {
+      "epoch": 2.843137254901961,
+      "grad_norm": 1.1624902486801147,
+      "learning_rate": 2.3545937609304567e-07,
+      "loss": 0.2736,
+      "step": 725
+    },
+    {
+      "epoch": 2.8627450980392157,
+      "grad_norm": 1.2629542350769043,
+      "learning_rate": 1.8164117727412277e-07,
+      "loss": 0.2349,
+      "step": 730
+    },
+    {
+      "epoch": 2.8823529411764706,
+      "grad_norm": 1.1577736139297485,
+      "learning_rate": 1.3475962678274777e-07,
+      "loss": 0.2429,
+      "step": 735
+    },
+    {
+      "epoch": 2.9019607843137254,
+      "grad_norm": 1.417328953742981,
+      "learning_rate": 9.48366704249748e-08,
+      "loss": 0.2886,
+      "step": 740
+    },
+    {
+      "epoch": 2.9215686274509802,
+      "grad_norm": 1.525070071220398,
+      "learning_rate": 6.189099660697472e-08,
+      "loss": 0.2576,
+      "step": 745
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 1.2601786851882935,
+      "learning_rate": 3.593802758676656e-08,
+      "loss": 0.2769,
+      "step": 750
+    },
+    {
+      "epoch": 2.9607843137254903,
+      "grad_norm": 1.192891001701355,
+      "learning_rate": 1.698991225488056e-08,
+      "loss": 0.2526,
+      "step": 755
+    },
+    {
+      "epoch": 2.980392156862745,
+      "grad_norm": 1.2075947523117065,
+      "learning_rate": 5.0555204473140545e-09,
+      "loss": 0.2828,
+      "step": 760
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.3935445547103882,
+      "learning_rate": 1.404387934594853e-10,
+      "loss": 0.2346,
+      "step": 765
+    },
+    {
+      "epoch": 3.0,
+      "step": 765,
+      "total_flos": 1.0846370135686513e+18,
+      "train_loss": 0.5519534474104838,
+      "train_runtime": 521.6672,
+      "train_samples_per_second": 46.857,
+      "train_steps_per_second": 1.466
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 765,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0846370135686513e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

33_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9366f4bf628760bb978a3740e84f4597315b617fb14927a3b9bb202bdf56218a
+size 8145

33_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff