Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

47_128_e3_3e-5/.gitattributes +35 -0
47_128_e3_3e-5/README.md +63 -0
47_128_e3_3e-5/adapter_config.json +39 -0
47_128_e3_3e-5/adapter_model.safetensors +3 -0
47_128_e3_3e-5/all_results.json +9 -0
47_128_e3_3e-5/config.json +32 -0
47_128_e3_3e-5/merges.txt +0 -0
47_128_e3_3e-5/special_tokens_map.json +45 -0
47_128_e3_3e-5/tokenizer.json +0 -0
47_128_e3_3e-5/tokenizer_config.json +188 -0
47_128_e3_3e-5/train_results.json +9 -0
47_128_e3_3e-5/trainer_state.json +1100 -0
47_128_e3_3e-5/training_args.bin +3 -0
47_128_e3_3e-5/vocab.json +0 -0

47_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

47_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 47_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 47_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

47_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj",
+    "down_proj",
+    "k_proj",
+    "gate_proj",
+    "up_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

47_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af1e0d5e79be2edb188ec6da4e16afa0f790954e43034bb1f8dbd25c4b0960aa
+size 791751704

47_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.0999703936339804e+18,
+    "train_loss": 0.5884435897759298,
+    "train_runtime": 526.5432,
+    "train_samples": 8094,
+    "train_samples_per_second": 46.116,
+    "train_steps_per_second": 1.441
+}

47_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

47_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

47_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

47_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

47_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

47_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 1.0999703936339804e+18,
+    "train_loss": 0.5884435897759298,
+    "train_runtime": 526.5432,
+    "train_samples": 8094,
+    "train_samples_per_second": 46.116,
+    "train_steps_per_second": 1.441
+}

47_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1100 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 759,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.019762845849802372,
+      "grad_norm": 1.1549279689788818,
+      "learning_rate": 3.157894736842105e-06,
+      "loss": 1.352,
+      "step": 5
+    },
+    {
+      "epoch": 0.039525691699604744,
+      "grad_norm": 0.7200035452842712,
+      "learning_rate": 7.105263157894737e-06,
+      "loss": 1.3175,
+      "step": 10
+    },
+    {
+      "epoch": 0.05928853754940711,
+      "grad_norm": 0.6307534575462341,
+      "learning_rate": 1.1052631578947368e-05,
+      "loss": 1.3062,
+      "step": 15
+    },
+    {
+      "epoch": 0.07905138339920949,
+      "grad_norm": 0.5236101150512695,
+      "learning_rate": 1.5e-05,
+      "loss": 1.3065,
+      "step": 20
+    },
+    {
+      "epoch": 0.09881422924901186,
+      "grad_norm": 0.5656251311302185,
+      "learning_rate": 1.894736842105263e-05,
+      "loss": 1.2539,
+      "step": 25
+    },
+    {
+      "epoch": 0.11857707509881422,
+      "grad_norm": 0.49245330691337585,
+      "learning_rate": 2.2894736842105263e-05,
+      "loss": 1.2478,
+      "step": 30
+    },
+    {
+      "epoch": 0.1383399209486166,
+      "grad_norm": 0.5212268233299255,
+      "learning_rate": 2.6842105263157896e-05,
+      "loss": 1.2529,
+      "step": 35
+    },
+    {
+      "epoch": 0.15810276679841898,
+      "grad_norm": 0.5600817203521729,
+      "learning_rate": 2.9999857606622228e-05,
+      "loss": 1.2314,
+      "step": 40
+    },
+    {
+      "epoch": 0.17786561264822134,
+      "grad_norm": 0.433789998292923,
+      "learning_rate": 2.999487412225671e-05,
+      "loss": 1.2366,
+      "step": 45
+    },
+    {
+      "epoch": 0.1976284584980237,
+      "grad_norm": 0.39617589116096497,
+      "learning_rate": 2.998277367222177e-05,
+      "loss": 1.1701,
+      "step": 50
+    },
+    {
+      "epoch": 0.21739130434782608,
+      "grad_norm": 0.46204543113708496,
+      "learning_rate": 2.9963561999712505e-05,
+      "loss": 1.2036,
+      "step": 55
+    },
+    {
+      "epoch": 0.23715415019762845,
+      "grad_norm": 0.4737214148044586,
+      "learning_rate": 2.993724822309914e-05,
+      "loss": 1.1485,
+      "step": 60
+    },
+    {
+      "epoch": 0.25691699604743085,
+      "grad_norm": 0.5649300217628479,
+      "learning_rate": 2.9903844831599208e-05,
+      "loss": 1.1616,
+      "step": 65
+    },
+    {
+      "epoch": 0.2766798418972332,
+      "grad_norm": 0.49801015853881836,
+      "learning_rate": 2.986336767934983e-05,
+      "loss": 1.1328,
+      "step": 70
+    },
+    {
+      "epoch": 0.2964426877470356,
+      "grad_norm": 0.5208056569099426,
+      "learning_rate": 2.9815835977882938e-05,
+      "loss": 1.099,
+      "step": 75
+    },
+    {
+      "epoch": 0.31620553359683795,
+      "grad_norm": 0.5382100939750671,
+      "learning_rate": 2.9761272287006963e-05,
+      "loss": 1.0759,
+      "step": 80
+    },
+    {
+      "epoch": 0.3359683794466403,
+      "grad_norm": 0.5558775663375854,
+      "learning_rate": 2.9699702504099334e-05,
+      "loss": 1.0972,
+      "step": 85
+    },
+    {
+      "epoch": 0.3557312252964427,
+      "grad_norm": 0.5842224955558777,
+      "learning_rate": 2.9631155851814915e-05,
+      "loss": 1.0478,
+      "step": 90
+    },
+    {
+      "epoch": 0.37549407114624506,
+      "grad_norm": 0.6232897639274597,
+      "learning_rate": 2.955566486421616e-05,
+      "loss": 0.995,
+      "step": 95
+    },
+    {
+      "epoch": 0.3952569169960474,
+      "grad_norm": 0.6066309809684753,
+      "learning_rate": 2.9473265371331562e-05,
+      "loss": 1.0547,
+      "step": 100
+    },
+    {
+      "epoch": 0.4150197628458498,
+      "grad_norm": 0.6497303247451782,
+      "learning_rate": 2.938399648214978e-05,
+      "loss": 0.974,
+      "step": 105
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 0.6949315071105957,
+      "learning_rate": 2.9287900566057473e-05,
+      "loss": 0.9536,
+      "step": 110
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 0.6404370069503784,
+      "learning_rate": 2.9185023232729677e-05,
+      "loss": 1.0559,
+      "step": 115
+    },
+    {
+      "epoch": 0.4743083003952569,
+      "grad_norm": 0.7011710405349731,
+      "learning_rate": 2.9075413310482222e-05,
+      "loss": 0.9542,
+      "step": 120
+    },
+    {
+      "epoch": 0.49407114624505927,
+      "grad_norm": 0.7099412679672241,
+      "learning_rate": 2.8959122823096517e-05,
+      "loss": 0.9716,
+      "step": 125
+    },
+    {
+      "epoch": 0.5138339920948617,
+      "grad_norm": 0.7343655824661255,
+      "learning_rate": 2.883620696512769e-05,
+      "loss": 0.9178,
+      "step": 130
+    },
+    {
+      "epoch": 0.5335968379446641,
+      "grad_norm": 0.8052803874015808,
+      "learning_rate": 2.8706724075707788e-05,
+      "loss": 0.9184,
+      "step": 135
+    },
+    {
+      "epoch": 0.5533596837944664,
+      "grad_norm": 0.7923830151557922,
+      "learning_rate": 2.8570735610856468e-05,
+      "loss": 0.8838,
+      "step": 140
+    },
+    {
+      "epoch": 0.5731225296442688,
+      "grad_norm": 0.8074381351470947,
+      "learning_rate": 2.842830611431233e-05,
+      "loss": 0.9228,
+      "step": 145
+    },
+    {
+      "epoch": 0.5928853754940712,
+      "grad_norm": 0.896967887878418,
+      "learning_rate": 2.8279503186898766e-05,
+      "loss": 0.9025,
+      "step": 150
+    },
+    {
+      "epoch": 0.6126482213438735,
+      "grad_norm": 0.8607496023178101,
+      "learning_rate": 2.8124397454438787e-05,
+      "loss": 0.8515,
+      "step": 155
+    },
+    {
+      "epoch": 0.6324110671936759,
+      "grad_norm": 0.8580482602119446,
+      "learning_rate": 2.796306253423415e-05,
+      "loss": 0.8236,
+      "step": 160
+    },
+    {
+      "epoch": 0.6521739130434783,
+      "grad_norm": 0.8828744888305664,
+      "learning_rate": 2.7795575000124626e-05,
+      "loss": 0.8876,
+      "step": 165
+    },
+    {
+      "epoch": 0.6719367588932806,
+      "grad_norm": 0.858817994594574,
+      "learning_rate": 2.7622014346144008e-05,
+      "loss": 0.8907,
+      "step": 170
+    },
+    {
+      "epoch": 0.691699604743083,
+      "grad_norm": 0.8001760244369507,
+      "learning_rate": 2.744246294879016e-05,
+      "loss": 0.8218,
+      "step": 175
+    },
+    {
+      "epoch": 0.7114624505928854,
+      "grad_norm": 0.9235655069351196,
+      "learning_rate": 2.72570060279269e-05,
+      "loss": 0.8703,
+      "step": 180
+    },
+    {
+      "epoch": 0.7312252964426877,
+      "grad_norm": 0.8340787887573242,
+      "learning_rate": 2.706573160633644e-05,
+      "loss": 0.8134,
+      "step": 185
+    },
+    {
+      "epoch": 0.7509881422924901,
+      "grad_norm": 0.842200756072998,
+      "learning_rate": 2.686873046794138e-05,
+      "loss": 0.8251,
+      "step": 190
+    },
+    {
+      "epoch": 0.7707509881422925,
+      "grad_norm": 0.8516852855682373,
+      "learning_rate": 2.6666096114716296e-05,
+      "loss": 0.8227,
+      "step": 195
+    },
+    {
+      "epoch": 0.7905138339920948,
+      "grad_norm": 0.9250971078872681,
+      "learning_rate": 2.6457924722309174e-05,
+      "loss": 0.7731,
+      "step": 200
+    },
+    {
+      "epoch": 0.8102766798418972,
+      "grad_norm": 1.1462836265563965,
+      "learning_rate": 2.624431509439393e-05,
+      "loss": 0.7725,
+      "step": 205
+    },
+    {
+      "epoch": 0.8300395256916996,
+      "grad_norm": 1.036908745765686,
+      "learning_rate": 2.602536861577555e-05,
+      "loss": 0.7487,
+      "step": 210
+    },
+    {
+      "epoch": 0.849802371541502,
+      "grad_norm": 1.1856616735458374,
+      "learning_rate": 2.580118920427014e-05,
+      "loss": 0.7159,
+      "step": 215
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.0026845932006836,
+      "learning_rate": 2.5571883261382812e-05,
+      "loss": 0.7495,
+      "step": 220
+    },
+    {
+      "epoch": 0.8893280632411067,
+      "grad_norm": 1.016026258468628,
+      "learning_rate": 2.5337559621806674e-05,
+      "loss": 0.7557,
+      "step": 225
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 0.9878284335136414,
+      "learning_rate": 2.5098329501767006e-05,
+      "loss": 0.7447,
+      "step": 230
+    },
+    {
+      "epoch": 0.9288537549407114,
+      "grad_norm": 1.0130293369293213,
+      "learning_rate": 2.4854306446235076e-05,
+      "loss": 0.7397,
+      "step": 235
+    },
+    {
+      "epoch": 0.9486166007905138,
+      "grad_norm": 1.0767176151275635,
+      "learning_rate": 2.4605606275036684e-05,
+      "loss": 0.6994,
+      "step": 240
+    },
+    {
+      "epoch": 0.9683794466403162,
+      "grad_norm": 1.0331264734268188,
+      "learning_rate": 2.4352347027881003e-05,
+      "loss": 0.6916,
+      "step": 245
+    },
+    {
+      "epoch": 0.9881422924901185,
+      "grad_norm": 1.1034647226333618,
+      "learning_rate": 2.4094648908335784e-05,
+      "loss": 0.6537,
+      "step": 250
+    },
+    {
+      "epoch": 1.007905138339921,
+      "grad_norm": 1.054994821548462,
+      "learning_rate": 2.383263422677555e-05,
+      "loss": 0.6853,
+      "step": 255
+    },
+    {
+      "epoch": 1.0276679841897234,
+      "grad_norm": 0.9630900025367737,
+      "learning_rate": 2.3566427342329852e-05,
+      "loss": 0.6073,
+      "step": 260
+    },
+    {
+      "epoch": 1.0474308300395256,
+      "grad_norm": 1.1559796333312988,
+      "learning_rate": 2.3296154603859115e-05,
+      "loss": 0.585,
+      "step": 265
+    },
+    {
+      "epoch": 1.0671936758893281,
+      "grad_norm": 1.0806218385696411,
+      "learning_rate": 2.3021944289986115e-05,
+      "loss": 0.6016,
+      "step": 270
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 1.1026537418365479,
+      "learning_rate": 2.274392654821153e-05,
+      "loss": 0.6329,
+      "step": 275
+    },
+    {
+      "epoch": 1.1067193675889329,
+      "grad_norm": 1.1411464214324951,
+      "learning_rate": 2.2462233333142487e-05,
+      "loss": 0.5137,
+      "step": 280
+    },
+    {
+      "epoch": 1.1264822134387351,
+      "grad_norm": 1.0686981678009033,
+      "learning_rate": 2.2176998343863392e-05,
+      "loss": 0.5548,
+      "step": 285
+    },
+    {
+      "epoch": 1.1462450592885376,
+      "grad_norm": 1.0031609535217285,
+      "learning_rate": 2.1888356960478796e-05,
+      "loss": 0.5198,
+      "step": 290
+    },
+    {
+      "epoch": 1.1660079051383399,
+      "grad_norm": 1.1511244773864746,
+      "learning_rate": 2.1596446179858408e-05,
+      "loss": 0.5124,
+      "step": 295
+    },
+    {
+      "epoch": 1.1857707509881423,
+      "grad_norm": 1.212440013885498,
+      "learning_rate": 2.130140455061472e-05,
+      "loss": 0.5494,
+      "step": 300
+    },
+    {
+      "epoch": 1.2055335968379446,
+      "grad_norm": 1.6108715534210205,
+      "learning_rate": 2.100337210734417e-05,
+      "loss": 0.5794,
+      "step": 305
+    },
+    {
+      "epoch": 1.225296442687747,
+      "grad_norm": 1.1234463453292847,
+      "learning_rate": 2.0702490304163002e-05,
+      "loss": 0.5078,
+      "step": 310
+    },
+    {
+      "epoch": 1.2450592885375493,
+      "grad_norm": 1.2985681295394897,
+      "learning_rate": 2.0398901947569383e-05,
+      "loss": 0.5088,
+      "step": 315
+    },
+    {
+      "epoch": 1.2648221343873518,
+      "grad_norm": 1.161191701889038,
+      "learning_rate": 2.0092751128663635e-05,
+      "loss": 0.5399,
+      "step": 320
+    },
+    {
+      "epoch": 1.2845849802371543,
+      "grad_norm": 1.234554648399353,
+      "learning_rate": 1.9784183154758777e-05,
+      "loss": 0.5255,
+      "step": 325
+    },
+    {
+      "epoch": 1.3043478260869565,
+      "grad_norm": 1.160383701324463,
+      "learning_rate": 1.947334448041382e-05,
+      "loss": 0.5488,
+      "step": 330
+    },
+    {
+      "epoch": 1.3241106719367588,
+      "grad_norm": 1.274854063987732,
+      "learning_rate": 1.9160382637922537e-05,
+      "loss": 0.5153,
+      "step": 335
+    },
+    {
+      "epoch": 1.3438735177865613,
+      "grad_norm": 1.2520413398742676,
+      "learning_rate": 1.8845446167290708e-05,
+      "loss": 0.5339,
+      "step": 340
+    },
+    {
+      "epoch": 1.3636363636363638,
+      "grad_norm": 1.2148690223693848,
+      "learning_rate": 1.8528684545735095e-05,
+      "loss": 0.5642,
+      "step": 345
+    },
+    {
+      "epoch": 1.383399209486166,
+      "grad_norm": 1.1513289213180542,
+      "learning_rate": 1.821024811673759e-05,
+      "loss": 0.5781,
+      "step": 350
+    },
+    {
+      "epoch": 1.4031620553359683,
+      "grad_norm": 1.2534856796264648,
+      "learning_rate": 1.789028801868819e-05,
+      "loss": 0.4877,
+      "step": 355
+    },
+    {
+      "epoch": 1.4229249011857708,
+      "grad_norm": 1.1959350109100342,
+      "learning_rate": 1.7568956113150717e-05,
+      "loss": 0.4755,
+      "step": 360
+    },
+    {
+      "epoch": 1.4426877470355732,
+      "grad_norm": 1.1986948251724243,
+      "learning_rate": 1.7246404912785254e-05,
+      "loss": 0.514,
+      "step": 365
+    },
+    {
+      "epoch": 1.4624505928853755,
+      "grad_norm": 1.0665607452392578,
+      "learning_rate": 1.6922787508961628e-05,
+      "loss": 0.4366,
+      "step": 370
+    },
+    {
+      "epoch": 1.4822134387351777,
+      "grad_norm": 1.1681301593780518,
+      "learning_rate": 1.659825749909814e-05,
+      "loss": 0.5018,
+      "step": 375
+    },
+    {
+      "epoch": 1.5019762845849802,
+      "grad_norm": 1.2098522186279297,
+      "learning_rate": 1.6272968913760184e-05,
+      "loss": 0.4782,
+      "step": 380
+    },
+    {
+      "epoch": 1.5217391304347827,
+      "grad_norm": 1.522194266319275,
+      "learning_rate": 1.594707614355321e-05,
+      "loss": 0.4667,
+      "step": 385
+    },
+    {
+      "epoch": 1.541501976284585,
+      "grad_norm": 1.2309805154800415,
+      "learning_rate": 1.562073386584487e-05,
+      "loss": 0.48,
+      "step": 390
+    },
+    {
+      "epoch": 1.5612648221343872,
+      "grad_norm": 1.30971360206604,
+      "learning_rate": 1.5294096971351016e-05,
+      "loss": 0.493,
+      "step": 395
+    },
+    {
+      "epoch": 1.5810276679841897,
+      "grad_norm": 1.1760189533233643,
+      "learning_rate": 1.496732049062046e-05,
+      "loss": 0.4827,
+      "step": 400
+    },
+    {
+      "epoch": 1.6007905138339922,
+      "grad_norm": 1.5114903450012207,
+      "learning_rate": 1.4640559520453343e-05,
+      "loss": 0.4121,
+      "step": 405
+    },
+    {
+      "epoch": 1.6205533596837944,
+      "grad_norm": 1.2544127702713013,
+      "learning_rate": 1.4313969150288084e-05,
+      "loss": 0.4967,
+      "step": 410
+    },
+    {
+      "epoch": 1.6403162055335967,
+      "grad_norm": 1.1374311447143555,
+      "learning_rate": 1.398770438859181e-05,
+      "loss": 0.4563,
+      "step": 415
+    },
+    {
+      "epoch": 1.6600790513833992,
+      "grad_norm": 1.2457408905029297,
+      "learning_rate": 1.3661920089289214e-05,
+      "loss": 0.4216,
+      "step": 420
+    },
+    {
+      "epoch": 1.6798418972332017,
+      "grad_norm": 1.286523461341858,
+      "learning_rate": 1.3336770878264779e-05,
+      "loss": 0.4637,
+      "step": 425
+    },
+    {
+      "epoch": 1.699604743083004,
+      "grad_norm": 1.0916248559951782,
+      "learning_rate": 1.3012411079973201e-05,
+      "loss": 0.4701,
+      "step": 430
+    },
+    {
+      "epoch": 1.7193675889328062,
+      "grad_norm": 1.2907081842422485,
+      "learning_rate": 1.2688994644192934e-05,
+      "loss": 0.4465,
+      "step": 435
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 1.238556146621704,
+      "learning_rate": 1.2366675072957512e-05,
+      "loss": 0.447,
+      "step": 440
+    },
+    {
+      "epoch": 1.7588932806324111,
+      "grad_norm": 1.2477329969406128,
+      "learning_rate": 1.2045605347699412e-05,
+      "loss": 0.4234,
+      "step": 445
+    },
+    {
+      "epoch": 1.7786561264822134,
+      "grad_norm": 1.2516114711761475,
+      "learning_rate": 1.172593785664101e-05,
+      "loss": 0.4628,
+      "step": 450
+    },
+    {
+      "epoch": 1.7984189723320159,
+      "grad_norm": 1.2259328365325928,
+      "learning_rate": 1.1407824322467061e-05,
+      "loss": 0.4353,
+      "step": 455
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 1.1843528747558594,
+      "learning_rate": 1.1091415730313103e-05,
+      "loss": 0.3884,
+      "step": 460
+    },
+    {
+      "epoch": 1.8379446640316206,
+      "grad_norm": 1.1634949445724487,
+      "learning_rate": 1.0776862256103892e-05,
+      "loss": 0.4384,
+      "step": 465
+    },
+    {
+      "epoch": 1.8577075098814229,
+      "grad_norm": 1.214264154434204,
+      "learning_rate": 1.046431319527591e-05,
+      "loss": 0.4344,
+      "step": 470
+    },
+    {
+      "epoch": 1.8774703557312253,
+      "grad_norm": 1.2463126182556152,
+      "learning_rate": 1.0153916891917802e-05,
+      "loss": 0.3981,
+      "step": 475
+    },
+    {
+      "epoch": 1.8972332015810278,
+      "grad_norm": 1.3356051445007324,
+      "learning_rate": 9.845820668362309e-06,
+      "loss": 0.4212,
+      "step": 480
+    },
+    {
+      "epoch": 1.91699604743083,
+      "grad_norm": 1.4365413188934326,
+      "learning_rate": 9.540170755263187e-06,
+      "loss": 0.4378,
+      "step": 485
+    },
+    {
+      "epoch": 1.9367588932806323,
+      "grad_norm": 1.3513743877410889,
+      "learning_rate": 9.237112222190255e-06,
+      "loss": 0.3983,
+      "step": 490
+    },
+    {
+      "epoch": 1.9565217391304348,
+      "grad_norm": 1.4932039976119995,
+      "learning_rate": 8.936788908775524e-06,
+      "loss": 0.4219,
+      "step": 495
+    },
+    {
+      "epoch": 1.9762845849802373,
+      "grad_norm": 1.1482112407684326,
+      "learning_rate": 8.63934335644307e-06,
+      "loss": 0.3641,
+      "step": 500
+    },
+    {
+      "epoch": 1.9960474308300395,
+      "grad_norm": 1.4101468324661255,
+      "learning_rate": 8.344916740755106e-06,
+      "loss": 0.3827,
+      "step": 505
+    },
+    {
+      "epoch": 2.015810276679842,
+      "grad_norm": 1.2615549564361572,
+      "learning_rate": 8.053648804406292e-06,
+      "loss": 0.3721,
+      "step": 510
+    },
+    {
+      "epoch": 2.035573122529644,
+      "grad_norm": 1.2905428409576416,
+      "learning_rate": 7.765677790898156e-06,
+      "loss": 0.3212,
+      "step": 515
+    },
+    {
+      "epoch": 2.0553359683794468,
+      "grad_norm": 1.2104449272155762,
+      "learning_rate": 7.481140378925046e-06,
+      "loss": 0.3271,
+      "step": 520
+    },
+    {
+      "epoch": 2.075098814229249,
+      "grad_norm": 1.2623779773712158,
+      "learning_rate": 7.20017161750279e-06,
+      "loss": 0.3607,
+      "step": 525
+    },
+    {
+      "epoch": 2.0948616600790513,
+      "grad_norm": 1.2169378995895386,
+      "learning_rate": 6.922904861870844e-06,
+      "loss": 0.3137,
+      "step": 530
+    },
+    {
+      "epoch": 2.1146245059288535,
+      "grad_norm": 1.2628298997879028,
+      "learning_rate": 6.6494717101983596e-06,
+      "loss": 0.3758,
+      "step": 535
+    },
+    {
+      "epoch": 2.1343873517786562,
+      "grad_norm": 1.331429123878479,
+      "learning_rate": 6.380001941124187e-06,
+      "loss": 0.324,
+      "step": 540
+    },
+    {
+      "epoch": 2.1541501976284585,
+      "grad_norm": 1.1816493272781372,
+      "learning_rate": 6.114623452160489e-06,
+      "loss": 0.3281,
+      "step": 545
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 1.2878246307373047,
+      "learning_rate": 5.853462198989185e-06,
+      "loss": 0.2846,
+      "step": 550
+    },
+    {
+      "epoch": 2.1936758893280635,
+      "grad_norm": 1.5689104795455933,
+      "learning_rate": 5.596642135680037e-06,
+      "loss": 0.3132,
+      "step": 555
+    },
+    {
+      "epoch": 2.2134387351778657,
+      "grad_norm": 1.6048812866210938,
+      "learning_rate": 5.344285155858752e-06,
+      "loss": 0.344,
+      "step": 560
+    },
+    {
+      "epoch": 2.233201581027668,
+      "grad_norm": 1.2488850355148315,
+      "learning_rate": 5.096511034853029e-06,
+      "loss": 0.3121,
+      "step": 565
+    },
+    {
+      "epoch": 2.2529644268774702,
+      "grad_norm": 1.6610060930252075,
+      "learning_rate": 4.853437372844012e-06,
+      "loss": 0.3318,
+      "step": 570
+    },
+    {
+      "epoch": 2.2727272727272725,
+      "grad_norm": 1.355952501296997,
+      "learning_rate": 4.61517953905011e-06,
+      "loss": 0.2787,
+      "step": 575
+    },
+    {
+      "epoch": 2.292490118577075,
+      "grad_norm": 1.268384575843811,
+      "learning_rate": 4.381850616969708e-06,
+      "loss": 0.2985,
+      "step": 580
+    },
+    {
+      "epoch": 2.3122529644268774,
+      "grad_norm": 1.3710765838623047,
+      "learning_rate": 4.153561350708732e-06,
+      "loss": 0.3031,
+      "step": 585
+    },
+    {
+      "epoch": 2.3320158102766797,
+      "grad_norm": 1.215647578239441,
+      "learning_rate": 3.930420092418552e-06,
+      "loss": 0.3348,
+      "step": 590
+    },
+    {
+      "epoch": 2.3517786561264824,
+      "grad_norm": 1.3743489980697632,
+      "learning_rate": 3.712532750869174e-06,
+      "loss": 0.2873,
+      "step": 595
+    },
+    {
+      "epoch": 2.3715415019762847,
+      "grad_norm": 1.3962067365646362,
+      "learning_rate": 3.5000027411821223e-06,
+      "loss": 0.292,
+      "step": 600
+    },
+    {
+      "epoch": 2.391304347826087,
+      "grad_norm": 1.392171025276184,
+      "learning_rate": 3.292930935746877e-06,
+      "loss": 0.2914,
+      "step": 605
+    },
+    {
+      "epoch": 2.411067193675889,
+      "grad_norm": 1.267244815826416,
+      "learning_rate": 3.0914156163441597e-06,
+      "loss": 0.2795,
+      "step": 610
+    },
+    {
+      "epoch": 2.430830039525692,
+      "grad_norm": 1.4340124130249023,
+      "learning_rate": 2.8955524274987798e-06,
+      "loss": 0.3174,
+      "step": 615
+    },
+    {
+      "epoch": 2.450592885375494,
+      "grad_norm": 1.3183856010437012,
+      "learning_rate": 2.7054343310842117e-06,
+      "loss": 0.3201,
+      "step": 620
+    },
+    {
+      "epoch": 2.4703557312252964,
+      "grad_norm": 1.2424997091293335,
+      "learning_rate": 2.5211515622004173e-06,
+      "loss": 0.2961,
+      "step": 625
+    },
+    {
+      "epoch": 2.4901185770750986,
+      "grad_norm": 1.1628949642181396,
+      "learning_rate": 2.3427915863458673e-06,
+      "loss": 0.275,
+      "step": 630
+    },
+    {
+      "epoch": 2.5098814229249014,
+      "grad_norm": 1.2913753986358643,
+      "learning_rate": 2.1704390579040926e-06,
+      "loss": 0.3081,
+      "step": 635
+    },
+    {
+      "epoch": 2.5296442687747036,
+      "grad_norm": 1.42750883102417,
+      "learning_rate": 2.0041757799644683e-06,
+      "loss": 0.3232,
+      "step": 640
+    },
+    {
+      "epoch": 2.549407114624506,
+      "grad_norm": 1.5345584154129028,
+      "learning_rate": 1.8440806654962894e-06,
+      "loss": 0.3069,
+      "step": 645
+    },
+    {
+      "epoch": 2.5691699604743086,
+      "grad_norm": 1.2228147983551025,
+      "learning_rate": 1.6902296998945737e-06,
+      "loss": 0.3327,
+      "step": 650
+    },
+    {
+      "epoch": 2.588932806324111,
+      "grad_norm": 1.2365784645080566,
+      "learning_rate": 1.54269590491539e-06,
+      "loss": 0.2485,
+      "step": 655
+    },
+    {
+      "epoch": 2.608695652173913,
+      "grad_norm": 1.4289859533309937,
+      "learning_rate": 1.4015493040177824e-06,
+      "loss": 0.2825,
+      "step": 660
+    },
+    {
+      "epoch": 2.6284584980237153,
+      "grad_norm": 1.2372032403945923,
+      "learning_rate": 1.2668568891287735e-06,
+      "loss": 0.2744,
+      "step": 665
+    },
+    {
+      "epoch": 2.6482213438735176,
+      "grad_norm": 1.3043837547302246,
+      "learning_rate": 1.1386825888472214e-06,
+      "loss": 0.3034,
+      "step": 670
+    },
+    {
+      "epoch": 2.6679841897233203,
+      "grad_norm": 1.2315950393676758,
+      "learning_rate": 1.0170872381016105e-06,
+      "loss": 0.3229,
+      "step": 675
+    },
+    {
+      "epoch": 2.6877470355731226,
+      "grad_norm": 1.2600563764572144,
+      "learning_rate": 9.021285492761677e-07,
+      "loss": 0.329,
+      "step": 680
+    },
+    {
+      "epoch": 2.707509881422925,
+      "grad_norm": 1.2362223863601685,
+      "learning_rate": 7.938610848190425e-07,
+      "loss": 0.2965,
+      "step": 685
+    },
+    {
+      "epoch": 2.7272727272727275,
+      "grad_norm": 1.1932716369628906,
+      "learning_rate": 6.923362313455095e-07,
+      "loss": 0.2774,
+      "step": 690
+    },
+    {
+      "epoch": 2.7470355731225298,
+      "grad_norm": 1.1597118377685547,
+      "learning_rate": 5.976021752485261e-07,
+      "loss": 0.3164,
+      "step": 695
+    },
+    {
+      "epoch": 2.766798418972332,
+      "grad_norm": 1.3408259153366089,
+      "learning_rate": 5.097038798281806e-07,
+      "loss": 0.2936,
+      "step": 700
+    },
+    {
+      "epoch": 2.7865612648221343,
+      "grad_norm": 1.4071993827819824,
+      "learning_rate": 4.2868306395092095e-07,
+      "loss": 0.2933,
+      "step": 705
+    },
+    {
+      "epoch": 2.8063241106719365,
+      "grad_norm": 1.485776662826538,
+      "learning_rate": 3.54578182248671e-07,
+      "loss": 0.2629,
+      "step": 710
+    },
+    {
+      "epoch": 2.8260869565217392,
+      "grad_norm": 1.3178216218948364,
+      "learning_rate": 2.8742440686723824e-07,
+      "loss": 0.2803,
+      "step": 715
+    },
+    {
+      "epoch": 2.8458498023715415,
+      "grad_norm": 1.1788103580474854,
+      "learning_rate": 2.2725361077268248e-07,
+      "loss": 0.296,
+      "step": 720
+    },
+    {
+      "epoch": 2.8656126482213438,
+      "grad_norm": 1.204180359840393,
+      "learning_rate": 1.7409435262355832e-07,
+      "loss": 0.2918,
+      "step": 725
+    },
+    {
+      "epoch": 2.8853754940711465,
+      "grad_norm": 1.3689637184143066,
+      "learning_rate": 1.27971863216213e-07,
+      "loss": 0.3055,
+      "step": 730
+    },
+    {
+      "epoch": 2.9051383399209487,
+      "grad_norm": 1.4289894104003906,
+      "learning_rate": 8.890803350958543e-08,
+      "loss": 0.3045,
+      "step": 735
+    },
+    {
+      "epoch": 2.924901185770751,
+      "grad_norm": 1.4360895156860352,
+      "learning_rate": 5.6921404235174e-08,
+      "loss": 0.3137,
+      "step": 740
+    },
+    {
+      "epoch": 2.9446640316205532,
+      "grad_norm": 1.1567912101745605,
+      "learning_rate": 3.2027157097110905e-08,
+      "loss": 0.2802,
+      "step": 745
+    },
+    {
+      "epoch": 2.9644268774703555,
+      "grad_norm": 1.165826678276062,
+      "learning_rate": 1.4237107566522634e-08,
+      "loss": 0.2838,
+      "step": 750
+    },
+    {
+      "epoch": 2.984189723320158,
+      "grad_norm": 1.2584567070007324,
+      "learning_rate": 3.5596992735942303e-09,
+      "loss": 0.2761,
+      "step": 755
+    },
+    {
+      "epoch": 3.0,
+      "step": 759,
+      "total_flos": 1.0999703936339804e+18,
+      "train_loss": 0.5884435897759298,
+      "train_runtime": 526.5432,
+      "train_samples_per_second": 46.116,
+      "train_steps_per_second": 1.441
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 759,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0999703936339804e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

47_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25f0535b0b1647f8e245ec2be3ae1b8ef58036a1f072bbe3eb69b5dc73c68a6c
+size 8145

47_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff