Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

32_128_e3_3e-5/README.md +63 -0
32_128_e3_3e-5/adapter_config.json +39 -0
32_128_e3_3e-5/adapter_model.safetensors +3 -0
32_128_e3_3e-5/all_results.json +9 -0
32_128_e3_3e-5/config.json +32 -0
32_128_e3_3e-5/merges.txt +0 -0
32_128_e3_3e-5/special_tokens_map.json +45 -0
32_128_e3_3e-5/tokenizer.json +0 -0
32_128_e3_3e-5/tokenizer_config.json +188 -0
32_128_e3_3e-5/train_results.json +9 -0
32_128_e3_3e-5/trainer_state.json +981 -0
32_128_e3_3e-5/training_args.bin +3 -0
32_128_e3_3e-5/vocab.json +0 -0

32_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_2000
+model-index:
+- name: 32_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 32_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_2000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

32_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "o_proj",
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "v_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

32_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0854575877379413ea7fc3f5b3b2788eb0df703d300044f70ce1ed7073e08b0c
+size 791751704

32_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 9.445228084513997e+17,
+    "train_loss": 0.5761548168957233,
+    "train_runtime": 426.9308,
+    "train_samples": 7158,
+    "train_samples_per_second": 50.299,
+    "train_steps_per_second": 1.574
+}

32_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

32_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

32_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

32_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

32_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

32_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 9.445228084513997e+17,
+    "train_loss": 0.5761548168957233,
+    "train_runtime": 426.9308,
+    "train_samples": 7158,
+    "train_samples_per_second": 50.299,
+    "train_steps_per_second": 1.574
+}

32_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,981 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 672,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022321428571428572,
+      "grad_norm": 0.8767691254615784,
+      "learning_rate": 3.5294117647058825e-06,
+      "loss": 1.3368,
+      "step": 5
+    },
+    {
+      "epoch": 0.044642857142857144,
+      "grad_norm": 0.7196887135505676,
+      "learning_rate": 7.941176470588236e-06,
+      "loss": 1.3431,
+      "step": 10
+    },
+    {
+      "epoch": 0.06696428571428571,
+      "grad_norm": 0.5313777923583984,
+      "learning_rate": 1.2352941176470587e-05,
+      "loss": 1.3129,
+      "step": 15
+    },
+    {
+      "epoch": 0.08928571428571429,
+      "grad_norm": 0.4857967793941498,
+      "learning_rate": 1.6764705882352943e-05,
+      "loss": 1.2441,
+      "step": 20
+    },
+    {
+      "epoch": 0.11160714285714286,
+      "grad_norm": 0.5176280736923218,
+      "learning_rate": 2.1176470588235296e-05,
+      "loss": 1.2244,
+      "step": 25
+    },
+    {
+      "epoch": 0.13392857142857142,
+      "grad_norm": 0.5243091583251953,
+      "learning_rate": 2.5588235294117648e-05,
+      "loss": 1.2858,
+      "step": 30
+    },
+    {
+      "epoch": 0.15625,
+      "grad_norm": 0.5184972882270813,
+      "learning_rate": 3e-05,
+      "loss": 1.1641,
+      "step": 35
+    },
+    {
+      "epoch": 0.17857142857142858,
+      "grad_norm": 0.47480347752571106,
+      "learning_rate": 2.9995453913220172e-05,
+      "loss": 1.2178,
+      "step": 40
+    },
+    {
+      "epoch": 0.20089285714285715,
+      "grad_norm": 0.4492639899253845,
+      "learning_rate": 2.9981818408468026e-05,
+      "loss": 1.2153,
+      "step": 45
+    },
+    {
+      "epoch": 0.22321428571428573,
+      "grad_norm": 0.5485384464263916,
+      "learning_rate": 2.995910175083527e-05,
+      "loss": 1.1243,
+      "step": 50
+    },
+    {
+      "epoch": 0.24553571428571427,
+      "grad_norm": 0.5423436164855957,
+      "learning_rate": 2.992731770990817e-05,
+      "loss": 1.1299,
+      "step": 55
+    },
+    {
+      "epoch": 0.26785714285714285,
+      "grad_norm": 0.51399827003479,
+      "learning_rate": 2.988648555142117e-05,
+      "loss": 1.1242,
+      "step": 60
+    },
+    {
+      "epoch": 0.29017857142857145,
+      "grad_norm": 0.4775320291519165,
+      "learning_rate": 2.9836630025579043e-05,
+      "loss": 1.0684,
+      "step": 65
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 0.5318741202354431,
+      "learning_rate": 2.9777781352054716e-05,
+      "loss": 1.1244,
+      "step": 70
+    },
+    {
+      "epoch": 0.33482142857142855,
+      "grad_norm": 0.5451076030731201,
+      "learning_rate": 2.9709975201671755e-05,
+      "loss": 1.0655,
+      "step": 75
+    },
+    {
+      "epoch": 0.35714285714285715,
+      "grad_norm": 0.5790611505508423,
+      "learning_rate": 2.963325267478267e-05,
+      "loss": 1.0067,
+      "step": 80
+    },
+    {
+      "epoch": 0.3794642857142857,
+      "grad_norm": 0.5583548545837402,
+      "learning_rate": 2.954766027635616e-05,
+      "loss": 1.0443,
+      "step": 85
+    },
+    {
+      "epoch": 0.4017857142857143,
+      "grad_norm": 0.626650333404541,
+      "learning_rate": 2.9453249887788343e-05,
+      "loss": 0.982,
+      "step": 90
+    },
+    {
+      "epoch": 0.42410714285714285,
+      "grad_norm": 0.5689722299575806,
+      "learning_rate": 2.9350078735455142e-05,
+      "loss": 0.9762,
+      "step": 95
+    },
+    {
+      "epoch": 0.44642857142857145,
+      "grad_norm": 0.6336188316345215,
+      "learning_rate": 2.923820935602477e-05,
+      "loss": 0.9688,
+      "step": 100
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 0.5962265729904175,
+      "learning_rate": 2.9117709558551485e-05,
+      "loss": 1.0198,
+      "step": 105
+    },
+    {
+      "epoch": 0.49107142857142855,
+      "grad_norm": 0.5901826024055481,
+      "learning_rate": 2.8988652383373452e-05,
+      "loss": 0.9047,
+      "step": 110
+    },
+    {
+      "epoch": 0.5133928571428571,
+      "grad_norm": 0.676205039024353,
+      "learning_rate": 2.8851116057839732e-05,
+      "loss": 0.9436,
+      "step": 115
+    },
+    {
+      "epoch": 0.5357142857142857,
+      "grad_norm": 0.7188044190406799,
+      "learning_rate": 2.870518394889316e-05,
+      "loss": 0.9111,
+      "step": 120
+    },
+    {
+      "epoch": 0.5580357142857143,
+      "grad_norm": 0.7837942242622375,
+      "learning_rate": 2.8550944512537897e-05,
+      "loss": 0.9261,
+      "step": 125
+    },
+    {
+      "epoch": 0.5803571428571429,
+      "grad_norm": 0.8304249048233032,
+      "learning_rate": 2.838849124022228e-05,
+      "loss": 0.9123,
+      "step": 130
+    },
+    {
+      "epoch": 0.6026785714285714,
+      "grad_norm": 0.8110982179641724,
+      "learning_rate": 2.8217922602169464e-05,
+      "loss": 0.8538,
+      "step": 135
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 0.730595052242279,
+      "learning_rate": 2.8039341987690178e-05,
+      "loss": 0.8728,
+      "step": 140
+    },
+    {
+      "epoch": 0.6473214285714286,
+      "grad_norm": 0.7840301394462585,
+      "learning_rate": 2.7852857642513838e-05,
+      "loss": 0.8464,
+      "step": 145
+    },
+    {
+      "epoch": 0.6696428571428571,
+      "grad_norm": 0.8174706697463989,
+      "learning_rate": 2.7658582603175947e-05,
+      "loss": 0.8812,
+      "step": 150
+    },
+    {
+      "epoch": 0.6919642857142857,
+      "grad_norm": 0.7730219960212708,
+      "learning_rate": 2.7456634628501568e-05,
+      "loss": 0.7867,
+      "step": 155
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 0.8991721272468567,
+      "learning_rate": 2.7247136128226416e-05,
+      "loss": 0.8092,
+      "step": 160
+    },
+    {
+      "epoch": 0.7366071428571429,
+      "grad_norm": 0.9227285385131836,
+      "learning_rate": 2.703021408879883e-05,
+      "loss": 0.7942,
+      "step": 165
+    },
+    {
+      "epoch": 0.7589285714285714,
+      "grad_norm": 0.877221405506134,
+      "learning_rate": 2.680599999640756e-05,
+      "loss": 0.7174,
+      "step": 170
+    },
+    {
+      "epoch": 0.78125,
+      "grad_norm": 0.8718916177749634,
+      "learning_rate": 2.6574629757282116e-05,
+      "loss": 0.7843,
+      "step": 175
+    },
+    {
+      "epoch": 0.8035714285714286,
+      "grad_norm": 1.0385403633117676,
+      "learning_rate": 2.6336243615313876e-05,
+      "loss": 0.7527,
+      "step": 180
+    },
+    {
+      "epoch": 0.8258928571428571,
+      "grad_norm": 0.9563890099525452,
+      "learning_rate": 2.6090986067047967e-05,
+      "loss": 0.7153,
+      "step": 185
+    },
+    {
+      "epoch": 0.8482142857142857,
+      "grad_norm": 1.0046604871749878,
+      "learning_rate": 2.583900577409744e-05,
+      "loss": 0.7591,
+      "step": 190
+    },
+    {
+      "epoch": 0.8705357142857143,
+      "grad_norm": 0.9808415770530701,
+      "learning_rate": 2.5580455473032763e-05,
+      "loss": 0.7536,
+      "step": 195
+    },
+    {
+      "epoch": 0.8928571428571429,
+      "grad_norm": 1.0072885751724243,
+      "learning_rate": 2.531549188280135e-05,
+      "loss": 0.7691,
+      "step": 200
+    },
+    {
+      "epoch": 0.9151785714285714,
+      "grad_norm": 0.925537645816803,
+      "learning_rate": 2.5044275609733162e-05,
+      "loss": 0.6722,
+      "step": 205
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 1.1047004461288452,
+      "learning_rate": 2.476697105018999e-05,
+      "loss": 0.7228,
+      "step": 210
+    },
+    {
+      "epoch": 0.9598214285714286,
+      "grad_norm": 0.9555965065956116,
+      "learning_rate": 2.448374629091746e-05,
+      "loss": 0.7044,
+      "step": 215
+    },
+    {
+      "epoch": 0.9821428571428571,
+      "grad_norm": 0.9984466433525085,
+      "learning_rate": 2.4194773007160068e-05,
+      "loss": 0.7658,
+      "step": 220
+    },
+    {
+      "epoch": 1.0044642857142858,
+      "grad_norm": 0.9915810823440552,
+      "learning_rate": 2.390022635860117e-05,
+      "loss": 0.6535,
+      "step": 225
+    },
+    {
+      "epoch": 1.0267857142857142,
+      "grad_norm": 1.124132513999939,
+      "learning_rate": 2.3600284883190756e-05,
+      "loss": 0.6127,
+      "step": 230
+    },
+    {
+      "epoch": 1.0491071428571428,
+      "grad_norm": 1.1176362037658691,
+      "learning_rate": 2.329513038892565e-05,
+      "loss": 0.6233,
+      "step": 235
+    },
+    {
+      "epoch": 1.0714285714285714,
+      "grad_norm": 1.1315720081329346,
+      "learning_rate": 2.298494784364747e-05,
+      "loss": 0.5869,
+      "step": 240
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 1.1865111589431763,
+      "learning_rate": 2.266992526292534e-05,
+      "loss": 0.563,
+      "step": 245
+    },
+    {
+      "epoch": 1.1160714285714286,
+      "grad_norm": 1.1381595134735107,
+      "learning_rate": 2.2350253596091203e-05,
+      "loss": 0.508,
+      "step": 250
+    },
+    {
+      "epoch": 1.1383928571428572,
+      "grad_norm": 1.1229127645492554,
+      "learning_rate": 2.2026126610496852e-05,
+      "loss": 0.5767,
+      "step": 255
+    },
+    {
+      "epoch": 1.1607142857142858,
+      "grad_norm": 1.0976483821868896,
+      "learning_rate": 2.1697740774062858e-05,
+      "loss": 0.555,
+      "step": 260
+    },
+    {
+      "epoch": 1.1830357142857142,
+      "grad_norm": 1.206329584121704,
+      "learning_rate": 2.13652951361905e-05,
+      "loss": 0.577,
+      "step": 265
+    },
+    {
+      "epoch": 1.2053571428571428,
+      "grad_norm": 1.1963576078414917,
+      "learning_rate": 2.1028991207109032e-05,
+      "loss": 0.543,
+      "step": 270
+    },
+    {
+      "epoch": 1.2276785714285714,
+      "grad_norm": 1.2085398435592651,
+      "learning_rate": 2.0689032835731246e-05,
+      "loss": 0.5444,
+      "step": 275
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.174570918083191,
+      "learning_rate": 2.0345626086091536e-05,
+      "loss": 0.5297,
+      "step": 280
+    },
+    {
+      "epoch": 1.2723214285714286,
+      "grad_norm": 1.1196696758270264,
+      "learning_rate": 1.9998979112441166e-05,
+      "loss": 0.5095,
+      "step": 285
+    },
+    {
+      "epoch": 1.2946428571428572,
+      "grad_norm": 1.3247411251068115,
+      "learning_rate": 1.9649302033076708e-05,
+      "loss": 0.5051,
+      "step": 290
+    },
+    {
+      "epoch": 1.3169642857142856,
+      "grad_norm": 1.1289466619491577,
+      "learning_rate": 1.929680680297784e-05,
+      "loss": 0.5418,
+      "step": 295
+    },
+    {
+      "epoch": 1.3392857142857144,
+      "grad_norm": 1.1605075597763062,
+      "learning_rate": 1.8941707085331977e-05,
+      "loss": 0.5224,
+      "step": 300
+    },
+    {
+      "epoch": 1.3616071428571428,
+      "grad_norm": 1.096415638923645,
+      "learning_rate": 1.8584218122023377e-05,
+      "loss": 0.5411,
+      "step": 305
+    },
+    {
+      "epoch": 1.3839285714285714,
+      "grad_norm": 1.1778031587600708,
+      "learning_rate": 1.8224556603165363e-05,
+      "loss": 0.4917,
+      "step": 310
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 1.1422529220581055,
+      "learning_rate": 1.7862940535754754e-05,
+      "loss": 0.4894,
+      "step": 315
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 1.2388246059417725,
+      "learning_rate": 1.7499589111528013e-05,
+      "loss": 0.4496,
+      "step": 320
+    },
+    {
+      "epoch": 1.4508928571428572,
+      "grad_norm": 1.1976816654205322,
+      "learning_rate": 1.713472257409928e-05,
+      "loss": 0.4531,
+      "step": 325
+    },
+    {
+      "epoch": 1.4732142857142856,
+      "grad_norm": 1.2926381826400757,
+      "learning_rate": 1.676856208546085e-05,
+      "loss": 0.4557,
+      "step": 330
+    },
+    {
+      "epoch": 1.4955357142857144,
+      "grad_norm": 1.1342889070510864,
+      "learning_rate": 1.640132959192695e-05,
+      "loss": 0.4414,
+      "step": 335
+    },
+    {
+      "epoch": 1.5178571428571428,
+      "grad_norm": 1.3249493837356567,
+      "learning_rate": 1.6033247689602116e-05,
+      "loss": 0.4868,
+      "step": 340
+    },
+    {
+      "epoch": 1.5401785714285714,
+      "grad_norm": 1.2084228992462158,
+      "learning_rate": 1.5664539489455684e-05,
+      "loss": 0.4551,
+      "step": 345
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 1.3247101306915283,
+      "learning_rate": 1.529542848208422e-05,
+      "loss": 0.4494,
+      "step": 350
+    },
+    {
+      "epoch": 1.5848214285714286,
+      "grad_norm": 1.218238353729248,
+      "learning_rate": 1.4926138402243861e-05,
+      "loss": 0.4449,
+      "step": 355
+    },
+    {
+      "epoch": 1.6071428571428572,
+      "grad_norm": 1.2270762920379639,
+      "learning_rate": 1.4556893093234569e-05,
+      "loss": 0.4322,
+      "step": 360
+    },
+    {
+      "epoch": 1.6294642857142856,
+      "grad_norm": 1.5086091756820679,
+      "learning_rate": 1.4187916371218739e-05,
+      "loss": 0.4557,
+      "step": 365
+    },
+    {
+      "epoch": 1.6517857142857144,
+      "grad_norm": 1.1575895547866821,
+      "learning_rate": 1.3819431889556092e-05,
+      "loss": 0.4417,
+      "step": 370
+    },
+    {
+      "epoch": 1.6741071428571428,
+      "grad_norm": 1.1583666801452637,
+      "learning_rate": 1.3451663003237395e-05,
+      "loss": 0.4597,
+      "step": 375
+    },
+    {
+      "epoch": 1.6964285714285714,
+      "grad_norm": 1.2947156429290771,
+      "learning_rate": 1.308483263349892e-05,
+      "loss": 0.4293,
+      "step": 380
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 1.347031593322754,
+      "learning_rate": 1.2719163132699918e-05,
+      "loss": 0.4263,
+      "step": 385
+    },
+    {
+      "epoch": 1.7410714285714286,
+      "grad_norm": 1.2187089920043945,
+      "learning_rate": 1.2354876149544831e-05,
+      "loss": 0.4054,
+      "step": 390
+    },
+    {
+      "epoch": 1.7633928571428572,
+      "grad_norm": 1.206672191619873,
+      "learning_rate": 1.1992192494732083e-05,
+      "loss": 0.4062,
+      "step": 395
+    },
+    {
+      "epoch": 1.7857142857142856,
+      "grad_norm": 1.2492778301239014,
+      "learning_rate": 1.1631332007110795e-05,
+      "loss": 0.4201,
+      "step": 400
+    },
+    {
+      "epoch": 1.8080357142857144,
+      "grad_norm": 1.2433871030807495,
+      "learning_rate": 1.1272513420426589e-05,
+      "loss": 0.3788,
+      "step": 405
+    },
+    {
+      "epoch": 1.8303571428571428,
+      "grad_norm": 1.2290749549865723,
+      "learning_rate": 1.0915954230737238e-05,
+      "loss": 0.4181,
+      "step": 410
+    },
+    {
+      "epoch": 1.8526785714285714,
+      "grad_norm": 1.4849416017532349,
+      "learning_rate": 1.0561870564578535e-05,
+      "loss": 0.4373,
+      "step": 415
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 1.2702398300170898,
+      "learning_rate": 1.0210477047960303e-05,
+      "loss": 0.3983,
+      "step": 420
+    },
+    {
+      "epoch": 1.8973214285714286,
+      "grad_norm": 1.891557216644287,
+      "learning_rate": 9.86198667627193e-06,
+      "loss": 0.3721,
+      "step": 425
+    },
+    {
+      "epoch": 1.9196428571428572,
+      "grad_norm": 1.3252699375152588,
+      "learning_rate": 9.516610685176298e-06,
+      "loss": 0.458,
+      "step": 430
+    },
+    {
+      "epoch": 1.9419642857142856,
+      "grad_norm": 1.251217246055603,
+      "learning_rate": 9.174558422570372e-06,
+      "loss": 0.3757,
+      "step": 435
+    },
+    {
+      "epoch": 1.9642857142857144,
+      "grad_norm": 1.4009981155395508,
+      "learning_rate": 8.83603722169002e-06,
+      "loss": 0.3745,
+      "step": 440
+    },
+    {
+      "epoch": 1.9866071428571428,
+      "grad_norm": 1.2171951532363892,
+      "learning_rate": 8.501252275436047e-06,
+      "loss": 0.3498,
+      "step": 445
+    },
+    {
+      "epoch": 2.0089285714285716,
+      "grad_norm": 1.1374053955078125,
+      "learning_rate": 8.170406511997551e-06,
+      "loss": 0.3428,
+      "step": 450
+    },
+    {
+      "epoch": 2.03125,
+      "grad_norm": 1.4344035387039185,
+      "learning_rate": 7.843700471848044e-06,
+      "loss": 0.3248,
+      "step": 455
+    },
+    {
+      "epoch": 2.0535714285714284,
+      "grad_norm": 1.388619303703308,
+      "learning_rate": 7.521332186188859e-06,
+      "loss": 0.288,
+      "step": 460
+    },
+    {
+      "epoch": 2.075892857142857,
+      "grad_norm": 1.2392041683197021,
+      "learning_rate": 7.203497056913553e-06,
+      "loss": 0.2978,
+      "step": 465
+    },
+    {
+      "epoch": 2.0982142857142856,
+      "grad_norm": 1.2916345596313477,
+      "learning_rate": 6.890387738166042e-06,
+      "loss": 0.3027,
+      "step": 470
+    },
+    {
+      "epoch": 2.1205357142857144,
+      "grad_norm": 1.3241705894470215,
+      "learning_rate": 6.582194019564266e-06,
+      "loss": 0.2931,
+      "step": 475
+    },
+    {
+      "epoch": 2.142857142857143,
+      "grad_norm": 1.283165454864502,
+      "learning_rate": 6.2791027111602035e-06,
+      "loss": 0.3338,
+      "step": 480
+    },
+    {
+      "epoch": 2.1651785714285716,
+      "grad_norm": 1.2019572257995605,
+      "learning_rate": 5.981297530205881e-06,
+      "loss": 0.2994,
+      "step": 485
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 1.371954083442688,
+      "learning_rate": 5.688958989794102e-06,
+      "loss": 0.3147,
+      "step": 490
+    },
+    {
+      "epoch": 2.2098214285714284,
+      "grad_norm": 1.4498229026794434,
+      "learning_rate": 5.402264289441387e-06,
+      "loss": 0.31,
+      "step": 495
+    },
+    {
+      "epoch": 2.232142857142857,
+      "grad_norm": 1.2884076833724976,
+      "learning_rate": 5.121387207679347e-06,
+      "loss": 0.2832,
+      "step": 500
+    },
+    {
+      "epoch": 2.2544642857142856,
+      "grad_norm": 1.2234337329864502,
+      "learning_rate": 4.846497996719734e-06,
+      "loss": 0.2898,
+      "step": 505
+    },
+    {
+      "epoch": 2.2767857142857144,
+      "grad_norm": 1.3806877136230469,
+      "learning_rate": 4.577763279256926e-06,
+      "loss": 0.2917,
+      "step": 510
+    },
+    {
+      "epoch": 2.299107142857143,
+      "grad_norm": 1.3858397006988525,
+      "learning_rate": 4.3153459474704446e-06,
+      "loss": 0.3058,
+      "step": 515
+    },
+    {
+      "epoch": 2.3214285714285716,
+      "grad_norm": 1.2962052822113037,
+      "learning_rate": 4.059405064288662e-06,
+      "loss": 0.2862,
+      "step": 520
+    },
+    {
+      "epoch": 2.34375,
+      "grad_norm": 1.2204980850219727,
+      "learning_rate": 3.810095766973638e-06,
+      "loss": 0.282,
+      "step": 525
+    },
+    {
+      "epoch": 2.3660714285714284,
+      "grad_norm": 1.3225136995315552,
+      "learning_rate": 3.567569173085455e-06,
+      "loss": 0.2988,
+      "step": 530
+    },
+    {
+      "epoch": 2.388392857142857,
+      "grad_norm": 1.4351136684417725,
+      "learning_rate": 3.3319722888830766e-06,
+      "loss": 0.3335,
+      "step": 535
+    },
+    {
+      "epoch": 2.4107142857142856,
+      "grad_norm": 1.4396522045135498,
+      "learning_rate": 3.103447920217255e-06,
+      "loss": 0.3156,
+      "step": 540
+    },
+    {
+      "epoch": 2.4330357142857144,
+      "grad_norm": 1.2662440538406372,
+      "learning_rate": 2.8821345859694914e-06,
+      "loss": 0.3234,
+      "step": 545
+    },
+    {
+      "epoch": 2.455357142857143,
+      "grad_norm": 1.2445207834243774,
+      "learning_rate": 2.6681664340895197e-06,
+      "loss": 0.2819,
+      "step": 550
+    },
+    {
+      "epoch": 2.4776785714285716,
+      "grad_norm": 1.3526782989501953,
+      "learning_rate": 2.4616731602822218e-06,
+      "loss": 0.2813,
+      "step": 555
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 1.4886586666107178,
+      "learning_rate": 2.2627799293932144e-06,
+      "loss": 0.2952,
+      "step": 560
+    },
+    {
+      "epoch": 2.522321428571429,
+      "grad_norm": 1.2216873168945312,
+      "learning_rate": 2.0716072995408425e-06,
+      "loss": 0.2804,
+      "step": 565
+    },
+    {
+      "epoch": 2.544642857142857,
+      "grad_norm": 1.3416815996170044,
+      "learning_rate": 1.8882711490404692e-06,
+      "loss": 0.2836,
+      "step": 570
+    },
+    {
+      "epoch": 2.5669642857142856,
+      "grad_norm": 1.3410799503326416,
+      "learning_rate": 1.7128826061654346e-06,
+      "loss": 0.2598,
+      "step": 575
+    },
+    {
+      "epoch": 2.5892857142857144,
+      "grad_norm": 1.329782247543335,
+      "learning_rate": 1.5455479817872182e-06,
+      "loss": 0.2793,
+      "step": 580
+    },
+    {
+      "epoch": 2.611607142857143,
+      "grad_norm": 1.243699073791504,
+      "learning_rate": 1.3863687049356465e-06,
+      "loss": 0.296,
+      "step": 585
+    },
+    {
+      "epoch": 2.633928571428571,
+      "grad_norm": 1.2737727165222168,
+      "learning_rate": 1.235441261318197e-06,
+      "loss": 0.2664,
+      "step": 590
+    },
+    {
+      "epoch": 2.65625,
+      "grad_norm": 1.3997918367385864,
+      "learning_rate": 1.092857134835696e-06,
+      "loss": 0.2717,
+      "step": 595
+    },
+    {
+      "epoch": 2.678571428571429,
+      "grad_norm": 1.2120293378829956,
+      "learning_rate": 9.587027521297964e-07,
+      "loss": 0.2833,
+      "step": 600
+    },
+    {
+      "epoch": 2.700892857142857,
+      "grad_norm": 1.257831335067749,
+      "learning_rate": 8.330594301959194e-07,
+      "loss": 0.2985,
+      "step": 605
+    },
+    {
+      "epoch": 2.7232142857142856,
+      "grad_norm": 1.2658048868179321,
+      "learning_rate": 7.160033270933769e-07,
+      "loss": 0.288,
+      "step": 610
+    },
+    {
+      "epoch": 2.7455357142857144,
+      "grad_norm": 1.326066255569458,
+      "learning_rate": 6.076053957825411e-07,
+      "loss": 0.2691,
+      "step": 615
+    },
+    {
+      "epoch": 2.767857142857143,
+      "grad_norm": 1.2179077863693237,
+      "learning_rate": 5.079313411170783e-07,
+      "loss": 0.2894,
+      "step": 620
+    },
+    {
+      "epoch": 2.790178571428571,
+      "grad_norm": 1.213523268699646,
+      "learning_rate": 4.1704158001728333e-07,
+      "loss": 0.2954,
+      "step": 625
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 1.2045886516571045,
+      "learning_rate": 3.3499120484867083e-07,
+      "loss": 0.3008,
+      "step": 630
+    },
+    {
+      "epoch": 2.834821428571429,
+      "grad_norm": 1.3291288614273071,
+      "learning_rate": 2.618299500280208e-07,
+      "loss": 0.2982,
+      "step": 635
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 1.3302098512649536,
+      "learning_rate": 1.9760216187710788e-07,
+      "loss": 0.2932,
+      "step": 640
+    },
+    {
+      "epoch": 2.8794642857142856,
+      "grad_norm": 1.3039062023162842,
+      "learning_rate": 1.4234677174241372e-07,
+      "loss": 0.262,
+      "step": 645
+    },
+    {
+      "epoch": 2.9017857142857144,
+      "grad_norm": 1.1974124908447266,
+      "learning_rate": 9.609727239708821e-08,
+      "loss": 0.2657,
+      "step": 650
+    },
+    {
+      "epoch": 2.924107142857143,
+      "grad_norm": 1.3114773035049438,
+      "learning_rate": 5.888169773946905e-08,
+      "loss": 0.2651,
+      "step": 655
+    },
+    {
+      "epoch": 2.946428571428571,
+      "grad_norm": 1.1701819896697998,
+      "learning_rate": 3.072260580048447e-08,
+      "loss": 0.2611,
+      "step": 660
+    },
+    {
+      "epoch": 2.96875,
+      "grad_norm": 1.2472351789474487,
+      "learning_rate": 1.1637065070210784e-08,
+      "loss": 0.2965,
+      "step": 665
+    },
+    {
+      "epoch": 2.991071428571429,
+      "grad_norm": 1.2813712358474731,
+      "learning_rate": 1.6366441519066744e-09,
+      "loss": 0.3116,
+      "step": 670
+    },
+    {
+      "epoch": 3.0,
+      "step": 672,
+      "total_flos": 9.445228084513997e+17,
+      "train_loss": 0.5761548168957233,
+      "train_runtime": 426.9308,
+      "train_samples_per_second": 50.299,
+      "train_steps_per_second": 1.574
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 672,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.445228084513997e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

32_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e4dfd68c97f7e06cb490bc9d0758d28385c0e75d8f7f904ea352f34775c0f18
+size 8145

32_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff