Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

3_128_e3_3e-5/README.md +63 -0
3_128_e3_3e-5/adapter_config.json +39 -0
3_128_e3_3e-5/adapter_model.safetensors +3 -0
3_128_e3_3e-5/all_results.json +9 -0
3_128_e3_3e-5/config.json +32 -0
3_128_e3_3e-5/merges.txt +0 -0
3_128_e3_3e-5/special_tokens_map.json +45 -0
3_128_e3_3e-5/tokenizer.json +0 -0
3_128_e3_3e-5/tokenizer_config.json +188 -0
3_128_e3_3e-5/train_results.json +9 -0
3_128_e3_3e-5/trainer_state.json +827 -0
3_128_e3_3e-5/training_args.bin +3 -0
3_128_e3_3e-5/vocab.json +0 -0

3_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_2000
+model-index:
+- name: 3_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 3_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_2000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

3_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "down_proj",
+    "q_proj",
+    "up_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

3_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93d7301244b4ca3da038d557016ee0822f07a3ac42de9f49d9ce63c3ec16404b
+size 791751704

3_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 7.693380967339131e+17,
+    "train_loss": 0.5774282969481556,
+    "train_runtime": 365.6726,
+    "train_samples": 5988,
+    "train_samples_per_second": 49.126,
+    "train_steps_per_second": 1.542
+}

3_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

3_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

3_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

3_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

3_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

3_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 7.693380967339131e+17,
+    "train_loss": 0.5774282969481556,
+    "train_runtime": 365.6726,
+    "train_samples": 5988,
+    "train_samples_per_second": 49.126,
+    "train_steps_per_second": 1.542
+}

3_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,827 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 564,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 1.0369619131088257,
+      "learning_rate": 4.137931034482758e-06,
+      "loss": 1.3633,
+      "step": 5
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 0.9221632480621338,
+      "learning_rate": 9.310344827586207e-06,
+      "loss": 1.3343,
+      "step": 10
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.6410185098648071,
+      "learning_rate": 1.4482758620689657e-05,
+      "loss": 1.3103,
+      "step": 15
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 0.5797982811927795,
+      "learning_rate": 1.9655172413793102e-05,
+      "loss": 1.2924,
+      "step": 20
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.52991783618927,
+      "learning_rate": 2.4827586206896553e-05,
+      "loss": 1.2769,
+      "step": 25
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.5393030643463135,
+      "learning_rate": 3e-05,
+      "loss": 1.2454,
+      "step": 30
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 0.4748308062553406,
+      "learning_rate": 2.9993535093404975e-05,
+      "loss": 1.2148,
+      "step": 35
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 0.513857901096344,
+      "learning_rate": 2.997414594628888e-05,
+      "loss": 1.1809,
+      "step": 40
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.522930383682251,
+      "learning_rate": 2.9941849271855037e-05,
+      "loss": 1.1679,
+      "step": 45
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.5387976169586182,
+      "learning_rate": 2.9896672909434604e-05,
+      "loss": 1.1283,
+      "step": 50
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 0.6577940583229065,
+      "learning_rate": 2.9838655800489357e-05,
+      "loss": 1.1072,
+      "step": 55
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.5504846572875977,
+      "learning_rate": 2.976784795504466e-05,
+      "loss": 1.057,
+      "step": 60
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 0.5633766055107117,
+      "learning_rate": 2.968431040858144e-05,
+      "loss": 1.0729,
+      "step": 65
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 0.798940122127533,
+      "learning_rate": 2.9588115169424384e-05,
+      "loss": 1.0358,
+      "step": 70
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.7317732572555542,
+      "learning_rate": 2.9479345156671622e-05,
+      "loss": 1.055,
+      "step": 75
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 0.624677836894989,
+      "learning_rate": 2.9358094128719524e-05,
+      "loss": 0.9765,
+      "step": 80
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 0.614265501499176,
+      "learning_rate": 2.9224466602444128e-05,
+      "loss": 0.9947,
+      "step": 85
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.6677832007408142,
+      "learning_rate": 2.9078577763108892e-05,
+      "loss": 0.938,
+      "step": 90
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 0.7544026970863342,
+      "learning_rate": 2.8920553365076415e-05,
+      "loss": 0.9732,
+      "step": 95
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.6509144306182861,
+      "learning_rate": 2.8750529623409766e-05,
+      "loss": 0.9578,
+      "step": 100
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.6900473833084106,
+      "learning_rate": 2.8568653096456793e-05,
+      "loss": 0.8771,
+      "step": 105
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 0.8472984433174133,
+      "learning_rate": 2.8375080559518636e-05,
+      "loss": 0.9047,
+      "step": 110
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 0.7810978293418884,
+      "learning_rate": 2.8169978869711387e-05,
+      "loss": 0.8981,
+      "step": 115
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.7871779203414917,
+      "learning_rate": 2.795352482213732e-05,
+      "loss": 0.8948,
+      "step": 120
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.7329918742179871,
+      "learning_rate": 2.7725904997489725e-05,
+      "loss": 0.8118,
+      "step": 125
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 0.8269219994544983,
+      "learning_rate": 2.7487315601222673e-05,
+      "loss": 0.8489,
+      "step": 130
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.8705148100852966,
+      "learning_rate": 2.7237962294424358e-05,
+      "loss": 0.8019,
+      "step": 135
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 0.882828950881958,
+      "learning_rate": 2.697806001653979e-05,
+      "loss": 0.7522,
+      "step": 140
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 0.8746913075447083,
+      "learning_rate": 2.670783280009569e-05,
+      "loss": 0.7508,
+      "step": 145
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.9475473165512085,
+      "learning_rate": 2.642751357758722e-05,
+      "loss": 0.8082,
+      "step": 150
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 0.9083118438720703,
+      "learning_rate": 2.613734398069308e-05,
+      "loss": 0.8006,
+      "step": 155
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 1.041511058807373,
+      "learning_rate": 2.5837574131992033e-05,
+      "loss": 0.7541,
+      "step": 160
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.8809345960617065,
+      "learning_rate": 2.5528462429360324e-05,
+      "loss": 0.7443,
+      "step": 165
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 0.8609569668769836,
+      "learning_rate": 2.5210275323235945e-05,
+      "loss": 0.7162,
+      "step": 170
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 1.2309577465057373,
+      "learning_rate": 2.4883287086941668e-05,
+      "loss": 0.6871,
+      "step": 175
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.0383931398391724,
+      "learning_rate": 2.4547779580264876e-05,
+      "loss": 0.737,
+      "step": 180
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 1.1104377508163452,
+      "learning_rate": 2.420404200649791e-05,
+      "loss": 0.684,
+      "step": 185
+    },
+    {
+      "epoch": 1.0106666666666666,
+      "grad_norm": 1.0934193134307861,
+      "learning_rate": 2.3852370663148454e-05,
+      "loss": 0.6546,
+      "step": 190
+    },
+    {
+      "epoch": 1.0373333333333334,
+      "grad_norm": 1.0401474237442017,
+      "learning_rate": 2.349306868653476e-05,
+      "loss": 0.6133,
+      "step": 195
+    },
+    {
+      "epoch": 1.064,
+      "grad_norm": 0.9894310235977173,
+      "learning_rate": 2.312644579048592e-05,
+      "loss": 0.5959,
+      "step": 200
+    },
+    {
+      "epoch": 1.0906666666666667,
+      "grad_norm": 0.958469033241272,
+      "learning_rate": 2.2752817999372412e-05,
+      "loss": 0.6009,
+      "step": 205
+    },
+    {
+      "epoch": 1.1173333333333333,
+      "grad_norm": 1.126332402229309,
+      "learning_rate": 2.2372507375697017e-05,
+      "loss": 0.5726,
+      "step": 210
+    },
+    {
+      "epoch": 1.144,
+      "grad_norm": 1.2539212703704834,
+      "learning_rate": 2.1985841742480954e-05,
+      "loss": 0.5356,
+      "step": 215
+    },
+    {
+      "epoch": 1.1706666666666667,
+      "grad_norm": 1.3413432836532593,
+      "learning_rate": 2.1593154400684524e-05,
+      "loss": 0.5812,
+      "step": 220
+    },
+    {
+      "epoch": 1.1973333333333334,
+      "grad_norm": 1.4655650854110718,
+      "learning_rate": 2.1194783841905826e-05,
+      "loss": 0.587,
+      "step": 225
+    },
+    {
+      "epoch": 1.224,
+      "grad_norm": 1.0181304216384888,
+      "learning_rate": 2.0791073456605224e-05,
+      "loss": 0.5125,
+      "step": 230
+    },
+    {
+      "epoch": 1.2506666666666666,
+      "grad_norm": 1.3731675148010254,
+      "learning_rate": 2.038237123810704e-05,
+      "loss": 0.5366,
+      "step": 235
+    },
+    {
+      "epoch": 1.2773333333333334,
+      "grad_norm": 1.4677866697311401,
+      "learning_rate": 1.996902948263364e-05,
+      "loss": 0.5525,
+      "step": 240
+    },
+    {
+      "epoch": 1.304,
+      "grad_norm": 1.2465121746063232,
+      "learning_rate": 1.955140448563049e-05,
+      "loss": 0.4896,
+      "step": 245
+    },
+    {
+      "epoch": 1.3306666666666667,
+      "grad_norm": 1.340437650680542,
+      "learning_rate": 1.91298562346439e-05,
+      "loss": 0.5054,
+      "step": 250
+    },
+    {
+      "epoch": 1.3573333333333333,
+      "grad_norm": 1.1908224821090698,
+      "learning_rate": 1.8704748099016263e-05,
+      "loss": 0.5077,
+      "step": 255
+    },
+    {
+      "epoch": 1.384,
+      "grad_norm": 1.0551384687423706,
+      "learning_rate": 1.8276446516666194e-05,
+      "loss": 0.4831,
+      "step": 260
+    },
+    {
+      "epoch": 1.4106666666666667,
+      "grad_norm": 1.3685027360916138,
+      "learning_rate": 1.7845320678223616e-05,
+      "loss": 0.4551,
+      "step": 265
+    },
+    {
+      "epoch": 1.4373333333333334,
+      "grad_norm": 1.1558998823165894,
+      "learning_rate": 1.7411742208792025e-05,
+      "loss": 0.4847,
+      "step": 270
+    },
+    {
+      "epoch": 1.464,
+      "grad_norm": 1.2757512331008911,
+      "learning_rate": 1.6976084847612282e-05,
+      "loss": 0.4566,
+      "step": 275
+    },
+    {
+      "epoch": 1.4906666666666666,
+      "grad_norm": 1.1870886087417603,
+      "learning_rate": 1.6538724125904052e-05,
+      "loss": 0.5033,
+      "step": 280
+    },
+    {
+      "epoch": 1.5173333333333332,
+      "grad_norm": 1.0782506465911865,
+      "learning_rate": 1.610003704316256e-05,
+      "loss": 0.4641,
+      "step": 285
+    },
+    {
+      "epoch": 1.544,
+      "grad_norm": 1.2873475551605225,
+      "learning_rate": 1.5660401742189716e-05,
+      "loss": 0.4401,
+      "step": 290
+    },
+    {
+      "epoch": 1.5706666666666667,
+      "grad_norm": 1.2271339893341064,
+      "learning_rate": 1.5220197183139749e-05,
+      "loss": 0.4329,
+      "step": 295
+    },
+    {
+      "epoch": 1.5973333333333333,
+      "grad_norm": 1.5132803916931152,
+      "learning_rate": 1.4779802816860254e-05,
+      "loss": 0.4496,
+      "step": 300
+    },
+    {
+      "epoch": 1.624,
+      "grad_norm": 1.2447651624679565,
+      "learning_rate": 1.4339598257810285e-05,
+      "loss": 0.4172,
+      "step": 305
+    },
+    {
+      "epoch": 1.6506666666666665,
+      "grad_norm": 1.3827584981918335,
+      "learning_rate": 1.3899962956837443e-05,
+      "loss": 0.4584,
+      "step": 310
+    },
+    {
+      "epoch": 1.6773333333333333,
+      "grad_norm": 1.2072769403457642,
+      "learning_rate": 1.346127587409595e-05,
+      "loss": 0.4242,
+      "step": 315
+    },
+    {
+      "epoch": 1.704,
+      "grad_norm": 1.1255788803100586,
+      "learning_rate": 1.302391515238772e-05,
+      "loss": 0.4386,
+      "step": 320
+    },
+    {
+      "epoch": 1.7306666666666666,
+      "grad_norm": 1.1559412479400635,
+      "learning_rate": 1.2588257791207979e-05,
+      "loss": 0.4448,
+      "step": 325
+    },
+    {
+      "epoch": 1.7573333333333334,
+      "grad_norm": 1.1612838506698608,
+      "learning_rate": 1.2154679321776385e-05,
+      "loss": 0.4106,
+      "step": 330
+    },
+    {
+      "epoch": 1.784,
+      "grad_norm": 1.368586540222168,
+      "learning_rate": 1.1723553483333807e-05,
+      "loss": 0.4207,
+      "step": 335
+    },
+    {
+      "epoch": 1.8106666666666666,
+      "grad_norm": 1.3317979574203491,
+      "learning_rate": 1.1295251900983741e-05,
+      "loss": 0.4043,
+      "step": 340
+    },
+    {
+      "epoch": 1.8373333333333335,
+      "grad_norm": 1.2410328388214111,
+      "learning_rate": 1.0870143765356105e-05,
+      "loss": 0.3807,
+      "step": 345
+    },
+    {
+      "epoch": 1.8639999999999999,
+      "grad_norm": 1.2702666521072388,
+      "learning_rate": 1.0448595514369515e-05,
+      "loss": 0.3803,
+      "step": 350
+    },
+    {
+      "epoch": 1.8906666666666667,
+      "grad_norm": 1.3750065565109253,
+      "learning_rate": 1.0030970517366363e-05,
+      "loss": 0.4112,
+      "step": 355
+    },
+    {
+      "epoch": 1.9173333333333333,
+      "grad_norm": 1.147455096244812,
+      "learning_rate": 9.617628761892964e-06,
+      "loss": 0.423,
+      "step": 360
+    },
+    {
+      "epoch": 1.944,
+      "grad_norm": 1.3719347715377808,
+      "learning_rate": 9.208926543394777e-06,
+      "loss": 0.3613,
+      "step": 365
+    },
+    {
+      "epoch": 1.9706666666666668,
+      "grad_norm": 1.1483198404312134,
+      "learning_rate": 8.805216158094177e-06,
+      "loss": 0.3843,
+      "step": 370
+    },
+    {
+      "epoch": 1.9973333333333332,
+      "grad_norm": 1.2717103958129883,
+      "learning_rate": 8.406845599315482e-06,
+      "loss": 0.3565,
+      "step": 375
+    },
+    {
+      "epoch": 2.021333333333333,
+      "grad_norm": 1.3147350549697876,
+      "learning_rate": 8.014158257519046e-06,
+      "loss": 0.2985,
+      "step": 380
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 1.3286375999450684,
+      "learning_rate": 7.627492624302986e-06,
+      "loss": 0.2979,
+      "step": 385
+    },
+    {
+      "epoch": 2.074666666666667,
+      "grad_norm": 1.3888987302780151,
+      "learning_rate": 7.2471820006275885e-06,
+      "loss": 0.3002,
+      "step": 390
+    },
+    {
+      "epoch": 2.1013333333333333,
+      "grad_norm": 1.3046706914901733,
+      "learning_rate": 6.873554209514085e-06,
+      "loss": 0.3195,
+      "step": 395
+    },
+    {
+      "epoch": 2.128,
+      "grad_norm": 1.1246421337127686,
+      "learning_rate": 6.506931313465245e-06,
+      "loss": 0.2974,
+      "step": 400
+    },
+    {
+      "epoch": 2.1546666666666665,
+      "grad_norm": 1.334275245666504,
+      "learning_rate": 6.147629336851553e-06,
+      "loss": 0.3092,
+      "step": 405
+    },
+    {
+      "epoch": 2.1813333333333333,
+      "grad_norm": 1.3971017599105835,
+      "learning_rate": 5.795957993502093e-06,
+      "loss": 0.3134,
+      "step": 410
+    },
+    {
+      "epoch": 2.208,
+      "grad_norm": 1.2651209831237793,
+      "learning_rate": 5.45222041973513e-06,
+      "loss": 0.3136,
+      "step": 415
+    },
+    {
+      "epoch": 2.2346666666666666,
+      "grad_norm": 1.4007368087768555,
+      "learning_rate": 5.116712913058335e-06,
+      "loss": 0.2932,
+      "step": 420
+    },
+    {
+      "epoch": 2.2613333333333334,
+      "grad_norm": 1.244715690612793,
+      "learning_rate": 4.789724676764062e-06,
+      "loss": 0.3271,
+      "step": 425
+    },
+    {
+      "epoch": 2.288,
+      "grad_norm": 1.4135619401931763,
+      "learning_rate": 4.471537570639677e-06,
+      "loss": 0.2814,
+      "step": 430
+    },
+    {
+      "epoch": 2.3146666666666667,
+      "grad_norm": 1.3505793809890747,
+      "learning_rate": 4.162425868007969e-06,
+      "loss": 0.2899,
+      "step": 435
+    },
+    {
+      "epoch": 2.3413333333333335,
+      "grad_norm": 1.3521718978881836,
+      "learning_rate": 3.86265601930692e-06,
+      "loss": 0.2807,
+      "step": 440
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 1.3653450012207031,
+      "learning_rate": 3.572486422412787e-06,
+      "loss": 0.335,
+      "step": 445
+    },
+    {
+      "epoch": 2.3946666666666667,
+      "grad_norm": 1.2573339939117432,
+      "learning_rate": 3.2921671999043107e-06,
+      "loss": 0.2933,
+      "step": 450
+    },
+    {
+      "epoch": 2.421333333333333,
+      "grad_norm": 1.3035194873809814,
+      "learning_rate": 3.021939983460211e-06,
+      "loss": 0.2946,
+      "step": 455
+    },
+    {
+      "epoch": 2.448,
+      "grad_norm": 1.2341852188110352,
+      "learning_rate": 2.7620377055756426e-06,
+      "loss": 0.2845,
+      "step": 460
+    },
+    {
+      "epoch": 2.474666666666667,
+      "grad_norm": 1.2531706094741821,
+      "learning_rate": 2.512684398777329e-06,
+      "loss": 0.2946,
+      "step": 465
+    },
+    {
+      "epoch": 2.501333333333333,
+      "grad_norm": 1.2765233516693115,
+      "learning_rate": 2.274095002510276e-06,
+      "loss": 0.26,
+      "step": 470
+    },
+    {
+      "epoch": 2.528,
+      "grad_norm": 1.3547015190124512,
+      "learning_rate": 2.046475177862684e-06,
+      "loss": 0.2735,
+      "step": 475
+    },
+    {
+      "epoch": 2.554666666666667,
+      "grad_norm": 1.1476202011108398,
+      "learning_rate": 1.8300211302886138e-06,
+      "loss": 0.2559,
+      "step": 480
+    },
+    {
+      "epoch": 2.5813333333333333,
+      "grad_norm": 1.1746495962142944,
+      "learning_rate": 1.6249194404813632e-06,
+      "loss": 0.2814,
+      "step": 485
+    },
+    {
+      "epoch": 2.608,
+      "grad_norm": 1.225191593170166,
+      "learning_rate": 1.4313469035432054e-06,
+      "loss": 0.2866,
+      "step": 490
+    },
+    {
+      "epoch": 2.634666666666667,
+      "grad_norm": 1.1532659530639648,
+      "learning_rate": 1.2494703765902337e-06,
+      "loss": 0.2686,
+      "step": 495
+    },
+    {
+      "epoch": 2.6613333333333333,
+      "grad_norm": 1.4440910816192627,
+      "learning_rate": 1.0794466349235865e-06,
+      "loss": 0.2539,
+      "step": 500
+    },
+    {
+      "epoch": 2.6879999999999997,
+      "grad_norm": 1.164143443107605,
+      "learning_rate": 9.214222368911112e-07,
+      "loss": 0.2598,
+      "step": 505
+    },
+    {
+      "epoch": 2.7146666666666666,
+      "grad_norm": 1.2960736751556396,
+      "learning_rate": 7.755333975558704e-07,
+      "loss": 0.2832,
+      "step": 510
+    },
+    {
+      "epoch": 2.7413333333333334,
+      "grad_norm": 1.2336454391479492,
+      "learning_rate": 6.41905871280477e-07,
+      "loss": 0.2667,
+      "step": 515
+    },
+    {
+      "epoch": 2.768,
+      "grad_norm": 1.3453514575958252,
+      "learning_rate": 5.206548433283803e-07,
+      "loss": 0.2589,
+      "step": 520
+    },
+    {
+      "epoch": 2.7946666666666666,
+      "grad_norm": 1.2562862634658813,
+      "learning_rate": 4.1188483057561734e-07,
+      "loss": 0.3053,
+      "step": 525
+    },
+    {
+      "epoch": 2.8213333333333335,
+      "grad_norm": 1.2071523666381836,
+      "learning_rate": 3.1568959141855814e-07,
+      "loss": 0.2836,
+      "step": 530
+    },
+    {
+      "epoch": 2.848,
+      "grad_norm": 1.3898652791976929,
+      "learning_rate": 2.3215204495534215e-07,
+      "loss": 0.2651,
+      "step": 535
+    },
+    {
+      "epoch": 2.8746666666666667,
+      "grad_norm": 1.3513026237487793,
+      "learning_rate": 1.6134419951064406e-07,
+      "loss": 0.2722,
+      "step": 540
+    },
+    {
+      "epoch": 2.9013333333333335,
+      "grad_norm": 1.3261029720306396,
+      "learning_rate": 1.0332709056539491e-07,
+      "loss": 0.2694,
+      "step": 545
+    },
+    {
+      "epoch": 2.928,
+      "grad_norm": 1.115708589553833,
+      "learning_rate": 5.815072814496225e-08,
+      "loss": 0.3012,
+      "step": 550
+    },
+    {
+      "epoch": 2.9546666666666668,
+      "grad_norm": 1.4938910007476807,
+      "learning_rate": 2.5854053711124593e-08,
+      "loss": 0.2845,
+      "step": 555
+    },
+    {
+      "epoch": 2.981333333333333,
+      "grad_norm": 1.3361222743988037,
+      "learning_rate": 6.464906595023967e-09,
+      "loss": 0.2679,
+      "step": 560
+    },
+    {
+      "epoch": 3.0,
+      "step": 564,
+      "total_flos": 7.693380967339131e+17,
+      "train_loss": 0.5774282969481556,
+      "train_runtime": 365.6726,
+      "train_samples_per_second": 49.126,
+      "train_steps_per_second": 1.542
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 564,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.693380967339131e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

3_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17cb75bc056ac5922797bf845c00c0d132e0acd0dad7048803b7b6aef6f9911b
+size 8145

3_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff