Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

36_128_e3_3e-5/.gitattributes +35 -0
36_128_e3_3e-5/README.md +63 -0
36_128_e3_3e-5/adapter_config.json +39 -0
36_128_e3_3e-5/adapter_model.safetensors +3 -0
36_128_e3_3e-5/all_results.json +9 -0
36_128_e3_3e-5/config.json +32 -0
36_128_e3_3e-5/merges.txt +0 -0
36_128_e3_3e-5/special_tokens_map.json +45 -0
36_128_e3_3e-5/tokenizer.json +0 -0
36_128_e3_3e-5/tokenizer_config.json +188 -0
36_128_e3_3e-5/train_results.json +9 -0
36_128_e3_3e-5/trainer_state.json +946 -0
36_128_e3_3e-5/training_args.bin +3 -0
36_128_e3_3e-5/vocab.json +0 -0

36_128_e3_3e-5/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

36_128_e3_3e-5/README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+library_name: peft
+license: apache-2.0
+base_model: ibm-granite/granite-3.3-8b-base
+tags:
+- alignment-handbook
+- generated_from_trainer
+datasets:
+- data/knowledge_lora_training_data_1000
+model-index:
+- name: 36_128_e3_3e-5
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 36_128_e3_3e-5
+This model is a fine-tuned version of [ibm-granite/granite-3.3-8b-base](https://huggingface.co/ibm-granite/granite-3.3-8b-base) on the data/knowledge_lora_training_data_1000 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.95) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.2

36_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "q_proj",
+    "o_proj",
+    "up_proj",
+    "gate_proj",
+    "k_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

36_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84bf79d00712af8f6ad8818920a24cae847fa03dcf2bd173d367e0f6abdc0b5f
+size 791751704

36_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 9.08592907080958e+17,
+    "train_loss": 0.568069324541239,
+    "train_runtime": 446.192,
+    "train_samples": 6885,
+    "train_samples_per_second": 46.292,
+    "train_steps_per_second": 1.452
+}

36_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

36_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

36_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

36_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

36_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

36_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 9.08592907080958e+17,
+    "train_loss": 0.568069324541239,
+    "train_runtime": 446.192,
+    "train_samples": 6885,
+    "train_samples_per_second": 46.292,
+    "train_steps_per_second": 1.452
+}

36_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,946 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 648,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02320185614849188,
+      "grad_norm": 1.219160795211792,
+      "learning_rate": 3.6363636363636366e-06,
+      "loss": 1.3935,
+      "step": 5
+    },
+    {
+      "epoch": 0.04640371229698376,
+      "grad_norm": 0.6989760398864746,
+      "learning_rate": 8.181818181818181e-06,
+      "loss": 1.3343,
+      "step": 10
+    },
+    {
+      "epoch": 0.06960556844547564,
+      "grad_norm": 0.6086630821228027,
+      "learning_rate": 1.2727272727272728e-05,
+      "loss": 1.352,
+      "step": 15
+    },
+    {
+      "epoch": 0.09280742459396751,
+      "grad_norm": 0.6211909651756287,
+      "learning_rate": 1.7272727272727274e-05,
+      "loss": 1.2798,
+      "step": 20
+    },
+    {
+      "epoch": 0.11600928074245939,
+      "grad_norm": 0.5473677515983582,
+      "learning_rate": 2.1818181818181818e-05,
+      "loss": 1.3187,
+      "step": 25
+    },
+    {
+      "epoch": 0.13921113689095127,
+      "grad_norm": 0.5442286729812622,
+      "learning_rate": 2.6363636363636365e-05,
+      "loss": 1.23,
+      "step": 30
+    },
+    {
+      "epoch": 0.16241299303944315,
+      "grad_norm": 0.705643892288208,
+      "learning_rate": 2.9999804291434877e-05,
+      "loss": 1.1501,
+      "step": 35
+    },
+    {
+      "epoch": 0.18561484918793503,
+      "grad_norm": 0.487576961517334,
+      "learning_rate": 2.9992955027866397e-05,
+      "loss": 1.2513,
+      "step": 40
+    },
+    {
+      "epoch": 0.2088167053364269,
+      "grad_norm": 0.4667053818702698,
+      "learning_rate": 2.9976325442355054e-05,
+      "loss": 1.1647,
+      "step": 45
+    },
+    {
+      "epoch": 0.23201856148491878,
+      "grad_norm": 0.4767085909843445,
+      "learning_rate": 2.9949926382842413e-05,
+      "loss": 1.1638,
+      "step": 50
+    },
+    {
+      "epoch": 0.2552204176334107,
+      "grad_norm": 0.5481588244438171,
+      "learning_rate": 2.99137750701699e-05,
+      "loss": 1.1506,
+      "step": 55
+    },
+    {
+      "epoch": 0.27842227378190254,
+      "grad_norm": 0.5421363115310669,
+      "learning_rate": 2.9867895086845162e-05,
+      "loss": 1.1075,
+      "step": 60
+    },
+    {
+      "epoch": 0.30162412993039445,
+      "grad_norm": 0.5294833183288574,
+      "learning_rate": 2.981231636165854e-05,
+      "loss": 1.0446,
+      "step": 65
+    },
+    {
+      "epoch": 0.3248259860788863,
+      "grad_norm": 0.5766082406044006,
+      "learning_rate": 2.9747075150159694e-05,
+      "loss": 1.0412,
+      "step": 70
+    },
+    {
+      "epoch": 0.3480278422273782,
+      "grad_norm": 0.5724071860313416,
+      "learning_rate": 2.9672214011007087e-05,
+      "loss": 1.0479,
+      "step": 75
+    },
+    {
+      "epoch": 0.37122969837587005,
+      "grad_norm": 0.5452978014945984,
+      "learning_rate": 2.958778177820579e-05,
+      "loss": 1.0479,
+      "step": 80
+    },
+    {
+      "epoch": 0.39443155452436196,
+      "grad_norm": 0.5689288377761841,
+      "learning_rate": 2.949383352925171e-05,
+      "loss": 1.022,
+      "step": 85
+    },
+    {
+      "epoch": 0.4176334106728538,
+      "grad_norm": 0.6253594756126404,
+      "learning_rate": 2.9390430549203005e-05,
+      "loss": 1.0236,
+      "step": 90
+    },
+    {
+      "epoch": 0.4408352668213457,
+      "grad_norm": 0.6579270958900452,
+      "learning_rate": 2.9277640290702112e-05,
+      "loss": 0.9349,
+      "step": 95
+    },
+    {
+      "epoch": 0.46403712296983757,
+      "grad_norm": 0.7326456904411316,
+      "learning_rate": 2.9155536329974543e-05,
+      "loss": 0.9398,
+      "step": 100
+    },
+    {
+      "epoch": 0.4872389791183295,
+      "grad_norm": 0.6393401026725769,
+      "learning_rate": 2.9024198318833044e-05,
+      "loss": 0.9487,
+      "step": 105
+    },
+    {
+      "epoch": 0.5104408352668214,
+      "grad_norm": 0.7346230149269104,
+      "learning_rate": 2.8883711932718515e-05,
+      "loss": 0.9401,
+      "step": 110
+    },
+    {
+      "epoch": 0.5336426914153132,
+      "grad_norm": 0.6045659184455872,
+      "learning_rate": 2.873416881481151e-05,
+      "loss": 0.941,
+      "step": 115
+    },
+    {
+      "epoch": 0.5568445475638051,
+      "grad_norm": 0.7468563914299011,
+      "learning_rate": 2.8575666516250872e-05,
+      "loss": 0.9315,
+      "step": 120
+    },
+    {
+      "epoch": 0.580046403712297,
+      "grad_norm": 0.750427782535553,
+      "learning_rate": 2.8408308432498376e-05,
+      "loss": 0.8793,
+      "step": 125
+    },
+    {
+      "epoch": 0.6032482598607889,
+      "grad_norm": 0.7826792597770691,
+      "learning_rate": 2.8232203735891025e-05,
+      "loss": 0.8964,
+      "step": 130
+    },
+    {
+      "epoch": 0.6264501160092807,
+      "grad_norm": 0.7220160961151123,
+      "learning_rate": 2.8047467304424866e-05,
+      "loss": 0.7903,
+      "step": 135
+    },
+    {
+      "epoch": 0.6496519721577726,
+      "grad_norm": 0.7375683188438416,
+      "learning_rate": 2.7854219646816883e-05,
+      "loss": 0.8135,
+      "step": 140
+    },
+    {
+      "epoch": 0.6728538283062645,
+      "grad_norm": 0.7998172044754028,
+      "learning_rate": 2.7652586823893825e-05,
+      "loss": 0.7831,
+      "step": 145
+    },
+    {
+      "epoch": 0.6960556844547564,
+      "grad_norm": 0.7480510473251343,
+      "learning_rate": 2.7442700366359196e-05,
+      "loss": 0.8183,
+      "step": 150
+    },
+    {
+      "epoch": 0.7192575406032483,
+      "grad_norm": 0.8960234522819519,
+      "learning_rate": 2.7224697188992125e-05,
+      "loss": 0.8162,
+      "step": 155
+    },
+    {
+      "epoch": 0.7424593967517401,
+      "grad_norm": 0.8748011589050293,
+      "learning_rate": 2.6998719501334043e-05,
+      "loss": 0.833,
+      "step": 160
+    },
+    {
+      "epoch": 0.765661252900232,
+      "grad_norm": 0.9163207411766052,
+      "learning_rate": 2.6764914714921446e-05,
+      "loss": 0.7667,
+      "step": 165
+    },
+    {
+      "epoch": 0.7888631090487239,
+      "grad_norm": 0.9262372851371765,
+      "learning_rate": 2.652343534712523e-05,
+      "loss": 0.8368,
+      "step": 170
+    },
+    {
+      "epoch": 0.8120649651972158,
+      "grad_norm": 1.0122735500335693,
+      "learning_rate": 2.6274438921659377e-05,
+      "loss": 0.7511,
+      "step": 175
+    },
+    {
+      "epoch": 0.8352668213457076,
+      "grad_norm": 1.2506260871887207,
+      "learning_rate": 2.6018087865823857e-05,
+      "loss": 0.7345,
+      "step": 180
+    },
+    {
+      "epoch": 0.8584686774941995,
+      "grad_norm": 1.0473443269729614,
+      "learning_rate": 2.575454940454877e-05,
+      "loss": 0.723,
+      "step": 185
+    },
+    {
+      "epoch": 0.8816705336426914,
+      "grad_norm": 0.9357810616493225,
+      "learning_rate": 2.5483995451308863e-05,
+      "loss": 0.6701,
+      "step": 190
+    },
+    {
+      "epoch": 0.9048723897911833,
+      "grad_norm": 0.919532299041748,
+      "learning_rate": 2.5206602495979582e-05,
+      "loss": 0.6935,
+      "step": 195
+    },
+    {
+      "epoch": 0.9280742459396751,
+      "grad_norm": 1.202199935913086,
+      "learning_rate": 2.4922551489707847e-05,
+      "loss": 0.743,
+      "step": 200
+    },
+    {
+      "epoch": 0.951276102088167,
+      "grad_norm": 0.991878092288971,
+      "learning_rate": 2.4632027726872536e-05,
+      "loss": 0.7079,
+      "step": 205
+    },
+    {
+      "epoch": 0.974477958236659,
+      "grad_norm": 1.042881965637207,
+      "learning_rate": 2.433522072421184e-05,
+      "loss": 0.6996,
+      "step": 210
+    },
+    {
+      "epoch": 0.9976798143851509,
+      "grad_norm": 1.0745975971221924,
+      "learning_rate": 2.403232409719618e-05,
+      "loss": 0.6327,
+      "step": 215
+    },
+    {
+      "epoch": 1.0185614849187936,
+      "grad_norm": 1.0705265998840332,
+      "learning_rate": 2.372353543372749e-05,
+      "loss": 0.6093,
+      "step": 220
+    },
+    {
+      "epoch": 1.0417633410672853,
+      "grad_norm": 1.0255309343338013,
+      "learning_rate": 2.3409056165247087e-05,
+      "loss": 0.5377,
+      "step": 225
+    },
+    {
+      "epoch": 1.0649651972157772,
+      "grad_norm": 1.1280773878097534,
+      "learning_rate": 2.308909143533638e-05,
+      "loss": 0.5357,
+      "step": 230
+    },
+    {
+      "epoch": 1.088167053364269,
+      "grad_norm": 1.0947675704956055,
+      "learning_rate": 2.2763849965895944e-05,
+      "loss": 0.5395,
+      "step": 235
+    },
+    {
+      "epoch": 1.111368909512761,
+      "grad_norm": 1.1068971157073975,
+      "learning_rate": 2.243354392099048e-05,
+      "loss": 0.5362,
+      "step": 240
+    },
+    {
+      "epoch": 1.134570765661253,
+      "grad_norm": 1.0431209802627563,
+      "learning_rate": 2.2098388768448218e-05,
+      "loss": 0.5466,
+      "step": 245
+    },
+    {
+      "epoch": 1.1577726218097448,
+      "grad_norm": 1.2476052045822144,
+      "learning_rate": 2.1758603139305316e-05,
+      "loss": 0.5526,
+      "step": 250
+    },
+    {
+      "epoch": 1.1809744779582367,
+      "grad_norm": 1.1313457489013672,
+      "learning_rate": 2.1414408685186704e-05,
+      "loss": 0.5622,
+      "step": 255
+    },
+    {
+      "epoch": 1.2041763341067284,
+      "grad_norm": 1.0774128437042236,
+      "learning_rate": 2.10660299337166e-05,
+      "loss": 0.54,
+      "step": 260
+    },
+    {
+      "epoch": 1.2273781902552203,
+      "grad_norm": 1.0997555255889893,
+      "learning_rate": 2.071369414205284e-05,
+      "loss": 0.5621,
+      "step": 265
+    },
+    {
+      "epoch": 1.2505800464037122,
+      "grad_norm": 1.2181297540664673,
+      "learning_rate": 2.035763114864077e-05,
+      "loss": 0.542,
+      "step": 270
+    },
+    {
+      "epoch": 1.2737819025522041,
+      "grad_norm": 1.2057301998138428,
+      "learning_rate": 1.9998073223283167e-05,
+      "loss": 0.5708,
+      "step": 275
+    },
+    {
+      "epoch": 1.296983758700696,
+      "grad_norm": 1.140573263168335,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 0.4742,
+      "step": 280
+    },
+    {
+      "epoch": 1.320185614849188,
+      "grad_norm": 1.2168419361114502,
+      "learning_rate": 1.9269412902146242e-05,
+      "loss": 0.4875,
+      "step": 285
+    },
+    {
+      "epoch": 1.3433874709976799,
+      "grad_norm": 1.2027587890625,
+      "learning_rate": 1.890078583177906e-05,
+      "loss": 0.5296,
+      "step": 290
+    },
+    {
+      "epoch": 1.3665893271461718,
+      "grad_norm": 1.2685033082962036,
+      "learning_rate": 1.8529614170222612e-05,
+      "loss": 0.4399,
+      "step": 295
+    },
+    {
+      "epoch": 1.3897911832946637,
+      "grad_norm": 1.2043168544769287,
+      "learning_rate": 1.815614004308451e-05,
+      "loss": 0.4522,
+      "step": 300
+    },
+    {
+      "epoch": 1.4129930394431556,
+      "grad_norm": 1.1288189888000488,
+      "learning_rate": 1.7780607077934776e-05,
+      "loss": 0.4645,
+      "step": 305
+    },
+    {
+      "epoch": 1.4361948955916473,
+      "grad_norm": 1.2907326221466064,
+      "learning_rate": 1.7403260245380763e-05,
+      "loss": 0.4463,
+      "step": 310
+    },
+    {
+      "epoch": 1.4593967517401392,
+      "grad_norm": 1.2365998029708862,
+      "learning_rate": 1.7024345699266046e-05,
+      "loss": 0.4618,
+      "step": 315
+    },
+    {
+      "epoch": 1.482598607888631,
+      "grad_norm": 1.06448233127594,
+      "learning_rate": 1.664411061609738e-05,
+      "loss": 0.4579,
+      "step": 320
+    },
+    {
+      "epoch": 1.505800464037123,
+      "grad_norm": 1.207939863204956,
+      "learning_rate": 1.6262803033804608e-05,
+      "loss": 0.4043,
+      "step": 325
+    },
+    {
+      "epoch": 1.5290023201856149,
+      "grad_norm": 1.2255786657333374,
+      "learning_rate": 1.5880671689938608e-05,
+      "loss": 0.4553,
+      "step": 330
+    },
+    {
+      "epoch": 1.5522041763341066,
+      "grad_norm": 1.282711148262024,
+      "learning_rate": 1.5497965859412876e-05,
+      "loss": 0.4319,
+      "step": 335
+    },
+    {
+      "epoch": 1.5754060324825985,
+      "grad_norm": 1.2257310152053833,
+      "learning_rate": 1.5114935191894525e-05,
+      "loss": 0.4329,
+      "step": 340
+    },
+    {
+      "epoch": 1.5986078886310904,
+      "grad_norm": 1.24298894405365,
+      "learning_rate": 1.4731829548950906e-05,
+      "loss": 0.4293,
+      "step": 345
+    },
+    {
+      "epoch": 1.6218097447795823,
+      "grad_norm": 1.171297550201416,
+      "learning_rate": 1.4348898841057916e-05,
+      "loss": 0.426,
+      "step": 350
+    },
+    {
+      "epoch": 1.6450116009280742,
+      "grad_norm": 1.2134820222854614,
+      "learning_rate": 1.396639286457644e-05,
+      "loss": 0.4643,
+      "step": 355
+    },
+    {
+      "epoch": 1.668213457076566,
+      "grad_norm": 1.3995639085769653,
+      "learning_rate": 1.3584561138803257e-05,
+      "loss": 0.4757,
+      "step": 360
+    },
+    {
+      "epoch": 1.691415313225058,
+      "grad_norm": 1.280475378036499,
+      "learning_rate": 1.320365274320262e-05,
+      "loss": 0.4168,
+      "step": 365
+    },
+    {
+      "epoch": 1.71461716937355,
+      "grad_norm": 1.3147066831588745,
+      "learning_rate": 1.2823916154924826e-05,
+      "loss": 0.3972,
+      "step": 370
+    },
+    {
+      "epoch": 1.7378190255220418,
+      "grad_norm": 1.0735794305801392,
+      "learning_rate": 1.2445599086717624e-05,
+      "loss": 0.4166,
+      "step": 375
+    },
+    {
+      "epoch": 1.7610208816705337,
+      "grad_norm": 1.3387123346328735,
+      "learning_rate": 1.20689483253363e-05,
+      "loss": 0.3977,
+      "step": 380
+    },
+    {
+      "epoch": 1.7842227378190256,
+      "grad_norm": 1.3805619478225708,
+      "learning_rate": 1.169420957055782e-05,
+      "loss": 0.4242,
+      "step": 385
+    },
+    {
+      "epoch": 1.8074245939675175,
+      "grad_norm": 1.53822922706604,
+      "learning_rate": 1.1321627274904005e-05,
+      "loss": 0.3868,
+      "step": 390
+    },
+    {
+      "epoch": 1.8306264501160094,
+      "grad_norm": 1.2455570697784424,
+      "learning_rate": 1.0951444484178363e-05,
+      "loss": 0.3899,
+      "step": 395
+    },
+    {
+      "epoch": 1.8538283062645011,
+      "grad_norm": 1.1647762060165405,
+      "learning_rate": 1.0583902678920554e-05,
+      "loss": 0.4229,
+      "step": 400
+    },
+    {
+      "epoch": 1.877030162412993,
+      "grad_norm": 1.3894317150115967,
+      "learning_rate": 1.0219241616881858e-05,
+      "loss": 0.4315,
+      "step": 405
+    },
+    {
+      "epoch": 1.900232018561485,
+      "grad_norm": 1.2704989910125732,
+      "learning_rate": 9.857699176624604e-06,
+      "loss": 0.4263,
+      "step": 410
+    },
+    {
+      "epoch": 1.9234338747099768,
+      "grad_norm": 1.3529019355773926,
+      "learning_rate": 9.499511202347282e-06,
+      "loss": 0.3985,
+      "step": 415
+    },
+    {
+      "epoch": 1.9466357308584685,
+      "grad_norm": 1.219305157661438,
+      "learning_rate": 9.144911350036851e-06,
+      "loss": 0.3591,
+      "step": 420
+    },
+    {
+      "epoch": 1.9698375870069604,
+      "grad_norm": 1.4845781326293945,
+      "learning_rate": 8.794130935048437e-06,
+      "loss": 0.3821,
+      "step": 425
+    },
+    {
+      "epoch": 1.9930394431554523,
+      "grad_norm": 1.1803202629089355,
+      "learning_rate": 8.447398781211854e-06,
+      "loss": 0.357,
+      "step": 430
+    },
+    {
+      "epoch": 2.0139211136890953,
+      "grad_norm": 1.3034149408340454,
+      "learning_rate": 8.104941071563479e-06,
+      "loss": 0.296,
+      "step": 435
+    },
+    {
+      "epoch": 2.0371229698375872,
+      "grad_norm": 1.4646925926208496,
+      "learning_rate": 7.766981200800754e-06,
+      "loss": 0.2995,
+      "step": 440
+    },
+    {
+      "epoch": 2.0603248259860787,
+      "grad_norm": 1.1848576068878174,
+      "learning_rate": 7.433739629555603e-06,
+      "loss": 0.3265,
+      "step": 445
+    },
+    {
+      "epoch": 2.0835266821345706,
+      "grad_norm": 1.3483668565750122,
+      "learning_rate": 7.105433740581825e-06,
+      "loss": 0.2884,
+      "step": 450
+    },
+    {
+      "epoch": 2.1067285382830625,
+      "grad_norm": 1.1891053915023804,
+      "learning_rate": 6.782277696950257e-06,
+      "loss": 0.3093,
+      "step": 455
+    },
+    {
+      "epoch": 2.1299303944315544,
+      "grad_norm": 1.2319475412368774,
+      "learning_rate": 6.464482302344295e-06,
+      "loss": 0.2901,
+      "step": 460
+    },
+    {
+      "epoch": 2.1531322505800463,
+      "grad_norm": 1.2630311250686646,
+      "learning_rate": 6.152254863546701e-06,
+      "loss": 0.2949,
+      "step": 465
+    },
+    {
+      "epoch": 2.176334106728538,
+      "grad_norm": 1.1066434383392334,
+      "learning_rate": 5.845799055207684e-06,
+      "loss": 0.2381,
+      "step": 470
+    },
+    {
+      "epoch": 2.19953596287703,
+      "grad_norm": 1.1851880550384521,
+      "learning_rate": 5.54531478698223e-06,
+      "loss": 0.3233,
+      "step": 475
+    },
+    {
+      "epoch": 2.222737819025522,
+      "grad_norm": 1.2732340097427368,
+      "learning_rate": 5.25099807312347e-06,
+      "loss": 0.3235,
+      "step": 480
+    },
+    {
+      "epoch": 2.245939675174014,
+      "grad_norm": 1.2440078258514404,
+      "learning_rate": 4.963040904617131e-06,
+      "loss": 0.3112,
+      "step": 485
+    },
+    {
+      "epoch": 2.269141531322506,
+      "grad_norm": 1.425354242324829,
+      "learning_rate": 4.681631123940456e-06,
+      "loss": 0.289,
+      "step": 490
+    },
+    {
+      "epoch": 2.2923433874709978,
+      "grad_norm": 1.2365620136260986,
+      "learning_rate": 4.406952302527346e-06,
+      "loss": 0.2513,
+      "step": 495
+    },
+    {
+      "epoch": 2.3155452436194897,
+      "grad_norm": 1.4038769006729126,
+      "learning_rate": 4.1391836210196095e-06,
+      "loss": 0.2747,
+      "step": 500
+    },
+    {
+      "epoch": 2.3387470997679816,
+      "grad_norm": 1.3630799055099487,
+      "learning_rate": 3.8784997523824025e-06,
+      "loss": 0.2884,
+      "step": 505
+    },
+    {
+      "epoch": 2.3619489559164735,
+      "grad_norm": 1.2368725538253784,
+      "learning_rate": 3.6250707479602356e-06,
+      "loss": 0.2689,
+      "step": 510
+    },
+    {
+      "epoch": 2.3851508120649654,
+      "grad_norm": 1.2378991842269897,
+      "learning_rate": 3.379061926547721e-06,
+      "loss": 0.2967,
+      "step": 515
+    },
+    {
+      "epoch": 2.408352668213457,
+      "grad_norm": 1.483498454093933,
+      "learning_rate": 3.140633766547531e-06,
+      "loss": 0.253,
+      "step": 520
+    },
+    {
+      "epoch": 2.4315545243619487,
+      "grad_norm": 1.3729356527328491,
+      "learning_rate": 2.909941801285868e-06,
+      "loss": 0.2895,
+      "step": 525
+    },
+    {
+      "epoch": 2.4547563805104406,
+      "grad_norm": 1.3198630809783936,
+      "learning_rate": 2.687136517553732e-06,
+      "loss": 0.263,
+      "step": 530
+    },
+    {
+      "epoch": 2.4779582366589326,
+      "grad_norm": 1.3220704793930054,
+      "learning_rate": 2.472363257440232e-06,
+      "loss": 0.2553,
+      "step": 535
+    },
+    {
+      "epoch": 2.5011600928074245,
+      "grad_norm": 1.4129279851913452,
+      "learning_rate": 2.2657621235218484e-06,
+      "loss": 0.2657,
+      "step": 540
+    },
+    {
+      "epoch": 2.5243619489559164,
+      "grad_norm": 1.287631630897522,
+      "learning_rate": 2.067467887469664e-06,
+      "loss": 0.2793,
+      "step": 545
+    },
+    {
+      "epoch": 2.5475638051044083,
+      "grad_norm": 1.3216496706008911,
+      "learning_rate": 1.877609902134025e-06,
+      "loss": 0.3026,
+      "step": 550
+    },
+    {
+      "epoch": 2.5707656612529,
+      "grad_norm": 1.1685019731521606,
+      "learning_rate": 1.696312017164089e-06,
+      "loss": 0.2586,
+      "step": 555
+    },
+    {
+      "epoch": 2.593967517401392,
+      "grad_norm": 1.3200889825820923,
+      "learning_rate": 1.5236924982172451e-06,
+      "loss": 0.2822,
+      "step": 560
+    },
+    {
+      "epoch": 2.617169373549884,
+      "grad_norm": 1.1200824975967407,
+      "learning_rate": 1.359863949811127e-06,
+      "loss": 0.2814,
+      "step": 565
+    },
+    {
+      "epoch": 2.640371229698376,
+      "grad_norm": 1.150526523590088,
+      "learning_rate": 1.2049332418685744e-06,
+      "loss": 0.2701,
+      "step": 570
+    },
+    {
+      "epoch": 2.663573085846868,
+      "grad_norm": 1.4273767471313477,
+      "learning_rate": 1.0590014400033848e-06,
+      "loss": 0.3197,
+      "step": 575
+    },
+    {
+      "epoch": 2.6867749419953597,
+      "grad_norm": 1.1727569103240967,
+      "learning_rate": 9.221637395923982e-07,
+      "loss": 0.307,
+      "step": 580
+    },
+    {
+      "epoch": 2.7099767981438516,
+      "grad_norm": 1.4102709293365479,
+      "learning_rate": 7.945094036769263e-07,
+      "loss": 0.2625,
+      "step": 585
+    },
+    {
+      "epoch": 2.7331786542923435,
+      "grad_norm": 1.1786118745803833,
+      "learning_rate": 6.761217047339596e-07,
+      "loss": 0.3075,
+      "step": 590
+    },
+    {
+      "epoch": 2.7563805104408354,
+      "grad_norm": 1.3757423162460327,
+      "learning_rate": 5.670778703552348e-07,
+      "loss": 0.2556,
+      "step": 595
+    },
+    {
+      "epoch": 2.7795823665893273,
+      "grad_norm": 1.2539029121398926,
+      "learning_rate": 4.6744903286950913e-07,
+      "loss": 0.2953,
+      "step": 600
+    },
+    {
+      "epoch": 2.8027842227378192,
+      "grad_norm": 1.2623578310012817,
+      "learning_rate": 3.773001829409678e-07,
+      "loss": 0.2649,
+      "step": 605
+    },
+    {
+      "epoch": 2.825986078886311,
+      "grad_norm": 1.2456574440002441,
+      "learning_rate": 2.966901271740119e-07,
+      "loss": 0.2907,
+      "step": 610
+    },
+    {
+      "epoch": 2.849187935034803,
+      "grad_norm": 1.3500759601593018,
+      "learning_rate": 2.25671449752064e-07,
+      "loss": 0.3091,
+      "step": 615
+    },
+    {
+      "epoch": 2.8723897911832945,
+      "grad_norm": 1.1782314777374268,
+      "learning_rate": 1.6429047813544206e-07,
+      "loss": 0.234,
+      "step": 620
+    },
+    {
+      "epoch": 2.8955916473317864,
+      "grad_norm": 1.2164199352264404,
+      "learning_rate": 1.1258725284067517e-07,
+      "loss": 0.2396,
+      "step": 625
+    },
+    {
+      "epoch": 2.9187935034802783,
+      "grad_norm": 1.274016261100769,
+      "learning_rate": 7.059550132095194e-08,
+      "loss": 0.2892,
+      "step": 630
+    },
+    {
+      "epoch": 2.9419953596287702,
+      "grad_norm": 1.1629997491836548,
+      "learning_rate": 3.834261596476651e-08,
+      "loss": 0.2764,
+      "step": 635
+    },
+    {
+      "epoch": 2.965197215777262,
+      "grad_norm": 1.2798513174057007,
+      "learning_rate": 1.5849636227102116e-08,
+      "loss": 0.2562,
+      "step": 640
+    },
+    {
+      "epoch": 2.988399071925754,
+      "grad_norm": 1.236732006072998,
+      "learning_rate": 3.1312349048079336e-09,
+      "loss": 0.262,
+      "step": 645
+    },
+    {
+      "epoch": 3.0,
+      "step": 648,
+      "total_flos": 9.08592907080958e+17,
+      "train_loss": 0.568069324541239,
+      "train_runtime": 446.192,
+      "train_samples_per_second": 46.292,
+      "train_steps_per_second": 1.452
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 648,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.08592907080958e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

36_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5df131c17bb4146b2b4744a7799e03f158aa9917bb168ead4f67fb01805dabd
+size 8145

36_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff