Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

base/53_128_e3_3e-5/adapter_config.json +39 -0
base/53_128_e3_3e-5/adapter_model.safetensors +3 -0
base/53_128_e3_3e-5/all_results.json +9 -0
base/53_128_e3_3e-5/config.json +32 -0
base/53_128_e3_3e-5/merges.txt +0 -0
base/53_128_e3_3e-5/special_tokens_map.json +45 -0
base/53_128_e3_3e-5/tokenizer.json +0 -0
base/53_128_e3_3e-5/tokenizer_config.json +188 -0
base/53_128_e3_3e-5/train_results.json +9 -0
base/53_128_e3_3e-5/trainer_state.json +414 -0
base/53_128_e3_3e-5/training_args.bin +3 -0
base/53_128_e3_3e-5/vocab.json +0 -0

base/53_128_e3_3e-5/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "ibm-granite/granite-3.3-8b-base",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_bias": false,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "down_proj",
+    "up_proj",
+    "v_proj",
+    "o_proj",
+    "gate_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

base/53_128_e3_3e-5/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf6d24210eebc1977ce21be06c3b327a9f80104d8ac9ad97cff213838dada948
+size 791751704

base/53_128_e3_3e-5/all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 4.740068881958175e+17,
+    "train_loss": 0.7981335973918214,
+    "train_runtime": 227.3208,
+    "train_samples": 2832,
+    "train_samples_per_second": 37.374,
+    "train_steps_per_second": 1.175
+}

base/53_128_e3_3e-5/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0,
+  "attention_multiplier": 0.0078125,
+  "bos_token_id": 0,
+  "embedding_multiplier": 12.0,
+  "eos_token_id": 0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "logits_scaling": 16.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "pad_token_id": 0,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000000.0,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 49152
+}

base/53_128_e3_3e-5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

base/53_128_e3_3e-5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<reponame>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

base/53_128_e3_3e-5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

base/53_128_e3_3e-5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 8192,
+  "pad_token": "<reponame>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

base/53_128_e3_3e-5/train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 4.740068881958175e+17,
+    "train_loss": 0.7981335973918214,
+    "train_runtime": 227.3208,
+    "train_samples": 2832,
+    "train_samples_per_second": 37.374,
+    "train_steps_per_second": 1.175
+}

base/53_128_e3_3e-5/trainer_state.json ADDED Viewed

	@@ -0,0 +1,414 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 267,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05649717514124294,
+      "grad_norm": 0.7455114722251892,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 1.973,
+      "step": 5
+    },
+    {
+      "epoch": 0.11299435028248588,
+      "grad_norm": 0.5543761849403381,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.9243,
+      "step": 10
+    },
+    {
+      "epoch": 0.1694915254237288,
+      "grad_norm": 0.5414445400238037,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 1.9245,
+      "step": 15
+    },
+    {
+      "epoch": 0.22598870056497175,
+      "grad_norm": 0.4733816683292389,
+      "learning_rate": 2.111111111111111e-05,
+      "loss": 1.8857,
+      "step": 20
+    },
+    {
+      "epoch": 0.2824858757062147,
+      "grad_norm": 0.5402284860610962,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.7883,
+      "step": 25
+    },
+    {
+      "epoch": 0.3389830508474576,
+      "grad_norm": 0.5788310766220093,
+      "learning_rate": 2.9994859874633358e-05,
+      "loss": 1.7862,
+      "step": 30
+    },
+    {
+      "epoch": 0.3954802259887006,
+      "grad_norm": 0.5563713312149048,
+      "learning_rate": 2.9937073913619926e-05,
+      "loss": 1.7099,
+      "step": 35
+    },
+    {
+      "epoch": 0.4519774011299435,
+      "grad_norm": 0.6585099101066589,
+      "learning_rate": 2.981532510892707e-05,
+      "loss": 1.573,
+      "step": 40
+    },
+    {
+      "epoch": 0.5084745762711864,
+      "grad_norm": 0.6230124831199646,
+      "learning_rate": 2.963013480762769e-05,
+      "loss": 1.5582,
+      "step": 45
+    },
+    {
+      "epoch": 0.5649717514124294,
+      "grad_norm": 0.7588362693786621,
+      "learning_rate": 2.9382296023022895e-05,
+      "loss": 1.4818,
+      "step": 50
+    },
+    {
+      "epoch": 0.6214689265536724,
+      "grad_norm": 0.9645133018493652,
+      "learning_rate": 2.9072870038837266e-05,
+      "loss": 1.4632,
+      "step": 55
+    },
+    {
+      "epoch": 0.6779661016949152,
+      "grad_norm": 0.8729403614997864,
+      "learning_rate": 2.8703181864639013e-05,
+      "loss": 1.3273,
+      "step": 60
+    },
+    {
+      "epoch": 0.7344632768361582,
+      "grad_norm": 1.154542326927185,
+      "learning_rate": 2.827481456194563e-05,
+      "loss": 1.2782,
+      "step": 65
+    },
+    {
+      "epoch": 0.7909604519774012,
+      "grad_norm": 1.1510545015335083,
+      "learning_rate": 2.7789602465311384e-05,
+      "loss": 1.1832,
+      "step": 70
+    },
+    {
+      "epoch": 0.847457627118644,
+      "grad_norm": 1.1153779029846191,
+      "learning_rate": 2.7249623327425187e-05,
+      "loss": 1.1678,
+      "step": 75
+    },
+    {
+      "epoch": 0.903954802259887,
+      "grad_norm": 2.129225015640259,
+      "learning_rate": 2.6657189421854564e-05,
+      "loss": 1.1127,
+      "step": 80
+    },
+    {
+      "epoch": 0.96045197740113,
+      "grad_norm": 1.309617042541504,
+      "learning_rate": 2.6014837641535285e-05,
+      "loss": 1.1026,
+      "step": 85
+    },
+    {
+      "epoch": 1.0112994350282485,
+      "grad_norm": 1.776416540145874,
+      "learning_rate": 2.5325318635406308e-05,
+      "loss": 1.0151,
+      "step": 90
+    },
+    {
+      "epoch": 1.0677966101694916,
+      "grad_norm": 1.8516428470611572,
+      "learning_rate": 2.4591585029708772e-05,
+      "loss": 0.8896,
+      "step": 95
+    },
+    {
+      "epoch": 1.1242937853107344,
+      "grad_norm": 1.5269629955291748,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 0.8716,
+      "step": 100
+    },
+    {
+      "epoch": 1.1807909604519775,
+      "grad_norm": 1.598893165588379,
+      "learning_rate": 2.3004217738734173e-05,
+      "loss": 0.8222,
+      "step": 105
+    },
+    {
+      "epoch": 1.2372881355932204,
+      "grad_norm": 1.8760461807250977,
+      "learning_rate": 2.2157381403894126e-05,
+      "loss": 0.7675,
+      "step": 110
+    },
+    {
+      "epoch": 1.2937853107344632,
+      "grad_norm": 1.6325527429580688,
+      "learning_rate": 2.1279896063061422e-05,
+      "loss": 0.7304,
+      "step": 115
+    },
+    {
+      "epoch": 1.3502824858757063,
+      "grad_norm": 1.7086148262023926,
+      "learning_rate": 2.03755192431795e-05,
+      "loss": 0.7039,
+      "step": 120
+    },
+    {
+      "epoch": 1.4067796610169492,
+      "grad_norm": 1.5583986043930054,
+      "learning_rate": 1.9448123624633565e-05,
+      "loss": 0.6907,
+      "step": 125
+    },
+    {
+      "epoch": 1.463276836158192,
+      "grad_norm": 2.0822973251342773,
+      "learning_rate": 1.8501680457838582e-05,
+      "loss": 0.6677,
+      "step": 130
+    },
+    {
+      "epoch": 1.5197740112994351,
+      "grad_norm": 1.877087950706482,
+      "learning_rate": 1.7540242557735366e-05,
+      "loss": 0.5891,
+      "step": 135
+    },
+    {
+      "epoch": 1.576271186440678,
+      "grad_norm": 2.289971351623535,
+      "learning_rate": 1.6567926949014805e-05,
+      "loss": 0.5542,
+      "step": 140
+    },
+    {
+      "epoch": 1.6327683615819208,
+      "grad_norm": 1.95906662940979,
+      "learning_rate": 1.558889723638603e-05,
+      "loss": 0.5555,
+      "step": 145
+    },
+    {
+      "epoch": 1.689265536723164,
+      "grad_norm": 1.887809157371521,
+      "learning_rate": 1.4607345775381906e-05,
+      "loss": 0.5244,
+      "step": 150
+    },
+    {
+      "epoch": 1.7457627118644068,
+      "grad_norm": 1.8785918951034546,
+      "learning_rate": 1.3627475720048966e-05,
+      "loss": 0.5325,
+      "step": 155
+    },
+    {
+      "epoch": 1.8022598870056497,
+      "grad_norm": 1.7194784879684448,
+      "learning_rate": 1.2653483024396535e-05,
+      "loss": 0.4724,
+      "step": 160
+    },
+    {
+      "epoch": 1.8587570621468927,
+      "grad_norm": 2.030320644378662,
+      "learning_rate": 1.1689538474677485e-05,
+      "loss": 0.469,
+      "step": 165
+    },
+    {
+      "epoch": 1.9152542372881356,
+      "grad_norm": 2.067829132080078,
+      "learning_rate": 1.073976982944116e-05,
+      "loss": 0.4489,
+      "step": 170
+    },
+    {
+      "epoch": 1.9717514124293785,
+      "grad_norm": 1.9073774814605713,
+      "learning_rate": 9.808244143837603e-06,
+      "loss": 0.4052,
+      "step": 175
+    },
+    {
+      "epoch": 2.022598870056497,
+      "grad_norm": 1.9014363288879395,
+      "learning_rate": 8.898950353863e-06,
+      "loss": 0.356,
+      "step": 180
+    },
+    {
+      "epoch": 2.07909604519774,
+      "grad_norm": 2.0496513843536377,
+      "learning_rate": 8.015782195123329e-06,
+      "loss": 0.3198,
+      "step": 185
+    },
+    {
+      "epoch": 2.135593220338983,
+      "grad_norm": 2.0590696334838867,
+      "learning_rate": 7.1625215292607685e-06,
+      "loss": 0.3004,
+      "step": 190
+    },
+    {
+      "epoch": 2.1920903954802258,
+      "grad_norm": 1.8601806163787842,
+      "learning_rate": 6.3428221494414976e-06,
+      "loss": 0.2915,
+      "step": 195
+    },
+    {
+      "epoch": 2.248587570621469,
+      "grad_norm": 1.7132056951522827,
+      "learning_rate": 5.560194134252441e-06,
+      "loss": 0.2704,
+      "step": 200
+    },
+    {
+      "epoch": 2.305084745762712,
+      "grad_norm": 1.7637696266174316,
+      "learning_rate": 4.817988817005873e-06,
+      "loss": 0.2789,
+      "step": 205
+    },
+    {
+      "epoch": 2.361581920903955,
+      "grad_norm": 1.6311168670654297,
+      "learning_rate": 4.119384434815689e-06,
+      "loss": 0.266,
+      "step": 210
+    },
+    {
+      "epoch": 2.4180790960451977,
+      "grad_norm": 1.6973382234573364,
+      "learning_rate": 3.4673725188981083e-06,
+      "loss": 0.2504,
+      "step": 215
+    },
+    {
+      "epoch": 2.4745762711864407,
+      "grad_norm": 1.6203786134719849,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 0.2495,
+      "step": 220
+    },
+    {
+      "epoch": 2.5310734463276834,
+      "grad_norm": 1.5758495330810547,
+      "learning_rate": 2.314082674440402e-06,
+      "loss": 0.2185,
+      "step": 225
+    },
+    {
+      "epoch": 2.5875706214689265,
+      "grad_norm": 1.4739516973495483,
+      "learning_rate": 1.817743310070521e-06,
+      "loss": 0.2421,
+      "step": 230
+    },
+    {
+      "epoch": 2.6440677966101696,
+      "grad_norm": 1.3707513809204102,
+      "learning_rate": 1.3778523926237797e-06,
+      "loss": 0.201,
+      "step": 235
+    },
+    {
+      "epoch": 2.7005649717514126,
+      "grad_norm": 1.9226748943328857,
+      "learning_rate": 9.962936025419755e-07,
+      "loss": 0.2242,
+      "step": 240
+    },
+    {
+      "epoch": 2.7570621468926553,
+      "grad_norm": 1.4965392351150513,
+      "learning_rate": 6.747008331422006e-07,
+      "loss": 0.2357,
+      "step": 245
+    },
+    {
+      "epoch": 2.8135593220338984,
+      "grad_norm": 1.4402514696121216,
+      "learning_rate": 4.1445119403485165e-07,
+      "loss": 0.2203,
+      "step": 250
+    },
+    {
+      "epoch": 2.870056497175141,
+      "grad_norm": 1.534718632698059,
+      "learning_rate": 2.1665911412883376e-07,
+      "loss": 0.2423,
+      "step": 255
+    },
+    {
+      "epoch": 2.926553672316384,
+      "grad_norm": 1.73121178150177,
+      "learning_rate": 8.217156947590066e-08,
+      "loss": 0.2188,
+      "step": 260
+    },
+    {
+      "epoch": 2.983050847457627,
+      "grad_norm": 1.5880614519119263,
+      "learning_rate": 1.1564456389156486e-08,
+      "loss": 0.2175,
+      "step": 265
+    },
+    {
+      "epoch": 3.0,
+      "step": 267,
+      "total_flos": 4.740068881958175e+17,
+      "train_loss": 0.7981335973918214,
+      "train_runtime": 227.3208,
+      "train_samples_per_second": 37.374,
+      "train_steps_per_second": 1.175
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 267,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.740068881958175e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

base/53_128_e3_3e-5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04e2488a0a6c4ca0cb7907d97d9d8bb733696192c094c9f3c755ce07463b8614
+size 8017

base/53_128_e3_3e-5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff