Upload 12 files

Browse files

Files changed (9) hide show

README.md +1 -1
adapter_config.json +2 -1
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
tokenizer_config.json +1 -1
trainer_state.json +33 -121
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -201,4 +201,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Framework versions
-- PEFT 0.8.2


201
202	### Framework versions
203
204	+ - PEFT 0.9.1.dev0

adapter_config.json CHANGED Viewed

@@ -15,7 +15,7 @@
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
@@ -23,5 +23,6 @@
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "use_rslora": false
 }

   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 2,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
+  "use_dora": false,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53c3f097205552429368c45aaf8a706fcc25c4e8a1f56022779394c0d5584342
-size 7098016

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbfe4187ccd3f6e385630a03a6cbab2e62e966681d0b28d327734059780ff2c3
+size 904448

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66310fe24e2c2135ec5682f73bf2af1b494d686dded923489301df77b614ceea
-size 14241722

 version https://git-lfs.github.com/spec/v1
+oid sha256:db8d49a7fabe828c3aba6ecef409d574ab2e873c1da7ebc602aecd9b37053c9e
+size 1855418

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d83ebbc412940984c9cce0d8d151956673a404462d05157cc5a5af4b26ece0e8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c49550e595e4cef50f9f341076fa360541a83f04ce3871de9f034be3805e2693
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e803851e932423d43f5c60c4ef2a6a6cd13c22b0ec6bc5cb6653edd74b0a5e2
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:550c024080a615b3ad0be87bcfbb2422a50cf7f7ff0520f431bc20e82a3d84dc
 size 1000

tokenizer_config.json CHANGED Viewed

@@ -930,7 +930,7 @@
   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
-  "model_max_length": 512,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"

trainer_state.json CHANGED Viewed

@@ -1,149 +1,61 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.0,
   "eval_steps": 500,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.67,
-      "grad_norm": 10.763190269470215,
-      "learning_rate": 3.335112059765208e-05,
-      "loss": 1.5382,
-      "step": 500
-    },
     {
       "epoch": 1.0,
-      "eval_gen_len": 4.8812,
-      "eval_loss": 1.1502126455307007,
-      "eval_rouge1": 60.247880952380996,
-      "eval_rouge2": 42.58590476190485,
-      "eval_rougeL": 60.23339682539681,
-      "eval_rougeLsum": 60.23446031746034,
-      "eval_runtime": 1016.7664,
-      "eval_samples_per_second": 4.918,
-      "eval_steps_per_second": 1.229,
-      "step": 750
     },
     {
       "epoch": 1.33,
-      "grad_norm": 4.3876237869262695,
-      "learning_rate": 6.670224119530416e-06,
-      "loss": 1.2867,
-      "step": 1000
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 5.068687915802002,
-      "learning_rate": 0.0,
-      "loss": 1.1906,
-      "step": 1500
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 4.9042,
-      "eval_loss": 1.1154725551605225,
-      "eval_rouge1": 60.75021428571432,
-      "eval_rouge2": 43.73785714285723,
-      "eval_rougeL": 60.75853968253971,
-      "eval_rougeLsum": 60.7197619047618,
-      "eval_runtime": 1019.2932,
-      "eval_samples_per_second": 4.905,
-      "eval_steps_per_second": 1.226,
-      "step": 1500
     },
     {
       "epoch": 2.67,
-      "grad_norm": 6.656228065490723,
-      "learning_rate": 0.0,
-      "loss": 1.2365,
-      "step": 2000
-    },
-    {
-      "epoch": 3.0,
-      "eval_gen_len": 4.9042,
-      "eval_loss": 1.1154857873916626,
-      "eval_rouge1": 60.75021428571432,
-      "eval_rouge2": 43.73785714285723,
-      "eval_rougeL": 60.75853968253971,
-      "eval_rougeLsum": 60.7197619047618,
-      "eval_runtime": 1019.9367,
-      "eval_samples_per_second": 4.902,
-      "eval_steps_per_second": 1.226,
-      "step": 2250
-    },
-    {
-      "epoch": 3.33,
-      "grad_norm": 8.076435089111328,
-      "learning_rate": 0.0,
-      "loss": 1.2041,
-      "step": 2500
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 3.218427896499634,
-      "learning_rate": 0.0,
-      "loss": 1.1962,
-      "step": 3000
-    },
-    {
-      "epoch": 4.0,
-      "eval_gen_len": 4.9042,
-      "eval_loss": 1.1154814958572388,
-      "eval_rouge1": 60.75021428571432,
-      "eval_rouge2": 43.73785714285723,
-      "eval_rougeL": 60.75853968253971,
-      "eval_rougeLsum": 60.7197619047618,
-      "eval_runtime": 1019.891,
-      "eval_samples_per_second": 4.902,
-      "eval_steps_per_second": 1.226,
-      "step": 3000
-    },
-    {
-      "epoch": 4.67,
-      "grad_norm": 3.1441781520843506,
-      "learning_rate": 0.0,
-      "loss": 1.2323,
-      "step": 3500
-    },
-    {
-      "epoch": 5.0,
-      "eval_gen_len": 4.9042,
-      "eval_loss": 1.1154634952545166,
-      "eval_rouge1": 60.75021428571432,
-      "eval_rouge2": 43.73785714285723,
-      "eval_rougeL": 60.75853968253971,
-      "eval_rougeLsum": 60.7197619047618,
-      "eval_runtime": 1016.3103,
-      "eval_samples_per_second": 4.92,
-      "eval_steps_per_second": 1.23,
-      "step": 3750
-    },
-    {
-      "epoch": 5.33,
-      "grad_norm": 4.466716766357422,
-      "learning_rate": 0.0,
-      "loss": 1.2174,
-      "step": 4000
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 5.4029083251953125,
-      "learning_rate": 0.0,
-      "loss": 1.1927,
-      "step": 4500
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5250,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
-  "total_flos": 1.1059086753792e+16,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.6666666666666665,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_gen_len": 18.877,
+      "eval_loss": 3.9956815242767334,
+      "eval_rouge1": 3.640356760886191,
+      "eval_rouge2": 1.3241316461316452,
+      "eval_rougeL": 3.6251379927262484,
+      "eval_rougeLsum": 3.627662198912217,
+      "eval_runtime": 1371.7269,
+      "eval_samples_per_second": 3.645,
+      "eval_steps_per_second": 0.456,
+      "step": 375
     },
     {
       "epoch": 1.33,
+      "grad_norm": 11.406363487243652,
+      "learning_rate": 6.680896478121665e-06,
+      "loss": 4.77,
+      "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 6.1788,
+      "eval_loss": 2.728412389755249,
+      "eval_rouge1": 11.110740703740731,
+      "eval_rouge2": 3.642182539682537,
+      "eval_rougeL": 11.095423465423494,
+      "eval_rougeLsum": 11.097078588078615,
+      "eval_runtime": 1076.8457,
+      "eval_samples_per_second": 4.643,
+      "eval_steps_per_second": 0.58,
+      "step": 750
     },
     {
       "epoch": 2.67,
+      "grad_norm": 14.748087882995605,
+      "learning_rate": 4.0128068303094986e-06,
+      "loss": 2.9857,
+      "step": 1000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2625,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 4877098942464000.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46df985f32c9133404178778d30698cb855d173a08623ee3e2588b465a4db162
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:dccdccf9f076d61d4e27a0c66ed74eb5e46d003e8e6fa05464468f4a31f86eeb
 size 5048