Kasdeja23 commited on Apr 27, 2024

Commit

d95000c

verified ·

1 Parent(s): 665ce6b

End of training

Browse files

Files changed (32) hide show

.gitattributes +1 -0
.locks/models--Kasdeja23--GPT2WaP/09e1dcf445848af2bc2447e031d425d111aed958.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/226b0752cac7789c48f0cb3ec53eda48b7be36cc.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/3cf9478e853077a3f5788610a7d1339473cb0761.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/4a4aaf657aa4ac448fe2d1a35f600a7d28d5dbce.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/5636a72629bc4ec8f857b8778c1f1d342138520b.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/7433646544cc332d7eb43c85199b5ce98e2cc0ed.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/84ef7fb594b5c0979e48bdeddb60a0adef33df0b.lock +0 -0
.locks/models--Kasdeja23--GPT2WaP/d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a.lock +0 -0
README.md +10 -14
config.json +1 -1
model.safetensors +1 -1
models--Kasdeja23--GPT2WaP/.no_exist/665ce6b153bc886847d7ed029034eced5ce2567e/added_tokens.json +0 -0
models--Kasdeja23--GPT2WaP/blobs/09e1dcf445848af2bc2447e031d425d111aed958 +39 -0
models--Kasdeja23--GPT2WaP/blobs/226b0752cac7789c48f0cb3ec53eda48b7be36cc +0 -0
models--Kasdeja23--GPT2WaP/blobs/3cf9478e853077a3f5788610a7d1339473cb0761 +0 -0
models--Kasdeja23--GPT2WaP/blobs/4a4aaf657aa4ac448fe2d1a35f600a7d28d5dbce +20 -0
models--Kasdeja23--GPT2WaP/blobs/5636a72629bc4ec8f857b8778c1f1d342138520b +6 -0
models--Kasdeja23--GPT2WaP/blobs/7433646544cc332d7eb43c85199b5ce98e2cc0ed +6 -0
models--Kasdeja23--GPT2WaP/blobs/84ef7fb594b5c0979e48bdeddb60a0adef33df0b +0 -0
models--Kasdeja23--GPT2WaP/blobs/d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a +3 -0
models--Kasdeja23--GPT2WaP/refs/main +1 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/config.json +39 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/generation_config.json +6 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/merges.txt +0 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/model.safetensors +3 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/special_tokens_map.json +6 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/tokenizer.json +0 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/tokenizer_config.json +20 -0
models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/vocab.json +0 -0
tokenizer.json +1 -1
training_args.bin +2 -2

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+models--Kasdeja23--GPT2WaP/blobs/d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a filter=lfs diff=lfs merge=lfs -text

.locks/models--Kasdeja23--GPT2WaP/09e1dcf445848af2bc2447e031d425d111aed958.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/226b0752cac7789c48f0cb3ec53eda48b7be36cc.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/3cf9478e853077a3f5788610a7d1339473cb0761.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/4a4aaf657aa4ac448fe2d1a35f600a7d28d5dbce.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/5636a72629bc4ec8f857b8778c1f1d342138520b.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/7433646544cc332d7eb43c85199b5ce98e2cc0ed.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/84ef7fb594b5c0979e48bdeddb60a0adef33df0b.lock ADDED Viewed

File without changes

.locks/models--Kasdeja23--GPT2WaP/d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a.lock ADDED Viewed

File without changes

README.md CHANGED Viewed

@@ -15,8 +15,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 8.6671
-- Perplexity: 5808.7070
 ## Model description
@@ -46,7 +46,7 @@ The following hyperparameters were used during training:
 - total_eval_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_steps: 1000
 - num_epochs: 20
 - mixed_precision_training: Native AMP
@@ -54,17 +54,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch   | Step | Validation Loss | Perplexity |
 |:-------------:|:-------:|:----:|:---------------:|:----------:|
-| 9.5757        | 1.7978  | 20   | 8.8741          | 7144.6958  |
-| 8.6138        | 3.5955  | 40   | 9.2959          | 10892.8018 |
-| 7.8094        | 5.3933  | 60   | 9.2828          | 10751.5010 |
-| 7.0822        | 7.1910  | 80   | 8.9766          | 7915.5801  |
-| 6.4369        | 8.9888  | 100  | 8.5389          | 5109.8931  |
-| 5.9333        | 10.7865 | 120  | 8.4375          | 4616.9585  |
-| 5.5611        | 12.5843 | 140  | 8.4776          | 4806.0811  |
-| 5.3067        | 14.3820 | 160  | 8.3995          | 4444.7969  |
-| 5.1255        | 16.1798 | 180  | 8.6841          | 5908.0918  |
-| 4.9194        | 17.9775 | 200  | 8.5597          | 5216.9863  |
-| 4.7863        | 19.7753 | 220  | 8.6671          | 5808.7070  |
 ### Framework versions

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 8.3931
+- Perplexity: 4416.4487
 ## Model description
 - total_eval_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 750
 - num_epochs: 20
 - mixed_precision_training: Native AMP
 | Training Loss | Epoch   | Step | Validation Loss | Perplexity |
 |:-------------:|:-------:|:----:|:---------------:|:----------:|
+| 9.431         | 2.7586  | 20   | 9.0219          | 8282.6191  |
+| 8.5038        | 5.5172  | 40   | 9.5490          | 14030.7480 |
+| 7.5941        | 8.2759  | 60   | 9.3572          | 11582.0645 |
+| 6.8765        | 11.0345 | 80   | 8.8650          | 7079.6768  |
+| 6.1713        | 13.7931 | 100  | 8.4353          | 4607.0444  |
+| 5.6932        | 16.5517 | 120  | 8.2600          | 3866.2166  |
+| 5.3371        | 19.3103 | 140  | 8.3931          | 4416.4487  |
 ### Framework versions

config.json CHANGED Viewed

@@ -11,7 +11,7 @@
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
-  "n_ctx": 48,
   "n_embd": 768,
   "n_head": 12,
   "n_inner": null,

   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
+  "n_ctx": 64,
   "n_embd": 768,
   "n_head": 12,
   "n_inner": null,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a
 size 497774208

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda1653126c8feb3784ad04468d842c74c8a2ea96d73b5db083602b4ddfed2f7
 size 497774208

models--Kasdeja23--GPT2WaP/.no_exist/665ce6b153bc886847d7ed029034eced5ce2567e/added_tokens.json ADDED Viewed

File without changes

models--Kasdeja23--GPT2WaP/blobs/09e1dcf445848af2bc2447e031d425d111aed958 ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 48,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

models--Kasdeja23--GPT2WaP/blobs/226b0752cac7789c48f0cb3ec53eda48b7be36cc ADDED Viewed

The diff for this file is too large to render. See raw diff

models--Kasdeja23--GPT2WaP/blobs/3cf9478e853077a3f5788610a7d1339473cb0761 ADDED Viewed

The diff for this file is too large to render. See raw diff

models--Kasdeja23--GPT2WaP/blobs/4a4aaf657aa4ac448fe2d1a35f600a7d28d5dbce ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

models--Kasdeja23--GPT2WaP/blobs/5636a72629bc4ec8f857b8778c1f1d342138520b ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.40.1"
+}

models--Kasdeja23--GPT2WaP/blobs/7433646544cc332d7eb43c85199b5ce98e2cc0ed ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

models--Kasdeja23--GPT2WaP/blobs/84ef7fb594b5c0979e48bdeddb60a0adef33df0b ADDED Viewed

The diff for this file is too large to render. See raw diff

models--Kasdeja23--GPT2WaP/blobs/d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a
+size 497774208

models--Kasdeja23--GPT2WaP/refs/main ADDED Viewed

	@@ -0,0 +1 @@


1	+ 665ce6b153bc886847d7ed029034eced5ce2567e

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 48,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.40.1"
+}

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3dd48f142331df1755dc7e2233db8b4148e661ad6ca54881a45c6a91d16cc3a
+size 497774208

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

models--Kasdeja23--GPT2WaP/snapshots/665ce6b153bc886847d7ed029034eced5ce2567e/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 48,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 64,
     "strategy": "LongestFirst",
     "stride": 0
   },

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7db1fd1ec3b8cb6efbbe80b37ff02d8452294fb0c2195ad03ca891ef195834ad
-size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8f8460c3bcda64677c7ebeede8050cd9a4b298bc1b17b654c3e513ddc3aa3c0
+size 4920