Upload 14 files

Browse files

Files changed (14) hide show

config.json +31 -0
generation_config.json +6 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
special_tokens_map.json +5 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0
trainer_state.json +601 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.29.0.dev0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb50bb39696a8486a40ca9006ddb25ad091c15a2d0118f4baa91c1050e4d8e73
+size 995604017

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d6e23c8533f24c32a7ed86ca5c04408c30d2ec560a556a6f08df26c052ab7ab
+size 510396521

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f96808c9938a930525715eb2fddd2dd78e438d0ba0a19902f6c7f705dba577d3
+size 14503

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86807d5de345e31d4942dd66d818a90bc4bb3d823b548bbd617da213dcc32265
+size 559

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a7a7f9f487910b01e20fd10a9578c5221f6c4419e20f86d80e4f497963fc285
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,601 @@

+{
+  "best_metric": 4.17286491394043,
+  "best_model_checkpoint": "/home/bel3/portfolio-repo-TheBguy87/final project/model_folder/checkpoint-19500",
+  "epoch": 2.9601518026565463,
+  "global_step": 19500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.873488183796367e-05,
+      "loss": 6.5463,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.21852576647097194,
+      "eval_loss": 5.444242477416992,
+      "eval_runtime": 27.5824,
+      "eval_samples_per_second": 51.12,
+      "eval_steps_per_second": 6.417,
+      "step": 500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.746976367592733e-05,
+      "loss": 5.7814,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15,
+      "eval_accuracy": 0.2316206575897628,
+      "eval_loss": 5.191591739654541,
+      "eval_runtime": 27.5501,
+      "eval_samples_per_second": 51.179,
+      "eval_steps_per_second": 6.425,
+      "step": 1000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.6204645513891e-05,
+      "loss": 5.5475,
+      "step": 1500
+    },
+    {
+      "epoch": 0.23,
+      "eval_accuracy": 0.2393984816310669,
+      "eval_loss": 5.062835693359375,
+      "eval_runtime": 27.5707,
+      "eval_samples_per_second": 51.141,
+      "eval_steps_per_second": 6.42,
+      "step": 1500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.493952735185467e-05,
+      "loss": 5.4202,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.24114169130199442,
+      "eval_loss": 4.970830917358398,
+      "eval_runtime": 27.5621,
+      "eval_samples_per_second": 51.157,
+      "eval_steps_per_second": 6.422,
+      "step": 2000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.367440918981833e-05,
+      "loss": 5.3562,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "eval_accuracy": 0.24209795839058446,
+      "eval_loss": 4.920139312744141,
+      "eval_runtime": 27.5764,
+      "eval_samples_per_second": 51.131,
+      "eval_steps_per_second": 6.419,
+      "step": 2500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.240929102778199e-05,
+      "loss": 5.2881,
+      "step": 3000
+    },
+    {
+      "epoch": 0.46,
+      "eval_accuracy": 0.2436371459105356,
+      "eval_loss": 4.872959136962891,
+      "eval_runtime": 27.5692,
+      "eval_samples_per_second": 51.144,
+      "eval_steps_per_second": 6.42,
+      "step": 3000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.114417286574566e-05,
+      "loss": 5.2296,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.2506516217679144,
+      "eval_loss": 4.810730457305908,
+      "eval_runtime": 27.5767,
+      "eval_samples_per_second": 51.13,
+      "eval_steps_per_second": 6.418,
+      "step": 3500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 3.987905470370933e-05,
+      "loss": 5.1578,
+      "step": 4000
+    },
+    {
+      "epoch": 0.61,
+      "eval_accuracy": 0.2533899598895227,
+      "eval_loss": 4.767050743103027,
+      "eval_runtime": 27.5725,
+      "eval_samples_per_second": 51.138,
+      "eval_steps_per_second": 6.419,
+      "step": 4000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3.8613936541672994e-05,
+      "loss": 5.0779,
+      "step": 4500
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 0.2565418939362396,
+      "eval_loss": 4.725719451904297,
+      "eval_runtime": 27.5923,
+      "eval_samples_per_second": 51.101,
+      "eval_steps_per_second": 6.415,
+      "step": 4500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.734881837963666e-05,
+      "loss": 5.0276,
+      "step": 5000
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.2623502796630165,
+      "eval_loss": 4.667919635772705,
+      "eval_runtime": 27.5734,
+      "eval_samples_per_second": 51.136,
+      "eval_steps_per_second": 6.419,
+      "step": 5000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.6083700217600326e-05,
+      "loss": 5.0059,
+      "step": 5500
+    },
+    {
+      "epoch": 0.83,
+      "eval_accuracy": 0.2663904734146646,
+      "eval_loss": 4.631860256195068,
+      "eval_runtime": 27.5657,
+      "eval_samples_per_second": 51.151,
+      "eval_steps_per_second": 6.421,
+      "step": 5500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.481858205556399e-05,
+      "loss": 4.9264,
+      "step": 6000
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.2692717658325353,
+      "eval_loss": 4.584375858306885,
+      "eval_runtime": 27.5605,
+      "eval_samples_per_second": 51.16,
+      "eval_steps_per_second": 6.422,
+      "step": 6000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.355346389352766e-05,
+      "loss": 4.9049,
+      "step": 6500
+    },
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.272461173335554,
+      "eval_loss": 4.553061485290527,
+      "eval_runtime": 27.5742,
+      "eval_samples_per_second": 51.135,
+      "eval_steps_per_second": 6.419,
+      "step": 6500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.228834573149132e-05,
+      "loss": 4.8232,
+      "step": 7000
+    },
+    {
+      "epoch": 1.06,
+      "eval_accuracy": 0.27501491998723127,
+      "eval_loss": 4.517702579498291,
+      "eval_runtime": 27.5623,
+      "eval_samples_per_second": 51.157,
+      "eval_steps_per_second": 6.422,
+      "step": 7000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3.102322756945499e-05,
+      "loss": 4.751,
+      "step": 7500
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 0.2793854353166507,
+      "eval_loss": 4.4822540283203125,
+      "eval_runtime": 27.5718,
+      "eval_samples_per_second": 51.139,
+      "eval_steps_per_second": 6.42,
+      "step": 7500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 2.9758109407418657e-05,
+      "loss": 4.7553,
+      "step": 8000
+    },
+    {
+      "epoch": 1.21,
+      "eval_accuracy": 0.2807802806345505,
+      "eval_loss": 4.459610939025879,
+      "eval_runtime": 27.5709,
+      "eval_samples_per_second": 51.141,
+      "eval_steps_per_second": 6.42,
+      "step": 8000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 2.8495521481706393e-05,
+      "loss": 4.7213,
+      "step": 8500
+    },
+    {
+      "epoch": 1.29,
+      "eval_accuracy": 0.28297872340425534,
+      "eval_loss": 4.435904026031494,
+      "eval_runtime": 27.5742,
+      "eval_samples_per_second": 51.135,
+      "eval_steps_per_second": 6.419,
+      "step": 8500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 2.7230403319670056e-05,
+      "loss": 4.6646,
+      "step": 9000
+    },
+    {
+      "epoch": 1.37,
+      "eval_accuracy": 0.28641656604349697,
+      "eval_loss": 4.399264335632324,
+      "eval_runtime": 27.5882,
+      "eval_samples_per_second": 51.109,
+      "eval_steps_per_second": 6.416,
+      "step": 9000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.597034563028187e-05,
+      "loss": 4.6709,
+      "step": 9500
+    },
+    {
+      "epoch": 1.44,
+      "eval_accuracy": 0.2876531901014559,
+      "eval_loss": 4.388927936553955,
+      "eval_runtime": 27.5803,
+      "eval_samples_per_second": 51.123,
+      "eval_steps_per_second": 6.418,
+      "step": 9500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.4705227468245535e-05,
+      "loss": 4.6179,
+      "step": 10000
+    },
+    {
+      "epoch": 1.52,
+      "eval_accuracy": 0.2888079277178665,
+      "eval_loss": 4.365257263183594,
+      "eval_runtime": 27.58,
+      "eval_samples_per_second": 51.124,
+      "eval_steps_per_second": 6.418,
+      "step": 10000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.34401093062092e-05,
+      "loss": 4.5984,
+      "step": 10500
+    },
+    {
+      "epoch": 1.59,
+      "eval_accuracy": 0.2886746887621268,
+      "eval_loss": 4.34913444519043,
+      "eval_runtime": 27.5823,
+      "eval_samples_per_second": 51.12,
+      "eval_steps_per_second": 6.417,
+      "step": 10500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 2.2174991144172867e-05,
+      "loss": 4.5868,
+      "step": 11000
+    },
+    {
+      "epoch": 1.67,
+      "eval_accuracy": 0.29093697519812356,
+      "eval_loss": 4.338951587677002,
+      "eval_runtime": 27.5873,
+      "eval_samples_per_second": 51.11,
+      "eval_steps_per_second": 6.416,
+      "step": 11000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.0909872982136533e-05,
+      "loss": 4.5543,
+      "step": 11500
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.29370307143551094,
+      "eval_loss": 4.3105316162109375,
+      "eval_runtime": 27.5819,
+      "eval_samples_per_second": 51.12,
+      "eval_steps_per_second": 6.417,
+      "step": 11500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.9644754820100196e-05,
+      "loss": 4.5493,
+      "step": 12000
+    },
+    {
+      "epoch": 1.82,
+      "eval_accuracy": 0.29424019097583654,
+      "eval_loss": 4.301023483276367,
+      "eval_runtime": 27.5881,
+      "eval_samples_per_second": 51.109,
+      "eval_steps_per_second": 6.416,
+      "step": 12000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 1.8379636658063865e-05,
+      "loss": 4.5038,
+      "step": 12500
+    },
+    {
+      "epoch": 1.9,
+      "eval_accuracy": 0.294011186520659,
+      "eval_loss": 4.281564235687256,
+      "eval_runtime": 27.5889,
+      "eval_samples_per_second": 51.107,
+      "eval_steps_per_second": 6.416,
+      "step": 12500
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.7114518496027528e-05,
+      "loss": 4.4836,
+      "step": 13000
+    },
+    {
+      "epoch": 1.97,
+      "eval_accuracy": 0.29663155265020613,
+      "eval_loss": 4.268117427825928,
+      "eval_runtime": 27.5869,
+      "eval_samples_per_second": 51.111,
+      "eval_steps_per_second": 6.416,
+      "step": 13000
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.5849400333991198e-05,
+      "loss": 4.4394,
+      "step": 13500
+    },
+    {
+      "epoch": 2.05,
+      "eval_accuracy": 0.2960416926899002,
+      "eval_loss": 4.262997150421143,
+      "eval_runtime": 27.5906,
+      "eval_samples_per_second": 51.104,
+      "eval_steps_per_second": 6.415,
+      "step": 13500
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.458428217195486e-05,
+      "loss": 4.4429,
+      "step": 14000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.2994989660101872,
+      "eval_loss": 4.247574329376221,
+      "eval_runtime": 27.5874,
+      "eval_samples_per_second": 51.11,
+      "eval_steps_per_second": 6.416,
+      "step": 14000
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.3319164009918528e-05,
+      "loss": 4.4404,
+      "step": 14500
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 0.3004260870772092,
+      "eval_loss": 4.236292839050293,
+      "eval_runtime": 27.9352,
+      "eval_samples_per_second": 50.474,
+      "eval_steps_per_second": 6.336,
+      "step": 14500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.2054045847882193e-05,
+      "loss": 4.4148,
+      "step": 15000
+    },
+    {
+      "epoch": 2.28,
+      "eval_accuracy": 0.3013920695063219,
+      "eval_loss": 4.226977825164795,
+      "eval_runtime": 27.9368,
+      "eval_samples_per_second": 50.471,
+      "eval_steps_per_second": 6.336,
+      "step": 15000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.0791457922169932e-05,
+      "loss": 4.3944,
+      "step": 15500
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.3011366948411542,
+      "eval_loss": 4.218454360961914,
+      "eval_runtime": 28.163,
+      "eval_samples_per_second": 50.066,
+      "eval_steps_per_second": 6.285,
+      "step": 15500
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 9.526339760133597e-06,
+      "loss": 4.3942,
+      "step": 16000
+    },
+    {
+      "epoch": 2.43,
+      "eval_accuracy": 0.3020194029229296,
+      "eval_loss": 4.213292121887207,
+      "eval_runtime": 28.5992,
+      "eval_samples_per_second": 49.302,
+      "eval_steps_per_second": 6.189,
+      "step": 16000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 8.261221598097263e-06,
+      "loss": 4.3789,
+      "step": 16500
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.3029826095404644,
+      "eval_loss": 4.205790996551514,
+      "eval_runtime": 28.126,
+      "eval_samples_per_second": 50.131,
+      "eval_steps_per_second": 6.293,
+      "step": 16500
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 6.996103436060929e-06,
+      "loss": 4.3444,
+      "step": 17000
+    },
+    {
+      "epoch": 2.58,
+      "eval_accuracy": 0.3037764916517467,
+      "eval_loss": 4.199104309082031,
+      "eval_runtime": 27.8045,
+      "eval_samples_per_second": 50.711,
+      "eval_steps_per_second": 6.366,
+      "step": 17000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.733515510348667e-06,
+      "loss": 4.3503,
+      "step": 17500
+    },
+    {
+      "epoch": 2.66,
+      "eval_accuracy": 0.3041026495121511,
+      "eval_loss": 4.189632415771484,
+      "eval_runtime": 28.554,
+      "eval_samples_per_second": 49.38,
+      "eval_steps_per_second": 6.199,
+      "step": 17500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 4.468397348312332e-06,
+      "loss": 4.3445,
+      "step": 18000
+    },
+    {
+      "epoch": 2.73,
+      "eval_accuracy": 0.30501727942707246,
+      "eval_loss": 4.184421062469482,
+      "eval_runtime": 27.7494,
+      "eval_samples_per_second": 50.812,
+      "eval_steps_per_second": 6.379,
+      "step": 18000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 3.2058094226000707e-06,
+      "loss": 4.3081,
+      "step": 18500
+    },
+    {
+      "epoch": 2.81,
+      "eval_accuracy": 0.3053531526279996,
+      "eval_loss": 4.178225994110107,
+      "eval_runtime": 27.5642,
+      "eval_samples_per_second": 51.153,
+      "eval_steps_per_second": 6.421,
+      "step": 18500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.9406912605637364e-06,
+      "loss": 4.3215,
+      "step": 19000
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.30591109075515954,
+      "eval_loss": 4.176368713378906,
+      "eval_runtime": 27.554,
+      "eval_samples_per_second": 51.172,
+      "eval_steps_per_second": 6.424,
+      "step": 19000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 6.755730985274025e-07,
+      "loss": 4.3413,
+      "step": 19500
+    },
+    {
+      "epoch": 2.96,
+      "eval_accuracy": 0.30599714091407476,
+      "eval_loss": 4.17286491394043,
+      "eval_runtime": 27.9537,
+      "eval_samples_per_second": 50.441,
+      "eval_steps_per_second": 6.332,
+      "step": 19500
+    }
+  ],
+  "max_steps": 19761,
+  "num_train_epochs": 3,
+  "total_flos": 2.0380255911936e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0524b826d7bcd879ed7d8eab0cc57c477df4c6d4ee1a9576bf2650ce6252d36
+size 3951

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff