mllm-dev commited on Mar 13, 2024

Commit

537a746

verified ·

1 Parent(s): 5491f4f

Upload folder using huggingface_hub

Browse files

Files changed (49) hide show

checkpoint-1563/config.json +40 -0
checkpoint-1563/generation_config.json +6 -0
checkpoint-1563/merges.txt +0 -0
checkpoint-1563/model.safetensors +3 -0
checkpoint-1563/optimizer.pt +3 -0
checkpoint-1563/rng_state.pth +3 -0
checkpoint-1563/scheduler.pt +3 -0
checkpoint-1563/special_tokens_map.json +24 -0
checkpoint-1563/tokenizer_config.json +22 -0
checkpoint-1563/trainer_state.json +50 -0
checkpoint-1563/training_args.bin +3 -0
checkpoint-1563/vocab.json +0 -0
checkpoint-3126/config.json +40 -0
checkpoint-3126/generation_config.json +6 -0
checkpoint-3126/merges.txt +0 -0
checkpoint-3126/model.safetensors +3 -0
checkpoint-3126/optimizer.pt +3 -0
checkpoint-3126/rng_state.pth +3 -0
checkpoint-3126/scheduler.pt +3 -0
checkpoint-3126/special_tokens_map.json +24 -0
checkpoint-3126/tokenizer_config.json +22 -0
checkpoint-3126/trainer_state.json +79 -0
checkpoint-3126/training_args.bin +3 -0
checkpoint-3126/vocab.json +0 -0
checkpoint-4689/config.json +40 -0
checkpoint-4689/generation_config.json +6 -0
checkpoint-4689/merges.txt +0 -0
checkpoint-4689/model.safetensors +3 -0
checkpoint-4689/optimizer.pt +3 -0
checkpoint-4689/rng_state.pth +3 -0
checkpoint-4689/scheduler.pt +3 -0
checkpoint-4689/special_tokens_map.json +24 -0
checkpoint-4689/tokenizer_config.json +22 -0
checkpoint-4689/trainer_state.json +108 -0
checkpoint-4689/training_args.bin +3 -0
checkpoint-4689/vocab.json +0 -0
checkpoint-6252/config.json +40 -0
checkpoint-6252/generation_config.json +6 -0
checkpoint-6252/merges.txt +0 -0
checkpoint-6252/model.safetensors +3 -0
checkpoint-6252/optimizer.pt +3 -0
checkpoint-6252/rng_state.pth +3 -0
checkpoint-6252/scheduler.pt +3 -0
checkpoint-6252/special_tokens_map.json +24 -0
checkpoint-6252/tokenizer_config.json +22 -0
checkpoint-6252/trainer_state.json +137 -0
checkpoint-6252/training_args.bin +3 -0
checkpoint-6252/vocab.json +0 -0
runs/Mar12_23-21-03_lambda-hyperplane04/events.out.tfevents.1710310870.lambda-hyperplane04.1144229.0 +2 -2

checkpoint-1563/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-1563/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.38.2"
+}

checkpoint-1563/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1563/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb85d57c39860aa18c37cf5e5720ae3f19ac29308fa2cec26cd4827ff2d531bc
+size 497774208

checkpoint-1563/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82844e18d287a245376d4bb0693f6411fbc8f92cdcd650bc79f1bd6c23b223de
+size 995641861

checkpoint-1563/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:203de03d4fb0e79953aaa759e54343ca2c10d16450bd626b02caed60084de2f4
+size 14575

checkpoint-1563/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7be24028fc24c3aa38f2d5bda82b0de76fff44a634e409ea5c8f177f4c69b4d7
+size 627

checkpoint-1563/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1563/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-1563/trainer_state.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "best_metric": 2.0289978981018066,
+  "best_model_checkpoint": "gen_test/checkpoint-1563",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1563,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "grad_norm": 318423.84375,
+      "learning_rate": 1.8400511836212414e-05,
+      "loss": 2.1469,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 273106.9375,
+      "learning_rate": 1.6801023672424827e-05,
+      "loss": 1.9333,
+      "step": 1000
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 250709.375,
+      "learning_rate": 1.5201535508637238e-05,
+      "loss": 1.8887,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.0289978981018066,
+      "eval_runtime": 56.4689,
+      "eval_samples_per_second": 177.089,
+      "eval_steps_per_second": 2.78,
+      "step": 1563
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6252,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 5.22584064e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1563/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:693f0a20c38fd336f1834d29d5277963b0697a0c00490b4f0dfb5fd656990312
+size 4539

checkpoint-1563/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3126/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-3126/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.38.2"
+}

checkpoint-3126/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-3126/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af44cf3877daea2fd5bffe271bd1d5709de4f91584c9098fb5b687fbe5f33dab
+size 497774208

checkpoint-3126/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbf191cb1f4d24fca2319015fb572394437490a283a3b7737b6d7f55bd4b7e65
+size 995641861

checkpoint-3126/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab87e4b7614cd84e2ce43212e2906891080ecaa9c0601f398122e9a662e267ee
+size 14575

checkpoint-3126/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d283301a2d1426e7b18dfa2bf011d4893d17ce9d31855fba77e59fd5b6c60ae
+size 627

checkpoint-3126/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-3126/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-3126/trainer_state.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "best_metric": 2.0003182888031006,
+  "best_model_checkpoint": "gen_test/checkpoint-3126",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 3126,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "grad_norm": 318423.84375,
+      "learning_rate": 1.8400511836212414e-05,
+      "loss": 2.1469,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 273106.9375,
+      "learning_rate": 1.6801023672424827e-05,
+      "loss": 1.9333,
+      "step": 1000
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 250709.375,
+      "learning_rate": 1.5201535508637238e-05,
+      "loss": 1.8887,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.0289978981018066,
+      "eval_runtime": 56.4689,
+      "eval_samples_per_second": 177.089,
+      "eval_steps_per_second": 2.78,
+      "step": 1563
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 241871.234375,
+      "learning_rate": 1.3602047344849649e-05,
+      "loss": 1.8677,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 229897.359375,
+      "learning_rate": 1.2002559181062061e-05,
+      "loss": 1.8518,
+      "step": 2500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 201821.484375,
+      "learning_rate": 1.0403071017274472e-05,
+      "loss": 1.8464,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.0003182888031006,
+      "eval_runtime": 56.3343,
+      "eval_samples_per_second": 177.512,
+      "eval_steps_per_second": 2.787,
+      "step": 3126
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6252,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 1.045168128e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3126/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:693f0a20c38fd336f1834d29d5277963b0697a0c00490b4f0dfb5fd656990312
+size 4539

checkpoint-3126/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4689/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-4689/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.38.2"
+}

checkpoint-4689/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4689/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:681640960f3e4b6501e6ccb12a26ff351e57df38cb903b5719bb531592e71c9f
+size 497774208

checkpoint-4689/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ad6d80dab21a9278f5661ad4a8d805f5485a5bc18fc8987086c54093b5c3f6b
+size 995641861

checkpoint-4689/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74670ec4c7e987f2a2d77b219935c544c9cd3f04304ad232c70ac492b376a3ec
+size 14575

checkpoint-4689/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e832ef5b80067ad112b7700a196861f01317cb96208f02175085e397786cdca
+size 627

checkpoint-4689/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-4689/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-4689/trainer_state.json ADDED Viewed

	@@ -0,0 +1,108 @@

+{
+  "best_metric": 1.9800028800964355,
+  "best_model_checkpoint": "gen_test/checkpoint-4689",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4689,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "grad_norm": 318423.84375,
+      "learning_rate": 1.8400511836212414e-05,
+      "loss": 2.1469,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 273106.9375,
+      "learning_rate": 1.6801023672424827e-05,
+      "loss": 1.9333,
+      "step": 1000
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 250709.375,
+      "learning_rate": 1.5201535508637238e-05,
+      "loss": 1.8887,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.0289978981018066,
+      "eval_runtime": 56.4689,
+      "eval_samples_per_second": 177.089,
+      "eval_steps_per_second": 2.78,
+      "step": 1563
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 241871.234375,
+      "learning_rate": 1.3602047344849649e-05,
+      "loss": 1.8677,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 229897.359375,
+      "learning_rate": 1.2002559181062061e-05,
+      "loss": 1.8518,
+      "step": 2500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 201821.484375,
+      "learning_rate": 1.0403071017274472e-05,
+      "loss": 1.8464,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.0003182888031006,
+      "eval_runtime": 56.3343,
+      "eval_samples_per_second": 177.512,
+      "eval_steps_per_second": 2.787,
+      "step": 3126
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 229470.453125,
+      "learning_rate": 8.803582853486885e-06,
+      "loss": 1.8306,
+      "step": 3500
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 209711.5,
+      "learning_rate": 7.204094689699297e-06,
+      "loss": 1.8225,
+      "step": 4000
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 202330.5,
+      "learning_rate": 5.6046065259117085e-06,
+      "loss": 1.8148,
+      "step": 4500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.9800028800964355,
+      "eval_runtime": 56.3231,
+      "eval_samples_per_second": 177.547,
+      "eval_steps_per_second": 2.787,
+      "step": 4689
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6252,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 1.567752192e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4689/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:693f0a20c38fd336f1834d29d5277963b0697a0c00490b4f0dfb5fd656990312
+size 4539

checkpoint-4689/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6252/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-6252/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.38.2"
+}

checkpoint-6252/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6252/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06eb0e1e353da72baea37e7ad65a656d6421269fb59c9b9e85e6bcc457c374a9
+size 497774208

checkpoint-6252/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a09fa6a9430a1b66ff093b5439bb9a92ab23c95acf48add4102f108c9c6fcbe5
+size 995641861

checkpoint-6252/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2420a0f6c139bd077592bf0e0ff0d798cc72a3f1a329fd4bc850d093eaeb879
+size 14575

checkpoint-6252/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:993fad062cecf1a7759fdc6ac23e23927e084399ee6737eb9c586b4b410bcd33
+size 627

checkpoint-6252/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-6252/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-6252/trainer_state.json ADDED Viewed

	@@ -0,0 +1,137 @@

+{
+  "best_metric": 1.9688726663589478,
+  "best_model_checkpoint": "gen_test/checkpoint-6252",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 6252,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "grad_norm": 318423.84375,
+      "learning_rate": 1.8400511836212414e-05,
+      "loss": 2.1469,
+      "step": 500
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 273106.9375,
+      "learning_rate": 1.6801023672424827e-05,
+      "loss": 1.9333,
+      "step": 1000
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 250709.375,
+      "learning_rate": 1.5201535508637238e-05,
+      "loss": 1.8887,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.0289978981018066,
+      "eval_runtime": 56.4689,
+      "eval_samples_per_second": 177.089,
+      "eval_steps_per_second": 2.78,
+      "step": 1563
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 241871.234375,
+      "learning_rate": 1.3602047344849649e-05,
+      "loss": 1.8677,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 229897.359375,
+      "learning_rate": 1.2002559181062061e-05,
+      "loss": 1.8518,
+      "step": 2500
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 201821.484375,
+      "learning_rate": 1.0403071017274472e-05,
+      "loss": 1.8464,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.0003182888031006,
+      "eval_runtime": 56.3343,
+      "eval_samples_per_second": 177.512,
+      "eval_steps_per_second": 2.787,
+      "step": 3126
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 229470.453125,
+      "learning_rate": 8.803582853486885e-06,
+      "loss": 1.8306,
+      "step": 3500
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 209711.5,
+      "learning_rate": 7.204094689699297e-06,
+      "loss": 1.8225,
+      "step": 4000
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 202330.5,
+      "learning_rate": 5.6046065259117085e-06,
+      "loss": 1.8148,
+      "step": 4500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.9800028800964355,
+      "eval_runtime": 56.3231,
+      "eval_samples_per_second": 177.547,
+      "eval_steps_per_second": 2.787,
+      "step": 4689
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 202021.6875,
+      "learning_rate": 4.005118362124121e-06,
+      "loss": 1.8124,
+      "step": 5000
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 201338.140625,
+      "learning_rate": 2.4056301983365325e-06,
+      "loss": 1.801,
+      "step": 5500
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 212086.015625,
+      "learning_rate": 8.061420345489445e-07,
+      "loss": 1.8055,
+      "step": 6000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.9688726663589478,
+      "eval_runtime": 56.3874,
+      "eval_samples_per_second": 177.345,
+      "eval_steps_per_second": 2.784,
+      "step": 6252
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6252,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 2.090336256e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6252/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:693f0a20c38fd336f1834d29d5277963b0697a0c00490b4f0dfb5fd656990312
+size 4539

checkpoint-6252/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Mar12_23-21-03_lambda-hyperplane04/events.out.tfevents.1710310870.lambda-hyperplane04.1144229.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ac14bdb86167bd2bb963a4b0145f862930b5b799766826bac1f33f38d9de3d4
-size 5261

 version https://git-lfs.github.com/spec/v1
+oid sha256:e721cc5fa816734506dff126b7a443e22fc96ae3e12c571687ea4878fe122783
+size 5472