Delete checkpoint-2500

Browse files

Files changed (12) hide show

checkpoint-2500/config.json +0 -26
checkpoint-2500/generation_config.json +0 -10
checkpoint-2500/optimizer.pt +0 -3
checkpoint-2500/pytorch_model.bin +0 -3
checkpoint-2500/rng_state.pth +0 -3
checkpoint-2500/scheduler.pt +0 -3
checkpoint-2500/special_tokens_map.json +0 -23
checkpoint-2500/tokenizer.json +0 -0
checkpoint-2500/tokenizer.model +0 -3
checkpoint-2500/tokenizer_config.json +0 -34
checkpoint-2500/trainer_state.json +0 -319
checkpoint-2500/training_args.bin +0 -3

checkpoint-2500/config.json DELETED Viewed

@@ -1,26 +0,0 @@
-{
-  "_name_or_path": "./core2",
-  "architectures": [
-    "LlamaForCausalLM"
-  ],
-  "bos_token_id": 1,
-  "eos_token_id": 2,
-  "hidden_act": "silu",
-  "hidden_size": 4096,
-  "initializer_range": 0.02,
-  "intermediate_size": 11008,
-  "max_position_embeddings": 4096,
-  "model_type": "llama",
-  "num_attention_heads": 32,
-  "num_hidden_layers": 1,
-  "num_key_value_heads": 32,
-  "pretraining_tp": 1,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "tie_word_embeddings": false,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.34.0.dev0",
-  "use_cache": true,
-  "vocab_size": 32000
-}

checkpoint-2500/generation_config.json DELETED Viewed

@@ -1,10 +0,0 @@
-{
-  "bos_token_id": 1,
-  "do_sample": true,
-  "eos_token_id": 2,
-  "max_length": 4096,
-  "pad_token_id": 0,
-  "temperature": 0.6,
-  "top_p": 0.9,
-  "transformers_version": "4.34.0.dev0"
-}

checkpoint-2500/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:207452d1168390f8bf7e0da03e7bb9a9aa38eb6d5387b5a85d363d871c6baf5e
-size 1858136133

checkpoint-2500/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c3af8fa74fa47804a24797b9d185706e77f2ad9bd37916f1a746c442efb8adfe
-size 929067029

checkpoint-2500/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b2278a87cdf86c3f9219223c847f6b27f6b7f15b8226b617f38936e8ff2cbcde
-size 14575

checkpoint-2500/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4651efbde1cbaf4a0b682250b47a031d03dd4e96bb70202b5d9896030fea354c
-size 627

checkpoint-2500/special_tokens_map.json DELETED Viewed

@@ -1,23 +0,0 @@
-{
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

checkpoint-2500/tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/tokenizer.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
-size 499723

checkpoint-2500/tokenizer_config.json DELETED Viewed

@@ -1,34 +0,0 @@
-{
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "clean_up_tokenization_spaces": false,
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "legacy": false,
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": null,
-  "padding_side": "right",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "use_default_system_prompt": true
-}

checkpoint-2500/trainer_state.json DELETED Viewed

@@ -1,319 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.11366413385088402,
-  "eval_steps": 500,
-  "global_step": 2500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.977266527234701e-05,
-      "loss": 2.6296,
-      "step": 50
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 9.954533054469402e-05,
-      "loss": 2.6156,
-      "step": 100
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.931799581704102e-05,
-      "loss": 2.6035,
-      "step": 150
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.909066108938801e-05,
-      "loss": 2.5399,
-      "step": 200
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.886332636173502e-05,
-      "loss": 2.5857,
-      "step": 250
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 9.863599163408202e-05,
-      "loss": 2.6078,
-      "step": 300
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 9.840865690642903e-05,
-      "loss": 2.5931,
-      "step": 350
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 9.818132217877604e-05,
-      "loss": 2.5919,
-      "step": 400
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 9.795398745112304e-05,
-      "loss": 2.59,
-      "step": 450
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 9.772665272347005e-05,
-      "loss": 2.605,
-      "step": 500
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 9.749931799581704e-05,
-      "loss": 2.6026,
-      "step": 550
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 9.727198326816404e-05,
-      "loss": 2.5839,
-      "step": 600
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 9.704464854051105e-05,
-      "loss": 2.5862,
-      "step": 650
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 9.681731381285806e-05,
-      "loss": 2.609,
-      "step": 700
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 9.658997908520506e-05,
-      "loss": 2.5759,
-      "step": 750
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 9.636264435755207e-05,
-      "loss": 2.6046,
-      "step": 800
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 9.613530962989907e-05,
-      "loss": 2.5811,
-      "step": 850
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 9.590797490224606e-05,
-      "loss": 2.5797,
-      "step": 900
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 9.568064017459307e-05,
-      "loss": 2.5867,
-      "step": 950
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.545330544694008e-05,
-      "loss": 2.5927,
-      "step": 1000
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.522597071928708e-05,
-      "loss": 2.568,
-      "step": 1050
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.499863599163409e-05,
-      "loss": 2.6024,
-      "step": 1100
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.477130126398109e-05,
-      "loss": 2.5936,
-      "step": 1150
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 9.45439665363281e-05,
-      "loss": 2.605,
-      "step": 1200
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 9.431663180867509e-05,
-      "loss": 2.5775,
-      "step": 1250
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 9.40892970810221e-05,
-      "loss": 2.5752,
-      "step": 1300
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 9.38619623533691e-05,
-      "loss": 2.5679,
-      "step": 1350
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 9.36346276257161e-05,
-      "loss": 2.5856,
-      "step": 1400
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 9.340729289806311e-05,
-      "loss": 2.5787,
-      "step": 1450
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 9.317995817041012e-05,
-      "loss": 2.5875,
-      "step": 1500
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 9.295262344275712e-05,
-      "loss": 2.5631,
-      "step": 1550
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 9.272528871510412e-05,
-      "loss": 2.583,
-      "step": 1600
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 9.249795398745112e-05,
-      "loss": 2.5609,
-      "step": 1650
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 9.227061925979813e-05,
-      "loss": 2.587,
-      "step": 1700
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 9.204328453214513e-05,
-      "loss": 2.5555,
-      "step": 1750
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 9.181594980449214e-05,
-      "loss": 2.5488,
-      "step": 1800
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 9.158861507683914e-05,
-      "loss": 2.5554,
-      "step": 1850
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.136128034918615e-05,
-      "loss": 2.5408,
-      "step": 1900
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.113394562153314e-05,
-      "loss": 2.582,
-      "step": 1950
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.090661089388015e-05,
-      "loss": 2.5533,
-      "step": 2000
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 9.067927616622715e-05,
-      "loss": 2.5432,
-      "step": 2050
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.045194143857416e-05,
-      "loss": 2.5867,
-      "step": 2100
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 9.022460671092116e-05,
-      "loss": 2.5343,
-      "step": 2150
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 8.999727198326817e-05,
-      "loss": 2.585,
-      "step": 2200
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 8.976993725561517e-05,
-      "loss": 2.5679,
-      "step": 2250
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 8.954260252796217e-05,
-      "loss": 2.5515,
-      "step": 2300
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 8.931526780030917e-05,
-      "loss": 2.5713,
-      "step": 2350
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 8.908793307265618e-05,
-      "loss": 2.5587,
-      "step": 2400
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 8.886059834500318e-05,
-      "loss": 2.5774,
-      "step": 2450
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 8.863326361735019e-05,
-      "loss": 2.551,
-      "step": 2500
-    }
-  ],
-  "logging_steps": 50,
-  "max_steps": 21994,
-  "num_train_epochs": 1,
-  "save_steps": 2500,
-  "total_flos": 4.097549795328e+16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-2500/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2458e0243aaab0a29fd49a56d9466fcdd0e8ef0f37d199202b23e025f597ffca
-size 4027