rootxhacker commited on Apr 25, 2025

Commit

cf36257

verified ·

1 Parent(s): a043cfb

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-1000/config.json +30 -0
checkpoint-1000/generation_config.json +7 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +24 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +42 -0
checkpoint-1000/trainer_state.json +934 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-10000/config.json +30 -0
checkpoint-10000/generation_config.json +7 -0
checkpoint-10000/model.safetensors +3 -0
checkpoint-10000/optimizer.pt +3 -0
checkpoint-10000/rng_state.pth +3 -0
checkpoint-10000/scheduler.pt +3 -0
checkpoint-10000/special_tokens_map.json +24 -0
checkpoint-10000/tokenizer.json +0 -0
checkpoint-10000/tokenizer.model +3 -0
checkpoint-10000/tokenizer_config.json +42 -0
checkpoint-10000/trainer_state.json +0 -0
checkpoint-10000/training_args.bin +3 -0
checkpoint-10500/config.json +30 -0
checkpoint-10500/generation_config.json +7 -0
checkpoint-10500/model.safetensors +3 -0
checkpoint-10500/optimizer.pt +3 -0
checkpoint-10500/rng_state.pth +3 -0
checkpoint-10500/scheduler.pt +3 -0
checkpoint-10500/special_tokens_map.json +24 -0
checkpoint-10500/tokenizer.json +0 -0
checkpoint-10500/tokenizer.model +3 -0
checkpoint-10500/tokenizer_config.json +42 -0
checkpoint-10500/trainer_state.json +0 -0
checkpoint-10500/training_args.bin +3 -0
checkpoint-11000/config.json +30 -0
checkpoint-11000/generation_config.json +7 -0
checkpoint-11000/model.safetensors +3 -0
checkpoint-11000/optimizer.pt +3 -0
checkpoint-11000/rng_state.pth +3 -0
checkpoint-11000/scheduler.pt +3 -0
checkpoint-11000/special_tokens_map.json +24 -0
checkpoint-11000/tokenizer.json +0 -0
checkpoint-11000/tokenizer.model +3 -0
checkpoint-11000/tokenizer_config.json +42 -0
checkpoint-11000/trainer_state.json +0 -0
checkpoint-11000/training_args.bin +3 -0
checkpoint-11500/config.json +30 -0
checkpoint-11500/generation_config.json +7 -0

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e145ec4cb5b1c6fe568db7242a666c165cc4f4486b6c483180464bc77839d7f
+size 309900448

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:120cb0400da1c194dd0c3d5e7d8d348a540146047d251fd82e0cf02175099d30
+size 619836730

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83c694d65a347a9628fbbeee3ca54f077b8171008c69915415bd49f7d02ea9bc
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.08945143905002571,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0008945143905002571,
+      "grad_norm": 4.029027938842773,
+      "learning_rate": 1.9996779676178552e-05,
+      "loss": 6.931,
+      "mean_token_accuracy": 0.1403668148443103,
+      "num_tokens": 224900.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.0017890287810005143,
+      "grad_norm": 3.8816776275634766,
+      "learning_rate": 1.999320153859916e-05,
+      "loss": 6.6428,
+      "mean_token_accuracy": 0.15601451508700848,
+      "num_tokens": 449350.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.0026835431715007715,
+      "grad_norm": 3.696845531463623,
+      "learning_rate": 1.9989623401019772e-05,
+      "loss": 6.3909,
+      "mean_token_accuracy": 0.17340584620833396,
+      "num_tokens": 673110.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.0035780575620010286,
+      "grad_norm": 3.57285213470459,
+      "learning_rate": 1.998604526344038e-05,
+      "loss": 6.2,
+      "mean_token_accuracy": 0.20353572219610214,
+      "num_tokens": 897311.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.004472571952501286,
+      "grad_norm": 3.2977962493896484,
+      "learning_rate": 1.9982467125860992e-05,
+      "loss": 5.9805,
+      "mean_token_accuracy": 0.21226616874337195,
+      "num_tokens": 1121992.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.005367086343001543,
+      "grad_norm": 3.0260677337646484,
+      "learning_rate": 1.99788889882816e-05,
+      "loss": 5.7785,
+      "mean_token_accuracy": 0.22370390295982362,
+      "num_tokens": 1345684.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.0062616007335018,
+      "grad_norm": 2.671483039855957,
+      "learning_rate": 1.997531085070221e-05,
+      "loss": 5.5885,
+      "mean_token_accuracy": 0.23743247389793395,
+      "num_tokens": 1568546.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.007156115124002057,
+      "grad_norm": 2.5646092891693115,
+      "learning_rate": 1.9971732713122823e-05,
+      "loss": 5.4085,
+      "mean_token_accuracy": 0.24720929898321628,
+      "num_tokens": 1791562.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.008050629514502314,
+      "grad_norm": 4.9957194328308105,
+      "learning_rate": 1.996815457554343e-05,
+      "loss": 5.2511,
+      "mean_token_accuracy": 0.25344080217182635,
+      "num_tokens": 2016530.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.008945143905002572,
+      "grad_norm": 2.079987049102783,
+      "learning_rate": 1.996457643796404e-05,
+      "loss": 5.1385,
+      "mean_token_accuracy": 0.2677029874175787,
+      "num_tokens": 2240898.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.009839658295502828,
+      "grad_norm": 1.875989556312561,
+      "learning_rate": 1.996099830038465e-05,
+      "loss": 4.9731,
+      "mean_token_accuracy": 0.2723236083984375,
+      "num_tokens": 2464033.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.010734172686003086,
+      "grad_norm": 1.7837793827056885,
+      "learning_rate": 1.995742016280526e-05,
+      "loss": 4.8349,
+      "mean_token_accuracy": 0.27978694066405296,
+      "num_tokens": 2687104.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.011628687076503344,
+      "grad_norm": 1.6277521848678589,
+      "learning_rate": 1.995384202522587e-05,
+      "loss": 4.6858,
+      "mean_token_accuracy": 0.29452711045742036,
+      "num_tokens": 2911815.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0125232014670036,
+      "grad_norm": 1.5478984117507935,
+      "learning_rate": 1.9950263887646483e-05,
+      "loss": 4.547,
+      "mean_token_accuracy": 0.3018424347043037,
+      "num_tokens": 3136290.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.013417715857503858,
+      "grad_norm": 1.314953327178955,
+      "learning_rate": 1.994668575006709e-05,
+      "loss": 4.4302,
+      "mean_token_accuracy": 0.3075145646929741,
+      "num_tokens": 3361157.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.014312230248004114,
+      "grad_norm": 1.1404365301132202,
+      "learning_rate": 1.9943107612487703e-05,
+      "loss": 4.329,
+      "mean_token_accuracy": 0.32004141956567767,
+      "num_tokens": 3585994.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.015206744638504372,
+      "grad_norm": 1.1736400127410889,
+      "learning_rate": 1.993952947490831e-05,
+      "loss": 4.2576,
+      "mean_token_accuracy": 0.3258902974426746,
+      "num_tokens": 3810406.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.01610125902900463,
+      "grad_norm": 0.945701003074646,
+      "learning_rate": 1.9935951337328923e-05,
+      "loss": 4.1854,
+      "mean_token_accuracy": 0.33087451085448266,
+      "num_tokens": 4033558.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.016995773419504888,
+      "grad_norm": 0.8116940855979919,
+      "learning_rate": 1.9932373199749534e-05,
+      "loss": 4.1516,
+      "mean_token_accuracy": 0.33102416023612025,
+      "num_tokens": 4257791.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.017890287810005144,
+      "grad_norm": 1.1380091905593872,
+      "learning_rate": 1.9928795062170142e-05,
+      "loss": 4.0638,
+      "mean_token_accuracy": 0.3386186122894287,
+      "num_tokens": 4481532.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.0187848022005054,
+      "grad_norm": 0.690470814704895,
+      "learning_rate": 1.992521692459075e-05,
+      "loss": 4.0419,
+      "mean_token_accuracy": 0.33742879405617715,
+      "num_tokens": 4707304.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.019679316591005656,
+      "grad_norm": 0.6643151044845581,
+      "learning_rate": 1.9921638787011362e-05,
+      "loss": 3.9833,
+      "mean_token_accuracy": 0.34320330172777175,
+      "num_tokens": 4933695.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.020573830981505916,
+      "grad_norm": 0.7354695200920105,
+      "learning_rate": 1.991806064943197e-05,
+      "loss": 3.9584,
+      "mean_token_accuracy": 0.34674171581864355,
+      "num_tokens": 5157252.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.021468345372006172,
+      "grad_norm": 0.6649508476257324,
+      "learning_rate": 1.9914482511852582e-05,
+      "loss": 3.8969,
+      "mean_token_accuracy": 0.3512790575623512,
+      "num_tokens": 5382779.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.02236285976250643,
+      "grad_norm": 0.68132483959198,
+      "learning_rate": 1.9910904374273194e-05,
+      "loss": 3.8822,
+      "mean_token_accuracy": 0.35188654661178587,
+      "num_tokens": 5606727.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.023257374153006688,
+      "grad_norm": 0.5945841670036316,
+      "learning_rate": 1.9907326236693802e-05,
+      "loss": 3.845,
+      "mean_token_accuracy": 0.3524425096809864,
+      "num_tokens": 5830914.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.024151888543506944,
+      "grad_norm": 0.5904633402824402,
+      "learning_rate": 1.9903748099114414e-05,
+      "loss": 3.8385,
+      "mean_token_accuracy": 0.3543414056301117,
+      "num_tokens": 6054926.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.0250464029340072,
+      "grad_norm": 0.5699465870857239,
+      "learning_rate": 1.9900169961535022e-05,
+      "loss": 3.7648,
+      "mean_token_accuracy": 0.36298312023282053,
+      "num_tokens": 6279612.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.025940917324507456,
+      "grad_norm": 0.55901038646698,
+      "learning_rate": 1.9896591823955633e-05,
+      "loss": 3.7746,
+      "mean_token_accuracy": 0.36002359017729757,
+      "num_tokens": 6505051.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.026835431715007716,
+      "grad_norm": 0.6177819967269897,
+      "learning_rate": 1.9893013686376245e-05,
+      "loss": 3.726,
+      "mean_token_accuracy": 0.366513279825449,
+      "num_tokens": 6728046.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.027729946105507972,
+      "grad_norm": 0.525486409664154,
+      "learning_rate": 1.9889435548796853e-05,
+      "loss": 3.7335,
+      "mean_token_accuracy": 0.3637064002454281,
+      "num_tokens": 6952250.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.02862446049600823,
+      "grad_norm": 0.5619438886642456,
+      "learning_rate": 1.9885857411217465e-05,
+      "loss": 3.7086,
+      "mean_token_accuracy": 0.3649679072201252,
+      "num_tokens": 7177356.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.029518974886508488,
+      "grad_norm": 0.5715098977088928,
+      "learning_rate": 1.9882279273638073e-05,
+      "loss": 3.7003,
+      "mean_token_accuracy": 0.36583819389343264,
+      "num_tokens": 7401855.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.030413489277008744,
+      "grad_norm": 0.5622343420982361,
+      "learning_rate": 1.987870113605868e-05,
+      "loss": 3.6937,
+      "mean_token_accuracy": 0.36574283242225647,
+      "num_tokens": 7627253.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.031308003667509,
+      "grad_norm": 0.4998467266559601,
+      "learning_rate": 1.9875122998479293e-05,
+      "loss": 3.6644,
+      "mean_token_accuracy": 0.3698362477123737,
+      "num_tokens": 7851897.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.03220251805800926,
+      "grad_norm": 0.6738699078559875,
+      "learning_rate": 1.98715448608999e-05,
+      "loss": 3.643,
+      "mean_token_accuracy": 0.3715419560670853,
+      "num_tokens": 8076130.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.03309703244850951,
+      "grad_norm": 0.584710955619812,
+      "learning_rate": 1.9867966723320513e-05,
+      "loss": 3.6288,
+      "mean_token_accuracy": 0.3715605862438679,
+      "num_tokens": 8300267.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.033991546839009776,
+      "grad_norm": 0.6669703722000122,
+      "learning_rate": 1.9864388585741125e-05,
+      "loss": 3.608,
+      "mean_token_accuracy": 0.374962493032217,
+      "num_tokens": 8523697.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.03488606122951003,
+      "grad_norm": 0.7256543040275574,
+      "learning_rate": 1.9860810448161733e-05,
+      "loss": 3.5934,
+      "mean_token_accuracy": 0.3755581140518188,
+      "num_tokens": 8747098.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.03578057562001029,
+      "grad_norm": 0.6731703281402588,
+      "learning_rate": 1.9857232310582344e-05,
+      "loss": 3.5885,
+      "mean_token_accuracy": 0.37688973248004914,
+      "num_tokens": 8971344.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.036675090010510544,
+      "grad_norm": 0.9010092616081238,
+      "learning_rate": 1.9853654173002953e-05,
+      "loss": 3.5777,
+      "mean_token_accuracy": 0.37828439101576805,
+      "num_tokens": 9197198.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.0375696044010108,
+      "grad_norm": 0.4792615473270416,
+      "learning_rate": 1.9850076035423564e-05,
+      "loss": 3.5561,
+      "mean_token_accuracy": 0.3797303937375546,
+      "num_tokens": 9421420.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.03846411879151106,
+      "grad_norm": 0.5398027896881104,
+      "learning_rate": 1.9846497897844176e-05,
+      "loss": 3.5485,
+      "mean_token_accuracy": 0.38109720274806025,
+      "num_tokens": 9646007.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.03935863318201131,
+      "grad_norm": 3.100107431411743,
+      "learning_rate": 1.9842919760264784e-05,
+      "loss": 3.5545,
+      "mean_token_accuracy": 0.3794835329055786,
+      "num_tokens": 9869980.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.040253147572511576,
+      "grad_norm": 0.646981418132782,
+      "learning_rate": 1.9839341622685392e-05,
+      "loss": 3.536,
+      "mean_token_accuracy": 0.382675875723362,
+      "num_tokens": 10093289.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.04114766196301183,
+      "grad_norm": 0.6310556530952454,
+      "learning_rate": 1.9835763485106004e-05,
+      "loss": 3.5114,
+      "mean_token_accuracy": 0.3832168258726597,
+      "num_tokens": 10318254.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.04204217635351209,
+      "grad_norm": 0.5271363258361816,
+      "learning_rate": 1.9832185347526612e-05,
+      "loss": 3.4967,
+      "mean_token_accuracy": 0.3867050640285015,
+      "num_tokens": 10541404.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.042936690744012344,
+      "grad_norm": 0.5193490982055664,
+      "learning_rate": 1.9828607209947224e-05,
+      "loss": 3.5113,
+      "mean_token_accuracy": 0.3860153049230576,
+      "num_tokens": 10765992.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.0438312051345126,
+      "grad_norm": 0.5134871006011963,
+      "learning_rate": 1.9825029072367835e-05,
+      "loss": 3.5039,
+      "mean_token_accuracy": 0.38554045259952546,
+      "num_tokens": 10992282.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.04472571952501286,
+      "grad_norm": 0.4887460768222809,
+      "learning_rate": 1.9821450934788444e-05,
+      "loss": 3.4895,
+      "mean_token_accuracy": 0.3860923834145069,
+      "num_tokens": 11217294.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.04562023391551311,
+      "grad_norm": 0.5546553730964661,
+      "learning_rate": 1.9817872797209055e-05,
+      "loss": 3.4938,
+      "mean_token_accuracy": 0.38622146248817446,
+      "num_tokens": 11442608.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.046514748306013376,
+      "grad_norm": 0.5706290602684021,
+      "learning_rate": 1.9814294659629664e-05,
+      "loss": 3.4489,
+      "mean_token_accuracy": 0.39343543276190757,
+      "num_tokens": 11665939.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.04740926269651363,
+      "grad_norm": 0.4757273197174072,
+      "learning_rate": 1.9810716522050275e-05,
+      "loss": 3.4634,
+      "mean_token_accuracy": 0.3893909424543381,
+      "num_tokens": 11891171.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.04830377708701389,
+      "grad_norm": 0.5140799283981323,
+      "learning_rate": 1.9807138384470887e-05,
+      "loss": 3.4538,
+      "mean_token_accuracy": 0.3925728119909763,
+      "num_tokens": 12115773.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.049198291477514144,
+      "grad_norm": 0.4599289894104004,
+      "learning_rate": 1.9803560246891495e-05,
+      "loss": 3.4482,
+      "mean_token_accuracy": 0.39118969812989235,
+      "num_tokens": 12339933.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.0500928058680144,
+      "grad_norm": 0.517117440700531,
+      "learning_rate": 1.9799982109312103e-05,
+      "loss": 3.4205,
+      "mean_token_accuracy": 0.3933353215456009,
+      "num_tokens": 12564950.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.05098732025851466,
+      "grad_norm": 0.7124619483947754,
+      "learning_rate": 1.9796403971732715e-05,
+      "loss": 3.4234,
+      "mean_token_accuracy": 0.39552380964159967,
+      "num_tokens": 12790863.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.05188183464901491,
+      "grad_norm": 10.448816299438477,
+      "learning_rate": 1.9792825834153323e-05,
+      "loss": 3.4277,
+      "mean_token_accuracy": 0.3924214608967304,
+      "num_tokens": 13017450.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.052776349039515176,
+      "grad_norm": 0.5431159734725952,
+      "learning_rate": 1.9789247696573935e-05,
+      "loss": 3.4328,
+      "mean_token_accuracy": 0.39353245720267294,
+      "num_tokens": 13241608.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.05367086343001543,
+      "grad_norm": 0.5687503814697266,
+      "learning_rate": 1.9785669558994546e-05,
+      "loss": 3.3989,
+      "mean_token_accuracy": 0.39768306240439416,
+      "num_tokens": 13465104.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.05456537782051569,
+      "grad_norm": 0.5452563166618347,
+      "learning_rate": 1.9782091421415155e-05,
+      "loss": 3.3754,
+      "mean_token_accuracy": 0.39803339168429375,
+      "num_tokens": 13689303.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.055459892211015945,
+      "grad_norm": 0.4787168800830841,
+      "learning_rate": 1.9778513283835766e-05,
+      "loss": 3.3908,
+      "mean_token_accuracy": 0.3983615793287754,
+      "num_tokens": 13913069.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.0563544066015162,
+      "grad_norm": 0.533787190914154,
+      "learning_rate": 1.9774935146256374e-05,
+      "loss": 3.4083,
+      "mean_token_accuracy": 0.3976218432188034,
+      "num_tokens": 14136873.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.05724892099201646,
+      "grad_norm": 0.6915440559387207,
+      "learning_rate": 1.9771357008676986e-05,
+      "loss": 3.3768,
+      "mean_token_accuracy": 0.40016965195536613,
+      "num_tokens": 14359757.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.05814343538251671,
+      "grad_norm": 0.5388856530189514,
+      "learning_rate": 1.9767778871097598e-05,
+      "loss": 3.3652,
+      "mean_token_accuracy": 0.40155375823378564,
+      "num_tokens": 14583389.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.059037949773016976,
+      "grad_norm": 0.5853003263473511,
+      "learning_rate": 1.9764200733518206e-05,
+      "loss": 3.401,
+      "mean_token_accuracy": 0.39647991508245467,
+      "num_tokens": 14806251.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.05993246416351723,
+      "grad_norm": 0.6135736703872681,
+      "learning_rate": 1.9760622595938818e-05,
+      "loss": 3.4031,
+      "mean_token_accuracy": 0.3982516027987003,
+      "num_tokens": 15031471.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.06082697855401749,
+      "grad_norm": 0.45374274253845215,
+      "learning_rate": 1.9757044458359426e-05,
+      "loss": 3.3841,
+      "mean_token_accuracy": 0.3975381299853325,
+      "num_tokens": 15256769.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.061721492944517745,
+      "grad_norm": 0.5736910700798035,
+      "learning_rate": 1.9753466320780034e-05,
+      "loss": 3.383,
+      "mean_token_accuracy": 0.3996949538588524,
+      "num_tokens": 15479684.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.062616007335018,
+      "grad_norm": 0.5454510450363159,
+      "learning_rate": 1.9749888183200646e-05,
+      "loss": 3.352,
+      "mean_token_accuracy": 0.40254419967532157,
+      "num_tokens": 15704356.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.06351052172551826,
+      "grad_norm": 0.5370535850524902,
+      "learning_rate": 1.9746310045621254e-05,
+      "loss": 3.3559,
+      "mean_token_accuracy": 0.40261620208621024,
+      "num_tokens": 15928903.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.06440503611601851,
+      "grad_norm": 0.6735969185829163,
+      "learning_rate": 1.9742731908041865e-05,
+      "loss": 3.3582,
+      "mean_token_accuracy": 0.40281880721449853,
+      "num_tokens": 16154120.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.06529955050651877,
+      "grad_norm": 0.46152418851852417,
+      "learning_rate": 1.9739153770462477e-05,
+      "loss": 3.3388,
+      "mean_token_accuracy": 0.4018984198570251,
+      "num_tokens": 16378150.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.06619406489701903,
+      "grad_norm": 0.5333797335624695,
+      "learning_rate": 1.9735575632883085e-05,
+      "loss": 3.358,
+      "mean_token_accuracy": 0.40131590217351915,
+      "num_tokens": 16602518.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.06708857928751928,
+      "grad_norm": 0.6620674729347229,
+      "learning_rate": 1.9731997495303697e-05,
+      "loss": 3.3597,
+      "mean_token_accuracy": 0.40183877646923066,
+      "num_tokens": 16825308.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.06798309367801955,
+      "grad_norm": 0.4112262427806854,
+      "learning_rate": 1.9728419357724305e-05,
+      "loss": 3.3498,
+      "mean_token_accuracy": 0.4032081626355648,
+      "num_tokens": 17048788.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.06887760806851981,
+      "grad_norm": 0.49325069785118103,
+      "learning_rate": 1.9724841220144917e-05,
+      "loss": 3.3523,
+      "mean_token_accuracy": 0.4036438427865505,
+      "num_tokens": 17273104.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.06977212245902006,
+      "grad_norm": 0.5840951204299927,
+      "learning_rate": 1.972126308256553e-05,
+      "loss": 3.3446,
+      "mean_token_accuracy": 0.4040109634399414,
+      "num_tokens": 17497961.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.07066663684952032,
+      "grad_norm": 0.49413686990737915,
+      "learning_rate": 1.9717684944986137e-05,
+      "loss": 3.3309,
+      "mean_token_accuracy": 0.40450835302472116,
+      "num_tokens": 17722726.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.07156115124002058,
+      "grad_norm": 0.6528025269508362,
+      "learning_rate": 1.9714106807406745e-05,
+      "loss": 3.3427,
+      "mean_token_accuracy": 0.4030210435390472,
+      "num_tokens": 17946378.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.07245566563052083,
+      "grad_norm": 0.5769058465957642,
+      "learning_rate": 1.9710528669827357e-05,
+      "loss": 3.3423,
+      "mean_token_accuracy": 0.4021991953253746,
+      "num_tokens": 18170591.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.07335018002102109,
+      "grad_norm": 0.6946350336074829,
+      "learning_rate": 1.9706950532247965e-05,
+      "loss": 3.322,
+      "mean_token_accuracy": 0.40520998015999793,
+      "num_tokens": 18395601.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.07424469441152134,
+      "grad_norm": 0.5611916184425354,
+      "learning_rate": 1.9703372394668576e-05,
+      "loss": 3.3172,
+      "mean_token_accuracy": 0.4065264783799648,
+      "num_tokens": 18619829.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.0751392088020216,
+      "grad_norm": 0.5267366170883179,
+      "learning_rate": 1.9699794257089188e-05,
+      "loss": 3.3504,
+      "mean_token_accuracy": 0.4045166805386543,
+      "num_tokens": 18844573.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.07603372319252186,
+      "grad_norm": 0.5963064432144165,
+      "learning_rate": 1.9696216119509796e-05,
+      "loss": 3.3026,
+      "mean_token_accuracy": 0.4085647910833359,
+      "num_tokens": 19071174.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.07692823758302211,
+      "grad_norm": 0.4585157632827759,
+      "learning_rate": 1.9692637981930408e-05,
+      "loss": 3.2948,
+      "mean_token_accuracy": 0.4082924917340279,
+      "num_tokens": 19296052.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.07782275197352237,
+      "grad_norm": 0.5613287687301636,
+      "learning_rate": 1.9689059844351016e-05,
+      "loss": 3.3167,
+      "mean_token_accuracy": 0.40675563290715216,
+      "num_tokens": 19521709.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.07871726636402263,
+      "grad_norm": 0.4587007761001587,
+      "learning_rate": 1.9685481706771628e-05,
+      "loss": 3.305,
+      "mean_token_accuracy": 0.4078836299479008,
+      "num_tokens": 19745334.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.07961178075452288,
+      "grad_norm": 0.5072513818740845,
+      "learning_rate": 1.968190356919224e-05,
+      "loss": 3.3259,
+      "mean_token_accuracy": 0.40673111006617546,
+      "num_tokens": 19969825.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.08050629514502315,
+      "grad_norm": 0.5777090787887573,
+      "learning_rate": 1.9678325431612848e-05,
+      "loss": 3.2855,
+      "mean_token_accuracy": 0.4096429578959942,
+      "num_tokens": 20193404.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.08140080953552341,
+      "grad_norm": 0.5001935362815857,
+      "learning_rate": 1.967474729403346e-05,
+      "loss": 3.287,
+      "mean_token_accuracy": 0.41084871664643285,
+      "num_tokens": 20418412.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.08229532392602366,
+      "grad_norm": 0.560683012008667,
+      "learning_rate": 1.9671169156454067e-05,
+      "loss": 3.3084,
+      "mean_token_accuracy": 0.4078595593571663,
+      "num_tokens": 20642807.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.08318983831652392,
+      "grad_norm": 0.7433478832244873,
+      "learning_rate": 1.9667591018874676e-05,
+      "loss": 3.3168,
+      "mean_token_accuracy": 0.40866749435663224,
+      "num_tokens": 20866434.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.08408435270702418,
+      "grad_norm": 0.47655490040779114,
+      "learning_rate": 1.9664012881295287e-05,
+      "loss": 3.2776,
+      "mean_token_accuracy": 0.40998933985829356,
+      "num_tokens": 21092326.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.08497886709752443,
+      "grad_norm": 0.6603720784187317,
+      "learning_rate": 1.9660434743715895e-05,
+      "loss": 3.246,
+      "mean_token_accuracy": 0.41296741738915443,
+      "num_tokens": 21317008.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.08587338148802469,
+      "grad_norm": 0.6937066912651062,
+      "learning_rate": 1.9656856606136507e-05,
+      "loss": 3.2978,
+      "mean_token_accuracy": 0.4103521354496479,
+      "num_tokens": 21541185.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.08676789587852494,
+      "grad_norm": 0.5999243259429932,
+      "learning_rate": 1.965327846855712e-05,
+      "loss": 3.2726,
+      "mean_token_accuracy": 0.41270416751503947,
+      "num_tokens": 21765805.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.0876624102690252,
+      "grad_norm": 0.4740482270717621,
+      "learning_rate": 1.9649700330977727e-05,
+      "loss": 3.2616,
+      "mean_token_accuracy": 0.41271830424666406,
+      "num_tokens": 21993399.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.08855692465952546,
+      "grad_norm": 0.4714813530445099,
+      "learning_rate": 1.964612219339834e-05,
+      "loss": 3.2992,
+      "mean_token_accuracy": 0.4101860985159874,
+      "num_tokens": 22217604.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.08945143905002571,
+      "grad_norm": 0.422974556684494,
+      "learning_rate": 1.9642544055818947e-05,
+      "loss": 3.2634,
+      "mean_token_accuracy": 0.41224386021494863,
+      "num_tokens": 22442384.0,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 55895,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1315610691043328e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eec90019e03b3308744cf7428c0bc743b8dd914d925c9059ff38ec49b74a159f
+size 5688

checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-10000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-10000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:458c8eba82e517f5ba85b362bd54b06f115679c56b6b1c4071cb969b5c55915f
+size 309900448

checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ed7277ef8481f73983e89138757736d72118e72dd5e978643a274ade68505a4
+size 619836730

checkpoint-10000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5bb0c2380f80076bc24221e137f860d6cf7f973dc1aa82881bce26bcfde343
+size 1064

checkpoint-10000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-10000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-10000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-10000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eec90019e03b3308744cf7428c0bc743b8dd914d925c9059ff38ec49b74a159f
+size 5688

checkpoint-10500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-10500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-10500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90611e57d216eaabc14ef4dbed35b6d3636be548a9d21e0c7a3d9be4f566bb4e
+size 309900448

checkpoint-10500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b59b975e194b7bb1e98b21294e78c9c86dc0b58cd3892b629c2479b022994f8
+size 619836730

checkpoint-10500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-10500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a2d11ff118d0553d52a97bddfd207f05928501796b8701d3a53e420beb2f5b7
+size 1064

checkpoint-10500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-10500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-10500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-10500/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-10500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eec90019e03b3308744cf7428c0bc743b8dd914d925c9059ff38ec49b74a159f
+size 5688

checkpoint-11000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-11000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-11000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:933c3626401ae46c5786aecd6efab533e1656993686117b3be8aaf60bb034acb
+size 309900448

checkpoint-11000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75082e4ecdcf5ef7d34918fb783df1e626aaf7dd5e930474d55cb41da9ab754
+size 619836730

checkpoint-11000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-11000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebabd05435cd42dd6dc311e938b4060596334d385dedeffb84634c6f408fa78b
+size 1064

checkpoint-11000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-11000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-11000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-11000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-11000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-11000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eec90019e03b3308744cf7428c0bc743b8dd914d925c9059ff38ec49b74a159f
+size 5688

checkpoint-11500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 512,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-11500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}