Abeersherif commited on Nov 20, 2025

Commit

1142cda

verified ·

1 Parent(s): f47bdb2

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

chat_template.jinja +4 -0
checkpoint-2000/chat_template.jinja +4 -0
checkpoint-2000/config.json +30 -0
checkpoint-2000/generation_config.json +10 -0
checkpoint-2000/merges.txt +0 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scaler.pt +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +34 -0
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/tokenizer_config.json +154 -0
checkpoint-2000/trainer_state.json +314 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2000/vocab.json +0 -0
checkpoint-4000/chat_template.jinja +4 -0
checkpoint-4000/config.json +30 -0
checkpoint-4000/generation_config.json +10 -0
checkpoint-4000/merges.txt +0 -0
checkpoint-4000/model.safetensors +3 -0
checkpoint-4000/optimizer.pt +3 -0
checkpoint-4000/rng_state.pth +3 -0
checkpoint-4000/scaler.pt +3 -0
checkpoint-4000/scheduler.pt +3 -0
checkpoint-4000/special_tokens_map.json +34 -0
checkpoint-4000/tokenizer.json +0 -0
checkpoint-4000/tokenizer_config.json +154 -0
checkpoint-4000/trainer_state.json +594 -0
checkpoint-4000/training_args.bin +3 -0
checkpoint-4000/vocab.json +0 -0
checkpoint-4245/chat_template.jinja +4 -0
checkpoint-4245/config.json +30 -0
checkpoint-4245/generation_config.json +10 -0
checkpoint-4245/merges.txt +0 -0
checkpoint-4245/model.safetensors +3 -0
checkpoint-4245/optimizer.pt +3 -0
checkpoint-4245/rng_state.pth +3 -0
checkpoint-4245/scaler.pt +3 -0
checkpoint-4245/scheduler.pt +3 -0
checkpoint-4245/special_tokens_map.json +34 -0
checkpoint-4245/tokenizer.json +0 -0
checkpoint-4245/tokenizer_config.json +154 -0
checkpoint-4245/trainer_state.json +622 -0
checkpoint-4245/training_args.bin +3 -0
checkpoint-4245/vocab.json +0 -0
config.json +30 -0
generation_config.json +10 -0
merges.txt +0 -0
model.safetensors +3 -0

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoint-2000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 30,
+  "num_key_value_heads": 3,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "vocab_size": 49152
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "max_new_tokens": 40,
+  "pad_token_id": 2,
+  "transformers_version": "4.57.1"
+}

checkpoint-2000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18e007c6bce0e34753699359c165313cebcb0d7caec991d6d76793ae10976723
+size 538090408

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecbe7401f5a3079f5079ecd5a4fb224d2c3cdffdf273b251a3d4ac7bf4e69b39
+size 1076353291

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61c19bab1174704a4a4441475683bf1270277af15d2e2c95e964789128e482c4
+size 14645

checkpoint-2000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
+size 1383

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7336ee0ebbd43f587938c211204d98c8a6df3c838104ed7f3f972e00611af785
+size 1465

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<|im_start|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,154 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<repo_name>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<file_sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<jupyter_script>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|im_start|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "<|im_end|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,314 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4711980209683119,
+  "eval_steps": 500,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011779950524207798,
+      "grad_norm": 2.4857845306396484,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 1.8343,
+      "step": 50
+    },
+    {
+      "epoch": 0.023559901048415596,
+      "grad_norm": 1.9041292667388916,
+      "learning_rate": 1.98e-05,
+      "loss": 1.2675,
+      "step": 100
+    },
+    {
+      "epoch": 0.03533985157262339,
+      "grad_norm": 1.7534877061843872,
+      "learning_rate": 1.976357056694813e-05,
+      "loss": 1.2149,
+      "step": 150
+    },
+    {
+      "epoch": 0.04711980209683119,
+      "grad_norm": 1.2397135496139526,
+      "learning_rate": 1.9522316043425815e-05,
+      "loss": 1.1763,
+      "step": 200
+    },
+    {
+      "epoch": 0.05889975262103899,
+      "grad_norm": 1.390807032585144,
+      "learning_rate": 1.9281061519903498e-05,
+      "loss": 1.1537,
+      "step": 250
+    },
+    {
+      "epoch": 0.07067970314524678,
+      "grad_norm": 1.6474590301513672,
+      "learning_rate": 1.9039806996381183e-05,
+      "loss": 1.1585,
+      "step": 300
+    },
+    {
+      "epoch": 0.08245965366945458,
+      "grad_norm": 1.7290133237838745,
+      "learning_rate": 1.879855247285887e-05,
+      "loss": 1.1395,
+      "step": 350
+    },
+    {
+      "epoch": 0.09423960419366238,
+      "grad_norm": 1.5090484619140625,
+      "learning_rate": 1.855729794933655e-05,
+      "loss": 1.1484,
+      "step": 400
+    },
+    {
+      "epoch": 0.10601955471787018,
+      "grad_norm": 1.5769039392471313,
+      "learning_rate": 1.8316043425814237e-05,
+      "loss": 1.1172,
+      "step": 450
+    },
+    {
+      "epoch": 0.11779950524207798,
+      "grad_norm": 1.869503378868103,
+      "learning_rate": 1.807478890229192e-05,
+      "loss": 1.1302,
+      "step": 500
+    },
+    {
+      "epoch": 0.1295794557662858,
+      "grad_norm": 1.4532737731933594,
+      "learning_rate": 1.7833534378769604e-05,
+      "loss": 1.1165,
+      "step": 550
+    },
+    {
+      "epoch": 0.14135940629049357,
+      "grad_norm": 1.5250763893127441,
+      "learning_rate": 1.7592279855247287e-05,
+      "loss": 1.1043,
+      "step": 600
+    },
+    {
+      "epoch": 0.15313935681470137,
+      "grad_norm": 1.5375722646713257,
+      "learning_rate": 1.7351025331724972e-05,
+      "loss": 1.1322,
+      "step": 650
+    },
+    {
+      "epoch": 0.16491930733890917,
+      "grad_norm": 1.4326726198196411,
+      "learning_rate": 1.7109770808202654e-05,
+      "loss": 1.0999,
+      "step": 700
+    },
+    {
+      "epoch": 0.17669925786311697,
+      "grad_norm": 1.5550315380096436,
+      "learning_rate": 1.686851628468034e-05,
+      "loss": 1.0914,
+      "step": 750
+    },
+    {
+      "epoch": 0.18847920838732476,
+      "grad_norm": 1.5411320924758911,
+      "learning_rate": 1.6627261761158022e-05,
+      "loss": 1.1068,
+      "step": 800
+    },
+    {
+      "epoch": 0.20025915891153256,
+      "grad_norm": 1.581898808479309,
+      "learning_rate": 1.6386007237635704e-05,
+      "loss": 1.1076,
+      "step": 850
+    },
+    {
+      "epoch": 0.21203910943574036,
+      "grad_norm": 1.3629993200302124,
+      "learning_rate": 1.6144752714113393e-05,
+      "loss": 1.0853,
+      "step": 900
+    },
+    {
+      "epoch": 0.22381905995994816,
+      "grad_norm": 1.5700671672821045,
+      "learning_rate": 1.5903498190591076e-05,
+      "loss": 1.0833,
+      "step": 950
+    },
+    {
+      "epoch": 0.23559901048415596,
+      "grad_norm": 1.6526682376861572,
+      "learning_rate": 1.5662243667068758e-05,
+      "loss": 1.1049,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24737896100836376,
+      "grad_norm": 1.663944125175476,
+      "learning_rate": 1.5420989143546443e-05,
+      "loss": 1.0847,
+      "step": 1050
+    },
+    {
+      "epoch": 0.2591589115325716,
+      "grad_norm": 1.4961705207824707,
+      "learning_rate": 1.5179734620024127e-05,
+      "loss": 1.0914,
+      "step": 1100
+    },
+    {
+      "epoch": 0.27093886205677936,
+      "grad_norm": 1.76039457321167,
+      "learning_rate": 1.4938480096501811e-05,
+      "loss": 1.1108,
+      "step": 1150
+    },
+    {
+      "epoch": 0.28271881258098713,
+      "grad_norm": 1.7683743238449097,
+      "learning_rate": 1.4697225572979495e-05,
+      "loss": 1.0982,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29449876310519496,
+      "grad_norm": 1.540376901626587,
+      "learning_rate": 1.4455971049457179e-05,
+      "loss": 1.0766,
+      "step": 1250
+    },
+    {
+      "epoch": 0.30627871362940273,
+      "grad_norm": 1.3952268362045288,
+      "learning_rate": 1.4214716525934861e-05,
+      "loss": 1.0792,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31805866415361056,
+      "grad_norm": 1.5013277530670166,
+      "learning_rate": 1.3973462002412545e-05,
+      "loss": 1.0843,
+      "step": 1350
+    },
+    {
+      "epoch": 0.32983861467781833,
+      "grad_norm": 1.506777048110962,
+      "learning_rate": 1.3732207478890229e-05,
+      "loss": 1.0981,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34161856520202616,
+      "grad_norm": 1.3855302333831787,
+      "learning_rate": 1.3490952955367914e-05,
+      "loss": 1.1056,
+      "step": 1450
+    },
+    {
+      "epoch": 0.35339851572623393,
+      "grad_norm": 1.5296212434768677,
+      "learning_rate": 1.3249698431845598e-05,
+      "loss": 1.0776,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36517846625044176,
+      "grad_norm": 1.3882752656936646,
+      "learning_rate": 1.3008443908323282e-05,
+      "loss": 1.0834,
+      "step": 1550
+    },
+    {
+      "epoch": 0.37695841677464953,
+      "grad_norm": 1.5645182132720947,
+      "learning_rate": 1.2767189384800966e-05,
+      "loss": 1.0751,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38873836729885736,
+      "grad_norm": 1.42621910572052,
+      "learning_rate": 1.252593486127865e-05,
+      "loss": 1.0736,
+      "step": 1650
+    },
+    {
+      "epoch": 0.40051831782306513,
+      "grad_norm": 1.6674786806106567,
+      "learning_rate": 1.2284680337756334e-05,
+      "loss": 1.0872,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41229826834727296,
+      "grad_norm": 1.2423211336135864,
+      "learning_rate": 1.2043425814234018e-05,
+      "loss": 1.0522,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4240782188714807,
+      "grad_norm": 1.6971081495285034,
+      "learning_rate": 1.1802171290711702e-05,
+      "loss": 1.0585,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43585816939568855,
+      "grad_norm": 1.5267912149429321,
+      "learning_rate": 1.1560916767189386e-05,
+      "loss": 1.0765,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4476381199198963,
+      "grad_norm": 1.5102652311325073,
+      "learning_rate": 1.131966224366707e-05,
+      "loss": 1.0361,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45941807044410415,
+      "grad_norm": 1.1953086853027344,
+      "learning_rate": 1.1078407720144753e-05,
+      "loss": 1.056,
+      "step": 1950
+    },
+    {
+      "epoch": 0.4711980209683119,
+      "grad_norm": 1.5494145154953003,
+      "learning_rate": 1.0837153196622439e-05,
+      "loss": 1.0614,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4245,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1845006370131456.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57f20a3b02b00239ae2899f66eebf8dcf57fa94f04a1164c46967c63200582c3
+size 5777

checkpoint-2000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoint-4000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 30,
+  "num_key_value_heads": 3,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "vocab_size": 49152
+}

checkpoint-4000/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "max_new_tokens": 40,
+  "pad_token_id": 2,
+  "transformers_version": "4.57.1"
+}

checkpoint-4000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c0592fb12a4feb53b9acfcc3a6513d99b30dcdbacb511221c4f85afe732e082
+size 538090408

checkpoint-4000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d909bf53b0e9fa9321d49805958601383ed983d1bc026239870b95240d3b36f2
+size 1076353291

checkpoint-4000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61c19bab1174704a4a4441475683bf1270277af15d2e2c95e964789128e482c4
+size 14645

checkpoint-4000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
+size 1383

checkpoint-4000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85c0a3804aeabc7766d12cfd8bce6f469faec420f8d198351e9174df181b76ac
+size 1465

checkpoint-4000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<|im_start|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-4000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,154 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<repo_name>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<file_sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<jupyter_script>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|im_start|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "<|im_end|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,594 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9423960419366239,
+  "eval_steps": 500,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011779950524207798,
+      "grad_norm": 2.4857845306396484,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 1.8343,
+      "step": 50
+    },
+    {
+      "epoch": 0.023559901048415596,
+      "grad_norm": 1.9041292667388916,
+      "learning_rate": 1.98e-05,
+      "loss": 1.2675,
+      "step": 100
+    },
+    {
+      "epoch": 0.03533985157262339,
+      "grad_norm": 1.7534877061843872,
+      "learning_rate": 1.976357056694813e-05,
+      "loss": 1.2149,
+      "step": 150
+    },
+    {
+      "epoch": 0.04711980209683119,
+      "grad_norm": 1.2397135496139526,
+      "learning_rate": 1.9522316043425815e-05,
+      "loss": 1.1763,
+      "step": 200
+    },
+    {
+      "epoch": 0.05889975262103899,
+      "grad_norm": 1.390807032585144,
+      "learning_rate": 1.9281061519903498e-05,
+      "loss": 1.1537,
+      "step": 250
+    },
+    {
+      "epoch": 0.07067970314524678,
+      "grad_norm": 1.6474590301513672,
+      "learning_rate": 1.9039806996381183e-05,
+      "loss": 1.1585,
+      "step": 300
+    },
+    {
+      "epoch": 0.08245965366945458,
+      "grad_norm": 1.7290133237838745,
+      "learning_rate": 1.879855247285887e-05,
+      "loss": 1.1395,
+      "step": 350
+    },
+    {
+      "epoch": 0.09423960419366238,
+      "grad_norm": 1.5090484619140625,
+      "learning_rate": 1.855729794933655e-05,
+      "loss": 1.1484,
+      "step": 400
+    },
+    {
+      "epoch": 0.10601955471787018,
+      "grad_norm": 1.5769039392471313,
+      "learning_rate": 1.8316043425814237e-05,
+      "loss": 1.1172,
+      "step": 450
+    },
+    {
+      "epoch": 0.11779950524207798,
+      "grad_norm": 1.869503378868103,
+      "learning_rate": 1.807478890229192e-05,
+      "loss": 1.1302,
+      "step": 500
+    },
+    {
+      "epoch": 0.1295794557662858,
+      "grad_norm": 1.4532737731933594,
+      "learning_rate": 1.7833534378769604e-05,
+      "loss": 1.1165,
+      "step": 550
+    },
+    {
+      "epoch": 0.14135940629049357,
+      "grad_norm": 1.5250763893127441,
+      "learning_rate": 1.7592279855247287e-05,
+      "loss": 1.1043,
+      "step": 600
+    },
+    {
+      "epoch": 0.15313935681470137,
+      "grad_norm": 1.5375722646713257,
+      "learning_rate": 1.7351025331724972e-05,
+      "loss": 1.1322,
+      "step": 650
+    },
+    {
+      "epoch": 0.16491930733890917,
+      "grad_norm": 1.4326726198196411,
+      "learning_rate": 1.7109770808202654e-05,
+      "loss": 1.0999,
+      "step": 700
+    },
+    {
+      "epoch": 0.17669925786311697,
+      "grad_norm": 1.5550315380096436,
+      "learning_rate": 1.686851628468034e-05,
+      "loss": 1.0914,
+      "step": 750
+    },
+    {
+      "epoch": 0.18847920838732476,
+      "grad_norm": 1.5411320924758911,
+      "learning_rate": 1.6627261761158022e-05,
+      "loss": 1.1068,
+      "step": 800
+    },
+    {
+      "epoch": 0.20025915891153256,
+      "grad_norm": 1.581898808479309,
+      "learning_rate": 1.6386007237635704e-05,
+      "loss": 1.1076,
+      "step": 850
+    },
+    {
+      "epoch": 0.21203910943574036,
+      "grad_norm": 1.3629993200302124,
+      "learning_rate": 1.6144752714113393e-05,
+      "loss": 1.0853,
+      "step": 900
+    },
+    {
+      "epoch": 0.22381905995994816,
+      "grad_norm": 1.5700671672821045,
+      "learning_rate": 1.5903498190591076e-05,
+      "loss": 1.0833,
+      "step": 950
+    },
+    {
+      "epoch": 0.23559901048415596,
+      "grad_norm": 1.6526682376861572,
+      "learning_rate": 1.5662243667068758e-05,
+      "loss": 1.1049,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24737896100836376,
+      "grad_norm": 1.663944125175476,
+      "learning_rate": 1.5420989143546443e-05,
+      "loss": 1.0847,
+      "step": 1050
+    },
+    {
+      "epoch": 0.2591589115325716,
+      "grad_norm": 1.4961705207824707,
+      "learning_rate": 1.5179734620024127e-05,
+      "loss": 1.0914,
+      "step": 1100
+    },
+    {
+      "epoch": 0.27093886205677936,
+      "grad_norm": 1.76039457321167,
+      "learning_rate": 1.4938480096501811e-05,
+      "loss": 1.1108,
+      "step": 1150
+    },
+    {
+      "epoch": 0.28271881258098713,
+      "grad_norm": 1.7683743238449097,
+      "learning_rate": 1.4697225572979495e-05,
+      "loss": 1.0982,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29449876310519496,
+      "grad_norm": 1.540376901626587,
+      "learning_rate": 1.4455971049457179e-05,
+      "loss": 1.0766,
+      "step": 1250
+    },
+    {
+      "epoch": 0.30627871362940273,
+      "grad_norm": 1.3952268362045288,
+      "learning_rate": 1.4214716525934861e-05,
+      "loss": 1.0792,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31805866415361056,
+      "grad_norm": 1.5013277530670166,
+      "learning_rate": 1.3973462002412545e-05,
+      "loss": 1.0843,
+      "step": 1350
+    },
+    {
+      "epoch": 0.32983861467781833,
+      "grad_norm": 1.506777048110962,
+      "learning_rate": 1.3732207478890229e-05,
+      "loss": 1.0981,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34161856520202616,
+      "grad_norm": 1.3855302333831787,
+      "learning_rate": 1.3490952955367914e-05,
+      "loss": 1.1056,
+      "step": 1450
+    },
+    {
+      "epoch": 0.35339851572623393,
+      "grad_norm": 1.5296212434768677,
+      "learning_rate": 1.3249698431845598e-05,
+      "loss": 1.0776,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36517846625044176,
+      "grad_norm": 1.3882752656936646,
+      "learning_rate": 1.3008443908323282e-05,
+      "loss": 1.0834,
+      "step": 1550
+    },
+    {
+      "epoch": 0.37695841677464953,
+      "grad_norm": 1.5645182132720947,
+      "learning_rate": 1.2767189384800966e-05,
+      "loss": 1.0751,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38873836729885736,
+      "grad_norm": 1.42621910572052,
+      "learning_rate": 1.252593486127865e-05,
+      "loss": 1.0736,
+      "step": 1650
+    },
+    {
+      "epoch": 0.40051831782306513,
+      "grad_norm": 1.6674786806106567,
+      "learning_rate": 1.2284680337756334e-05,
+      "loss": 1.0872,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41229826834727296,
+      "grad_norm": 1.2423211336135864,
+      "learning_rate": 1.2043425814234018e-05,
+      "loss": 1.0522,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4240782188714807,
+      "grad_norm": 1.6971081495285034,
+      "learning_rate": 1.1802171290711702e-05,
+      "loss": 1.0585,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43585816939568855,
+      "grad_norm": 1.5267912149429321,
+      "learning_rate": 1.1560916767189386e-05,
+      "loss": 1.0765,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4476381199198963,
+      "grad_norm": 1.5102652311325073,
+      "learning_rate": 1.131966224366707e-05,
+      "loss": 1.0361,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45941807044410415,
+      "grad_norm": 1.1953086853027344,
+      "learning_rate": 1.1078407720144753e-05,
+      "loss": 1.056,
+      "step": 1950
+    },
+    {
+      "epoch": 0.4711980209683119,
+      "grad_norm": 1.5494145154953003,
+      "learning_rate": 1.0837153196622439e-05,
+      "loss": 1.0614,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48297797149251975,
+      "grad_norm": 1.424010157585144,
+      "learning_rate": 1.0595898673100123e-05,
+      "loss": 1.0784,
+      "step": 2050
+    },
+    {
+      "epoch": 0.4947579220167275,
+      "grad_norm": 1.547558307647705,
+      "learning_rate": 1.0354644149577807e-05,
+      "loss": 1.063,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5065378725409353,
+      "grad_norm": 1.4514057636260986,
+      "learning_rate": 1.0113389626055489e-05,
+      "loss": 1.062,
+      "step": 2150
+    },
+    {
+      "epoch": 0.5183178230651432,
+      "grad_norm": 1.283713936805725,
+      "learning_rate": 9.872135102533173e-06,
+      "loss": 1.0691,
+      "step": 2200
+    },
+    {
+      "epoch": 0.530097773589351,
+      "grad_norm": 1.5060367584228516,
+      "learning_rate": 9.630880579010857e-06,
+      "loss": 1.0622,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5418777241135587,
+      "grad_norm": 1.7280113697052002,
+      "learning_rate": 9.38962605548854e-06,
+      "loss": 1.0568,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5536576746377665,
+      "grad_norm": 1.4609959125518799,
+      "learning_rate": 9.148371531966225e-06,
+      "loss": 1.0405,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5654376251619743,
+      "grad_norm": 1.46717369556427,
+      "learning_rate": 8.90711700844391e-06,
+      "loss": 1.087,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5772175756861821,
+      "grad_norm": 1.513267159461975,
+      "learning_rate": 8.665862484921594e-06,
+      "loss": 1.0413,
+      "step": 2450
+    },
+    {
+      "epoch": 0.5889975262103899,
+      "grad_norm": 1.4865115880966187,
+      "learning_rate": 8.424607961399276e-06,
+      "loss": 1.0488,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6007774767345977,
+      "grad_norm": 1.6761298179626465,
+      "learning_rate": 8.18335343787696e-06,
+      "loss": 1.0709,
+      "step": 2550
+    },
+    {
+      "epoch": 0.6125574272588055,
+      "grad_norm": 1.3326189517974854,
+      "learning_rate": 7.942098914354644e-06,
+      "loss": 1.0548,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6243373777830133,
+      "grad_norm": 1.6205568313598633,
+      "learning_rate": 7.700844390832328e-06,
+      "loss": 1.0557,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6361173283072211,
+      "grad_norm": 1.7094571590423584,
+      "learning_rate": 7.4595898673100135e-06,
+      "loss": 1.0392,
+      "step": 2700
+    },
+    {
+      "epoch": 0.6478972788314289,
+      "grad_norm": 1.4315111637115479,
+      "learning_rate": 7.2183353437876966e-06,
+      "loss": 1.0542,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6596772293556367,
+      "grad_norm": 1.6000643968582153,
+      "learning_rate": 6.9770808202653805e-06,
+      "loss": 1.0567,
+      "step": 2800
+    },
+    {
+      "epoch": 0.6714571798798445,
+      "grad_norm": 1.821889877319336,
+      "learning_rate": 6.735826296743064e-06,
+      "loss": 1.0469,
+      "step": 2850
+    },
+    {
+      "epoch": 0.6832371304040523,
+      "grad_norm": 1.4687271118164062,
+      "learning_rate": 6.494571773220748e-06,
+      "loss": 1.0614,
+      "step": 2900
+    },
+    {
+      "epoch": 0.6950170809282601,
+      "grad_norm": 1.4694554805755615,
+      "learning_rate": 6.253317249698433e-06,
+      "loss": 1.0456,
+      "step": 2950
+    },
+    {
+      "epoch": 0.7067970314524679,
+      "grad_norm": 1.5050467252731323,
+      "learning_rate": 6.012062726176117e-06,
+      "loss": 1.0649,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7185769819766757,
+      "grad_norm": 1.3030104637145996,
+      "learning_rate": 5.770808202653801e-06,
+      "loss": 1.049,
+      "step": 3050
+    },
+    {
+      "epoch": 0.7303569325008835,
+      "grad_norm": 1.426845669746399,
+      "learning_rate": 5.529553679131484e-06,
+      "loss": 1.064,
+      "step": 3100
+    },
+    {
+      "epoch": 0.7421368830250913,
+      "grad_norm": 1.4176698923110962,
+      "learning_rate": 5.288299155609168e-06,
+      "loss": 1.0423,
+      "step": 3150
+    },
+    {
+      "epoch": 0.7539168335492991,
+      "grad_norm": 1.7557893991470337,
+      "learning_rate": 5.047044632086852e-06,
+      "loss": 1.047,
+      "step": 3200
+    },
+    {
+      "epoch": 0.7656967840735069,
+      "grad_norm": 1.4390746355056763,
+      "learning_rate": 4.8057901085645355e-06,
+      "loss": 1.0585,
+      "step": 3250
+    },
+    {
+      "epoch": 0.7774767345977147,
+      "grad_norm": 1.5117220878601074,
+      "learning_rate": 4.56453558504222e-06,
+      "loss": 1.0498,
+      "step": 3300
+    },
+    {
+      "epoch": 0.7892566851219225,
+      "grad_norm": 1.2958707809448242,
+      "learning_rate": 4.323281061519904e-06,
+      "loss": 1.0385,
+      "step": 3350
+    },
+    {
+      "epoch": 0.8010366356461303,
+      "grad_norm": 1.5557655096054077,
+      "learning_rate": 4.082026537997588e-06,
+      "loss": 1.059,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8128165861703381,
+      "grad_norm": 1.4961349964141846,
+      "learning_rate": 3.840772014475272e-06,
+      "loss": 1.0299,
+      "step": 3450
+    },
+    {
+      "epoch": 0.8245965366945459,
+      "grad_norm": 1.2806799411773682,
+      "learning_rate": 3.599517490952956e-06,
+      "loss": 1.0688,
+      "step": 3500
+    },
+    {
+      "epoch": 0.8363764872187537,
+      "grad_norm": 1.4575563669204712,
+      "learning_rate": 3.3582629674306393e-06,
+      "loss": 1.0623,
+      "step": 3550
+    },
+    {
+      "epoch": 0.8481564377429615,
+      "grad_norm": 1.2596416473388672,
+      "learning_rate": 3.1170084439083236e-06,
+      "loss": 1.0534,
+      "step": 3600
+    },
+    {
+      "epoch": 0.8599363882671692,
+      "grad_norm": 1.479817509651184,
+      "learning_rate": 2.8757539203860075e-06,
+      "loss": 1.043,
+      "step": 3650
+    },
+    {
+      "epoch": 0.8717163387913771,
+      "grad_norm": 1.3471312522888184,
+      "learning_rate": 2.634499396863691e-06,
+      "loss": 1.0453,
+      "step": 3700
+    },
+    {
+      "epoch": 0.8834962893155849,
+      "grad_norm": 1.2828015089035034,
+      "learning_rate": 2.3932448733413753e-06,
+      "loss": 1.0441,
+      "step": 3750
+    },
+    {
+      "epoch": 0.8952762398397927,
+      "grad_norm": 1.610693097114563,
+      "learning_rate": 2.151990349819059e-06,
+      "loss": 1.0739,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9070561903640004,
+      "grad_norm": 1.4694626331329346,
+      "learning_rate": 1.910735826296743e-06,
+      "loss": 1.0341,
+      "step": 3850
+    },
+    {
+      "epoch": 0.9188361408882083,
+      "grad_norm": 1.4196053743362427,
+      "learning_rate": 1.6694813027744272e-06,
+      "loss": 1.0441,
+      "step": 3900
+    },
+    {
+      "epoch": 0.9306160914124161,
+      "grad_norm": 1.558480978012085,
+      "learning_rate": 1.4282267792521113e-06,
+      "loss": 1.0646,
+      "step": 3950
+    },
+    {
+      "epoch": 0.9423960419366239,
+      "grad_norm": 1.602553129196167,
+      "learning_rate": 1.186972255729795e-06,
+      "loss": 1.061,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4245,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3709549928028672.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57f20a3b02b00239ae2899f66eebf8dcf57fa94f04a1164c46967c63200582c3
+size 5777

checkpoint-4000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4245/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoint-4245/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 30,
+  "num_key_value_heads": 3,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "vocab_size": 49152
+}

checkpoint-4245/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "max_new_tokens": 40,
+  "pad_token_id": 2,
+  "transformers_version": "4.57.1"
+}

checkpoint-4245/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4245/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c216ce7fbb29c7f41e1988417a0ff9726e921168b125239c8eabf255c5949258
+size 538090408

checkpoint-4245/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ece67dc2523f0155eaa987b2b9dbe238871ae5bfbcad7868d11578ef479c3e40
+size 1076353291

checkpoint-4245/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61c19bab1174704a4a4441475683bf1270277af15d2e2c95e964789128e482c4
+size 14645

checkpoint-4245/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
+size 1383

checkpoint-4245/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffd804538ca37343c88588206425d0dee8559dd4257d26744a8add56713b1bcf
+size 1465

checkpoint-4245/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<|im_start|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-4245/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4245/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,154 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<repo_name>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<file_sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<jupyter_script>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|im_start|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "<|im_end|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}

checkpoint-4245/trainer_state.json ADDED Viewed

	@@ -0,0 +1,622 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 4245,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011779950524207798,
+      "grad_norm": 2.4857845306396484,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 1.8343,
+      "step": 50
+    },
+    {
+      "epoch": 0.023559901048415596,
+      "grad_norm": 1.9041292667388916,
+      "learning_rate": 1.98e-05,
+      "loss": 1.2675,
+      "step": 100
+    },
+    {
+      "epoch": 0.03533985157262339,
+      "grad_norm": 1.7534877061843872,
+      "learning_rate": 1.976357056694813e-05,
+      "loss": 1.2149,
+      "step": 150
+    },
+    {
+      "epoch": 0.04711980209683119,
+      "grad_norm": 1.2397135496139526,
+      "learning_rate": 1.9522316043425815e-05,
+      "loss": 1.1763,
+      "step": 200
+    },
+    {
+      "epoch": 0.05889975262103899,
+      "grad_norm": 1.390807032585144,
+      "learning_rate": 1.9281061519903498e-05,
+      "loss": 1.1537,
+      "step": 250
+    },
+    {
+      "epoch": 0.07067970314524678,
+      "grad_norm": 1.6474590301513672,
+      "learning_rate": 1.9039806996381183e-05,
+      "loss": 1.1585,
+      "step": 300
+    },
+    {
+      "epoch": 0.08245965366945458,
+      "grad_norm": 1.7290133237838745,
+      "learning_rate": 1.879855247285887e-05,
+      "loss": 1.1395,
+      "step": 350
+    },
+    {
+      "epoch": 0.09423960419366238,
+      "grad_norm": 1.5090484619140625,
+      "learning_rate": 1.855729794933655e-05,
+      "loss": 1.1484,
+      "step": 400
+    },
+    {
+      "epoch": 0.10601955471787018,
+      "grad_norm": 1.5769039392471313,
+      "learning_rate": 1.8316043425814237e-05,
+      "loss": 1.1172,
+      "step": 450
+    },
+    {
+      "epoch": 0.11779950524207798,
+      "grad_norm": 1.869503378868103,
+      "learning_rate": 1.807478890229192e-05,
+      "loss": 1.1302,
+      "step": 500
+    },
+    {
+      "epoch": 0.1295794557662858,
+      "grad_norm": 1.4532737731933594,
+      "learning_rate": 1.7833534378769604e-05,
+      "loss": 1.1165,
+      "step": 550
+    },
+    {
+      "epoch": 0.14135940629049357,
+      "grad_norm": 1.5250763893127441,
+      "learning_rate": 1.7592279855247287e-05,
+      "loss": 1.1043,
+      "step": 600
+    },
+    {
+      "epoch": 0.15313935681470137,
+      "grad_norm": 1.5375722646713257,
+      "learning_rate": 1.7351025331724972e-05,
+      "loss": 1.1322,
+      "step": 650
+    },
+    {
+      "epoch": 0.16491930733890917,
+      "grad_norm": 1.4326726198196411,
+      "learning_rate": 1.7109770808202654e-05,
+      "loss": 1.0999,
+      "step": 700
+    },
+    {
+      "epoch": 0.17669925786311697,
+      "grad_norm": 1.5550315380096436,
+      "learning_rate": 1.686851628468034e-05,
+      "loss": 1.0914,
+      "step": 750
+    },
+    {
+      "epoch": 0.18847920838732476,
+      "grad_norm": 1.5411320924758911,
+      "learning_rate": 1.6627261761158022e-05,
+      "loss": 1.1068,
+      "step": 800
+    },
+    {
+      "epoch": 0.20025915891153256,
+      "grad_norm": 1.581898808479309,
+      "learning_rate": 1.6386007237635704e-05,
+      "loss": 1.1076,
+      "step": 850
+    },
+    {
+      "epoch": 0.21203910943574036,
+      "grad_norm": 1.3629993200302124,
+      "learning_rate": 1.6144752714113393e-05,
+      "loss": 1.0853,
+      "step": 900
+    },
+    {
+      "epoch": 0.22381905995994816,
+      "grad_norm": 1.5700671672821045,
+      "learning_rate": 1.5903498190591076e-05,
+      "loss": 1.0833,
+      "step": 950
+    },
+    {
+      "epoch": 0.23559901048415596,
+      "grad_norm": 1.6526682376861572,
+      "learning_rate": 1.5662243667068758e-05,
+      "loss": 1.1049,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24737896100836376,
+      "grad_norm": 1.663944125175476,
+      "learning_rate": 1.5420989143546443e-05,
+      "loss": 1.0847,
+      "step": 1050
+    },
+    {
+      "epoch": 0.2591589115325716,
+      "grad_norm": 1.4961705207824707,
+      "learning_rate": 1.5179734620024127e-05,
+      "loss": 1.0914,
+      "step": 1100
+    },
+    {
+      "epoch": 0.27093886205677936,
+      "grad_norm": 1.76039457321167,
+      "learning_rate": 1.4938480096501811e-05,
+      "loss": 1.1108,
+      "step": 1150
+    },
+    {
+      "epoch": 0.28271881258098713,
+      "grad_norm": 1.7683743238449097,
+      "learning_rate": 1.4697225572979495e-05,
+      "loss": 1.0982,
+      "step": 1200
+    },
+    {
+      "epoch": 0.29449876310519496,
+      "grad_norm": 1.540376901626587,
+      "learning_rate": 1.4455971049457179e-05,
+      "loss": 1.0766,
+      "step": 1250
+    },
+    {
+      "epoch": 0.30627871362940273,
+      "grad_norm": 1.3952268362045288,
+      "learning_rate": 1.4214716525934861e-05,
+      "loss": 1.0792,
+      "step": 1300
+    },
+    {
+      "epoch": 0.31805866415361056,
+      "grad_norm": 1.5013277530670166,
+      "learning_rate": 1.3973462002412545e-05,
+      "loss": 1.0843,
+      "step": 1350
+    },
+    {
+      "epoch": 0.32983861467781833,
+      "grad_norm": 1.506777048110962,
+      "learning_rate": 1.3732207478890229e-05,
+      "loss": 1.0981,
+      "step": 1400
+    },
+    {
+      "epoch": 0.34161856520202616,
+      "grad_norm": 1.3855302333831787,
+      "learning_rate": 1.3490952955367914e-05,
+      "loss": 1.1056,
+      "step": 1450
+    },
+    {
+      "epoch": 0.35339851572623393,
+      "grad_norm": 1.5296212434768677,
+      "learning_rate": 1.3249698431845598e-05,
+      "loss": 1.0776,
+      "step": 1500
+    },
+    {
+      "epoch": 0.36517846625044176,
+      "grad_norm": 1.3882752656936646,
+      "learning_rate": 1.3008443908323282e-05,
+      "loss": 1.0834,
+      "step": 1550
+    },
+    {
+      "epoch": 0.37695841677464953,
+      "grad_norm": 1.5645182132720947,
+      "learning_rate": 1.2767189384800966e-05,
+      "loss": 1.0751,
+      "step": 1600
+    },
+    {
+      "epoch": 0.38873836729885736,
+      "grad_norm": 1.42621910572052,
+      "learning_rate": 1.252593486127865e-05,
+      "loss": 1.0736,
+      "step": 1650
+    },
+    {
+      "epoch": 0.40051831782306513,
+      "grad_norm": 1.6674786806106567,
+      "learning_rate": 1.2284680337756334e-05,
+      "loss": 1.0872,
+      "step": 1700
+    },
+    {
+      "epoch": 0.41229826834727296,
+      "grad_norm": 1.2423211336135864,
+      "learning_rate": 1.2043425814234018e-05,
+      "loss": 1.0522,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4240782188714807,
+      "grad_norm": 1.6971081495285034,
+      "learning_rate": 1.1802171290711702e-05,
+      "loss": 1.0585,
+      "step": 1800
+    },
+    {
+      "epoch": 0.43585816939568855,
+      "grad_norm": 1.5267912149429321,
+      "learning_rate": 1.1560916767189386e-05,
+      "loss": 1.0765,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4476381199198963,
+      "grad_norm": 1.5102652311325073,
+      "learning_rate": 1.131966224366707e-05,
+      "loss": 1.0361,
+      "step": 1900
+    },
+    {
+      "epoch": 0.45941807044410415,
+      "grad_norm": 1.1953086853027344,
+      "learning_rate": 1.1078407720144753e-05,
+      "loss": 1.056,
+      "step": 1950
+    },
+    {
+      "epoch": 0.4711980209683119,
+      "grad_norm": 1.5494145154953003,
+      "learning_rate": 1.0837153196622439e-05,
+      "loss": 1.0614,
+      "step": 2000
+    },
+    {
+      "epoch": 0.48297797149251975,
+      "grad_norm": 1.424010157585144,
+      "learning_rate": 1.0595898673100123e-05,
+      "loss": 1.0784,
+      "step": 2050
+    },
+    {
+      "epoch": 0.4947579220167275,
+      "grad_norm": 1.547558307647705,
+      "learning_rate": 1.0354644149577807e-05,
+      "loss": 1.063,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5065378725409353,
+      "grad_norm": 1.4514057636260986,
+      "learning_rate": 1.0113389626055489e-05,
+      "loss": 1.062,
+      "step": 2150
+    },
+    {
+      "epoch": 0.5183178230651432,
+      "grad_norm": 1.283713936805725,
+      "learning_rate": 9.872135102533173e-06,
+      "loss": 1.0691,
+      "step": 2200
+    },
+    {
+      "epoch": 0.530097773589351,
+      "grad_norm": 1.5060367584228516,
+      "learning_rate": 9.630880579010857e-06,
+      "loss": 1.0622,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5418777241135587,
+      "grad_norm": 1.7280113697052002,
+      "learning_rate": 9.38962605548854e-06,
+      "loss": 1.0568,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5536576746377665,
+      "grad_norm": 1.4609959125518799,
+      "learning_rate": 9.148371531966225e-06,
+      "loss": 1.0405,
+      "step": 2350
+    },
+    {
+      "epoch": 0.5654376251619743,
+      "grad_norm": 1.46717369556427,
+      "learning_rate": 8.90711700844391e-06,
+      "loss": 1.087,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5772175756861821,
+      "grad_norm": 1.513267159461975,
+      "learning_rate": 8.665862484921594e-06,
+      "loss": 1.0413,
+      "step": 2450
+    },
+    {
+      "epoch": 0.5889975262103899,
+      "grad_norm": 1.4865115880966187,
+      "learning_rate": 8.424607961399276e-06,
+      "loss": 1.0488,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6007774767345977,
+      "grad_norm": 1.6761298179626465,
+      "learning_rate": 8.18335343787696e-06,
+      "loss": 1.0709,
+      "step": 2550
+    },
+    {
+      "epoch": 0.6125574272588055,
+      "grad_norm": 1.3326189517974854,
+      "learning_rate": 7.942098914354644e-06,
+      "loss": 1.0548,
+      "step": 2600
+    },
+    {
+      "epoch": 0.6243373777830133,
+      "grad_norm": 1.6205568313598633,
+      "learning_rate": 7.700844390832328e-06,
+      "loss": 1.0557,
+      "step": 2650
+    },
+    {
+      "epoch": 0.6361173283072211,
+      "grad_norm": 1.7094571590423584,
+      "learning_rate": 7.4595898673100135e-06,
+      "loss": 1.0392,
+      "step": 2700
+    },
+    {
+      "epoch": 0.6478972788314289,
+      "grad_norm": 1.4315111637115479,
+      "learning_rate": 7.2183353437876966e-06,
+      "loss": 1.0542,
+      "step": 2750
+    },
+    {
+      "epoch": 0.6596772293556367,
+      "grad_norm": 1.6000643968582153,
+      "learning_rate": 6.9770808202653805e-06,
+      "loss": 1.0567,
+      "step": 2800
+    },
+    {
+      "epoch": 0.6714571798798445,
+      "grad_norm": 1.821889877319336,
+      "learning_rate": 6.735826296743064e-06,
+      "loss": 1.0469,
+      "step": 2850
+    },
+    {
+      "epoch": 0.6832371304040523,
+      "grad_norm": 1.4687271118164062,
+      "learning_rate": 6.494571773220748e-06,
+      "loss": 1.0614,
+      "step": 2900
+    },
+    {
+      "epoch": 0.6950170809282601,
+      "grad_norm": 1.4694554805755615,
+      "learning_rate": 6.253317249698433e-06,
+      "loss": 1.0456,
+      "step": 2950
+    },
+    {
+      "epoch": 0.7067970314524679,
+      "grad_norm": 1.5050467252731323,
+      "learning_rate": 6.012062726176117e-06,
+      "loss": 1.0649,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7185769819766757,
+      "grad_norm": 1.3030104637145996,
+      "learning_rate": 5.770808202653801e-06,
+      "loss": 1.049,
+      "step": 3050
+    },
+    {
+      "epoch": 0.7303569325008835,
+      "grad_norm": 1.426845669746399,
+      "learning_rate": 5.529553679131484e-06,
+      "loss": 1.064,
+      "step": 3100
+    },
+    {
+      "epoch": 0.7421368830250913,
+      "grad_norm": 1.4176698923110962,
+      "learning_rate": 5.288299155609168e-06,
+      "loss": 1.0423,
+      "step": 3150
+    },
+    {
+      "epoch": 0.7539168335492991,
+      "grad_norm": 1.7557893991470337,
+      "learning_rate": 5.047044632086852e-06,
+      "loss": 1.047,
+      "step": 3200
+    },
+    {
+      "epoch": 0.7656967840735069,
+      "grad_norm": 1.4390746355056763,
+      "learning_rate": 4.8057901085645355e-06,
+      "loss": 1.0585,
+      "step": 3250
+    },
+    {
+      "epoch": 0.7774767345977147,
+      "grad_norm": 1.5117220878601074,
+      "learning_rate": 4.56453558504222e-06,
+      "loss": 1.0498,
+      "step": 3300
+    },
+    {
+      "epoch": 0.7892566851219225,
+      "grad_norm": 1.2958707809448242,
+      "learning_rate": 4.323281061519904e-06,
+      "loss": 1.0385,
+      "step": 3350
+    },
+    {
+      "epoch": 0.8010366356461303,
+      "grad_norm": 1.5557655096054077,
+      "learning_rate": 4.082026537997588e-06,
+      "loss": 1.059,
+      "step": 3400
+    },
+    {
+      "epoch": 0.8128165861703381,
+      "grad_norm": 1.4961349964141846,
+      "learning_rate": 3.840772014475272e-06,
+      "loss": 1.0299,
+      "step": 3450
+    },
+    {
+      "epoch": 0.8245965366945459,
+      "grad_norm": 1.2806799411773682,
+      "learning_rate": 3.599517490952956e-06,
+      "loss": 1.0688,
+      "step": 3500
+    },
+    {
+      "epoch": 0.8363764872187537,
+      "grad_norm": 1.4575563669204712,
+      "learning_rate": 3.3582629674306393e-06,
+      "loss": 1.0623,
+      "step": 3550
+    },
+    {
+      "epoch": 0.8481564377429615,
+      "grad_norm": 1.2596416473388672,
+      "learning_rate": 3.1170084439083236e-06,
+      "loss": 1.0534,
+      "step": 3600
+    },
+    {
+      "epoch": 0.8599363882671692,
+      "grad_norm": 1.479817509651184,
+      "learning_rate": 2.8757539203860075e-06,
+      "loss": 1.043,
+      "step": 3650
+    },
+    {
+      "epoch": 0.8717163387913771,
+      "grad_norm": 1.3471312522888184,
+      "learning_rate": 2.634499396863691e-06,
+      "loss": 1.0453,
+      "step": 3700
+    },
+    {
+      "epoch": 0.8834962893155849,
+      "grad_norm": 1.2828015089035034,
+      "learning_rate": 2.3932448733413753e-06,
+      "loss": 1.0441,
+      "step": 3750
+    },
+    {
+      "epoch": 0.8952762398397927,
+      "grad_norm": 1.610693097114563,
+      "learning_rate": 2.151990349819059e-06,
+      "loss": 1.0739,
+      "step": 3800
+    },
+    {
+      "epoch": 0.9070561903640004,
+      "grad_norm": 1.4694626331329346,
+      "learning_rate": 1.910735826296743e-06,
+      "loss": 1.0341,
+      "step": 3850
+    },
+    {
+      "epoch": 0.9188361408882083,
+      "grad_norm": 1.4196053743362427,
+      "learning_rate": 1.6694813027744272e-06,
+      "loss": 1.0441,
+      "step": 3900
+    },
+    {
+      "epoch": 0.9306160914124161,
+      "grad_norm": 1.558480978012085,
+      "learning_rate": 1.4282267792521113e-06,
+      "loss": 1.0646,
+      "step": 3950
+    },
+    {
+      "epoch": 0.9423960419366239,
+      "grad_norm": 1.602553129196167,
+      "learning_rate": 1.186972255729795e-06,
+      "loss": 1.061,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9541759924608316,
+      "grad_norm": 1.4343607425689697,
+      "learning_rate": 9.45717732207479e-07,
+      "loss": 1.0353,
+      "step": 4050
+    },
+    {
+      "epoch": 0.9659559429850395,
+      "grad_norm": 1.1924039125442505,
+      "learning_rate": 7.044632086851629e-07,
+      "loss": 1.0412,
+      "step": 4100
+    },
+    {
+      "epoch": 0.9777358935092473,
+      "grad_norm": 1.7164132595062256,
+      "learning_rate": 4.6320868516284687e-07,
+      "loss": 1.0474,
+      "step": 4150
+    },
+    {
+      "epoch": 0.989515844033455,
+      "grad_norm": 1.4795231819152832,
+      "learning_rate": 2.2195416164053077e-07,
+      "loss": 1.0529,
+      "step": 4200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 4245,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 2000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3934530267184512.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4245/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57f20a3b02b00239ae2899f66eebf8dcf57fa94f04a1164c46967c63200582c3
+size 5777

checkpoint-4245/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 576,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 9,
+  "num_hidden_layers": 30,
+  "num_key_value_heads": 3,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "vocab_size": 49152
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "max_new_tokens": 40,
+  "pad_token_id": 2,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c216ce7fbb29c7f41e1988417a0ff9726e921168b125239c8eabf255c5949258
+size 538090408