Lorry0727 commited on Jun 13, 2025

Commit

3e201dd

verified ·

1 Parent(s): 006bae1

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
README.md +61 -0
added_tokens.json +5 -0
all_results.json +8 -0
chat_template.jinja +6 -0
config.json +29 -0
generation_config.json +6 -0
merges.txt +0 -0
model.safetensors +3 -0
runs/Jun05_16-20-01_a800/events.out.tfevents.1749140416.a800 +3 -0
runs/Jun05_16-31-58_a800/events.out.tfevents.1749141132.a800 +3 -0
special_tokens_map.json +20 -0
tokenizer.json +3 -0
tokenizer_config.json +44 -0
train_results.json +8 -0
trainer_log.jsonl +40 -0
trainer_state.json +316 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen2-Math-1.5B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: sft
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# sft
+This model is a fine-tuned version of [Qwen/Qwen2-Math-1.5B](https://huggingface.co/Qwen/Qwen2-Math-1.5B) on the [meta-math/MetaMathQA](https://huggingface.co/datasets/meta-math/MetaMathQA) 50K random selected dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- total_eval_batch_size: 32
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.52.4
+- Pytorch 2.7.1+cu126
+- Datasets 3.6.0
+- Tokenizers 0.21.1

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "total_flos": 24007129694208.0,
+    "train_loss": 0.18847447641365364,
+    "train_runtime": 1067.9437,
+    "train_samples_per_second": 46.819,
+    "train_steps_per_second": 0.366
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,6 @@

+{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system
+You are a helpful assistant<|im_end|>
+' }}{% endif %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 1536,
+  "initializer_range": 0.02,
+  "intermediate_size": 8960,
+  "max_position_embeddings": 4096,
+  "max_window_layers": 21,
+  "model_type": "qwen2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "sliding_window": 32768,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.52.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b80bddb2b1100803e73bd13b1405e04ed80f6c70b42b3d6ef4c296f56f47810
+size 3087467144

runs/Jun05_16-20-01_a800/events.out.tfevents.1749140416.a800 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bec90c3c46eba3b46098db51bf75c94707dde729f3d349d04952a98fbbe393c
+size 9331

runs/Jun05_16-31-58_a800/events.out.tfevents.1749141132.a800 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a8f1db1fb65739143475e08a5ab820ffe6ceeb610b009c0eddee2b8bb5786ec
+size 13906

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcfe42da0a4497e8b2b172c1f9f4ec423a46dc12907f4349c55025f670422ba9
+size 11418266

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "total_flos": 24007129694208.0,
+    "train_loss": 0.18847447641365364,
+    "train_runtime": 1067.9437,
+    "train_samples_per_second": 46.819,
+    "train_steps_per_second": 0.366
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,40 @@

+{"current_steps": 10, "total_steps": 391, "loss": 0.5442, "lr": 2.25e-06, "epoch": 0.02557544757033248, "percentage": 2.56, "elapsed_time": "0:00:31", "remaining_time": "0:20:00"}
+{"current_steps": 20, "total_steps": 391, "loss": 0.4196, "lr": 4.75e-06, "epoch": 0.05115089514066496, "percentage": 5.12, "elapsed_time": "0:00:56", "remaining_time": "0:17:28"}
+{"current_steps": 30, "total_steps": 391, "loss": 0.2928, "lr": 7.25e-06, "epoch": 0.07672634271099744, "percentage": 7.67, "elapsed_time": "0:01:22", "remaining_time": "0:16:31"}
+{"current_steps": 40, "total_steps": 391, "loss": 0.2508, "lr": 9.75e-06, "epoch": 0.10230179028132992, "percentage": 10.23, "elapsed_time": "0:01:48", "remaining_time": "0:15:53"}
+{"current_steps": 50, "total_steps": 391, "loss": 0.2316, "lr": 9.983786540671052e-06, "epoch": 0.1278772378516624, "percentage": 12.79, "elapsed_time": "0:02:15", "remaining_time": "0:15:22"}
+{"current_steps": 60, "total_steps": 391, "loss": 0.2198, "lr": 9.927874998629714e-06, "epoch": 0.1534526854219949, "percentage": 15.35, "elapsed_time": "0:02:41", "remaining_time": "0:14:50"}
+{"current_steps": 70, "total_steps": 391, "loss": 0.2047, "lr": 9.83251270794707e-06, "epoch": 0.17902813299232737, "percentage": 17.9, "elapsed_time": "0:03:07", "remaining_time": "0:14:17"}
+{"current_steps": 80, "total_steps": 391, "loss": 0.2058, "lr": 9.698463103929542e-06, "epoch": 0.20460358056265984, "percentage": 20.46, "elapsed_time": "0:03:34", "remaining_time": "0:13:52"}
+{"current_steps": 90, "total_steps": 391, "loss": 0.1903, "lr": 9.526799338236828e-06, "epoch": 0.23017902813299232, "percentage": 23.02, "elapsed_time": "0:03:59", "remaining_time": "0:13:21"}
+{"current_steps": 100, "total_steps": 391, "loss": 0.1835, "lr": 9.318895687625752e-06, "epoch": 0.2557544757033248, "percentage": 25.58, "elapsed_time": "0:04:26", "remaining_time": "0:12:54"}
+{"current_steps": 110, "total_steps": 391, "loss": 0.1774, "lr": 9.076416551997721e-06, "epoch": 0.2813299232736573, "percentage": 28.13, "elapsed_time": "0:04:51", "remaining_time": "0:12:25"}
+{"current_steps": 120, "total_steps": 391, "loss": 0.175, "lr": 8.801303129827352e-06, "epoch": 0.3069053708439898, "percentage": 30.69, "elapsed_time": "0:05:19", "remaining_time": "0:12:00"}
+{"current_steps": 130, "total_steps": 391, "loss": 0.1688, "lr": 8.495757877643857e-06, "epoch": 0.33248081841432225, "percentage": 33.25, "elapsed_time": "0:05:47", "remaining_time": "0:11:37"}
+{"current_steps": 140, "total_steps": 391, "loss": 0.1679, "lr": 8.162226877976886e-06, "epoch": 0.35805626598465473, "percentage": 35.81, "elapsed_time": "0:06:12", "remaining_time": "0:11:08"}
+{"current_steps": 150, "total_steps": 391, "loss": 0.1659, "lr": 7.803380256922495e-06, "epoch": 0.3836317135549872, "percentage": 38.36, "elapsed_time": "0:06:38", "remaining_time": "0:10:39"}
+{"current_steps": 160, "total_steps": 391, "loss": 0.1614, "lr": 7.422090808099014e-06, "epoch": 0.4092071611253197, "percentage": 40.92, "elapsed_time": "0:07:02", "remaining_time": "0:10:10"}
+{"current_steps": 170, "total_steps": 391, "loss": 0.1658, "lr": 7.021410994121525e-06, "epoch": 0.43478260869565216, "percentage": 43.48, "elapsed_time": "0:07:32", "remaining_time": "0:09:48"}
+{"current_steps": 180, "total_steps": 391, "loss": 0.162, "lr": 6.6045485097126585e-06, "epoch": 0.46035805626598464, "percentage": 46.04, "elapsed_time": "0:07:59", "remaining_time": "0:09:21"}
+{"current_steps": 190, "total_steps": 391, "loss": 0.1603, "lr": 6.1748406020824115e-06, "epoch": 0.4859335038363171, "percentage": 48.59, "elapsed_time": "0:08:28", "remaining_time": "0:08:57"}
+{"current_steps": 200, "total_steps": 391, "loss": 0.1607, "lr": 5.735727354158581e-06, "epoch": 0.5115089514066496, "percentage": 51.15, "elapsed_time": "0:08:54", "remaining_time": "0:08:29"}
+{"current_steps": 210, "total_steps": 391, "loss": 0.1566, "lr": 5.290724144552379e-06, "epoch": 0.5370843989769821, "percentage": 53.71, "elapsed_time": "0:09:22", "remaining_time": "0:08:04"}
+{"current_steps": 220, "total_steps": 391, "loss": 0.1617, "lr": 4.8433935047346e-06, "epoch": 0.5626598465473146, "percentage": 56.27, "elapsed_time": "0:09:50", "remaining_time": "0:07:39"}
+{"current_steps": 230, "total_steps": 391, "loss": 0.1577, "lr": 4.397316598723385e-06, "epoch": 0.5882352941176471, "percentage": 58.82, "elapsed_time": "0:10:15", "remaining_time": "0:07:10"}
+{"current_steps": 240, "total_steps": 391, "loss": 0.1595, "lr": 3.956064553606708e-06, "epoch": 0.6138107416879796, "percentage": 61.38, "elapsed_time": "0:10:41", "remaining_time": "0:06:43"}
+{"current_steps": 250, "total_steps": 391, "loss": 0.154, "lr": 3.523169870416795e-06, "epoch": 0.639386189258312, "percentage": 63.94, "elapsed_time": "0:11:09", "remaining_time": "0:06:17"}
+{"current_steps": 260, "total_steps": 391, "loss": 0.1531, "lr": 3.1020981442305187e-06, "epoch": 0.6649616368286445, "percentage": 66.5, "elapsed_time": "0:11:36", "remaining_time": "0:05:50"}
+{"current_steps": 270, "total_steps": 391, "loss": 0.1579, "lr": 2.6962203198941587e-06, "epoch": 0.690537084398977, "percentage": 69.05, "elapsed_time": "0:12:01", "remaining_time": "0:05:23"}
+{"current_steps": 280, "total_steps": 391, "loss": 0.1586, "lr": 2.308785705482982e-06, "epoch": 0.7161125319693095, "percentage": 71.61, "elapsed_time": "0:12:25", "remaining_time": "0:04:55"}
+{"current_steps": 290, "total_steps": 391, "loss": 0.1575, "lr": 1.942895959539939e-06, "epoch": 0.7416879795396419, "percentage": 74.17, "elapsed_time": "0:12:52", "remaining_time": "0:04:28"}
+{"current_steps": 300, "total_steps": 391, "loss": 0.1553, "lr": 1.6014802603420044e-06, "epoch": 0.7672634271099744, "percentage": 76.73, "elapsed_time": "0:13:22", "remaining_time": "0:04:03"}
+{"current_steps": 310, "total_steps": 391, "loss": 0.1532, "lr": 1.2872718559798852e-06, "epoch": 0.7928388746803069, "percentage": 79.28, "elapsed_time": "0:13:47", "remaining_time": "0:03:36"}
+{"current_steps": 320, "total_steps": 391, "loss": 0.1562, "lr": 1.0027861829824953e-06, "epoch": 0.8184143222506394, "percentage": 81.84, "elapsed_time": "0:14:12", "remaining_time": "0:03:09"}
+{"current_steps": 330, "total_steps": 391, "loss": 0.155, "lr": 7.50300728660407e-07, "epoch": 0.8439897698209718, "percentage": 84.4, "elapsed_time": "0:14:38", "remaining_time": "0:02:42"}
+{"current_steps": 340, "total_steps": 391, "loss": 0.1523, "lr": 5.318367983829393e-07, "epoch": 0.8695652173913043, "percentage": 86.96, "elapsed_time": "0:15:07", "remaining_time": "0:02:16"}
+{"current_steps": 350, "total_steps": 391, "loss": 0.1521, "lr": 3.49143333753309e-07, "epoch": 0.8951406649616368, "percentage": 89.51, "elapsed_time": "0:15:32", "remaining_time": "0:01:49"}
+{"current_steps": 360, "total_steps": 391, "loss": 0.1523, "lr": 2.0368291122759898e-07, "epoch": 0.9207161125319693, "percentage": 92.07, "elapsed_time": "0:15:59", "remaining_time": "0:01:22"}
+{"current_steps": 370, "total_steps": 391, "loss": 0.1514, "lr": 9.662003326740166e-08, "epoch": 0.9462915601023018, "percentage": 94.63, "elapsed_time": "0:16:27", "remaining_time": "0:00:56"}
+{"current_steps": 380, "total_steps": 391, "loss": 0.1501, "lr": 2.8811805762860578e-08, "epoch": 0.9718670076726342, "percentage": 97.19, "elapsed_time": "0:16:55", "remaining_time": "0:00:29"}
+{"current_steps": 390, "total_steps": 391, "loss": 0.152, "lr": 8.010763592264381e-10, "epoch": 0.9974424552429667, "percentage": 99.74, "elapsed_time": "0:17:19", "remaining_time": "0:00:02"}
+{"current_steps": 391, "total_steps": 391, "epoch": 1.0, "percentage": 100.0, "elapsed_time": "0:17:49", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,316 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 391,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02557544757033248,
+      "grad_norm": 5.1979091027844655,
+      "learning_rate": 2.25e-06,
+      "loss": 0.5442,
+      "step": 10
+    },
+    {
+      "epoch": 0.05115089514066496,
+      "grad_norm": 1.555199471497413,
+      "learning_rate": 4.75e-06,
+      "loss": 0.4196,
+      "step": 20
+    },
+    {
+      "epoch": 0.07672634271099744,
+      "grad_norm": 0.8843964610571793,
+      "learning_rate": 7.25e-06,
+      "loss": 0.2928,
+      "step": 30
+    },
+    {
+      "epoch": 0.10230179028132992,
+      "grad_norm": 0.9254467392549297,
+      "learning_rate": 9.75e-06,
+      "loss": 0.2508,
+      "step": 40
+    },
+    {
+      "epoch": 0.1278772378516624,
+      "grad_norm": 0.9595475930941818,
+      "learning_rate": 9.983786540671052e-06,
+      "loss": 0.2316,
+      "step": 50
+    },
+    {
+      "epoch": 0.1534526854219949,
+      "grad_norm": 0.8734055150087038,
+      "learning_rate": 9.927874998629714e-06,
+      "loss": 0.2198,
+      "step": 60
+    },
+    {
+      "epoch": 0.17902813299232737,
+      "grad_norm": 0.8904948291987135,
+      "learning_rate": 9.83251270794707e-06,
+      "loss": 0.2047,
+      "step": 70
+    },
+    {
+      "epoch": 0.20460358056265984,
+      "grad_norm": 0.8941187964853939,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 0.2058,
+      "step": 80
+    },
+    {
+      "epoch": 0.23017902813299232,
+      "grad_norm": 0.8232662082320363,
+      "learning_rate": 9.526799338236828e-06,
+      "loss": 0.1903,
+      "step": 90
+    },
+    {
+      "epoch": 0.2557544757033248,
+      "grad_norm": 0.8507117163294342,
+      "learning_rate": 9.318895687625752e-06,
+      "loss": 0.1835,
+      "step": 100
+    },
+    {
+      "epoch": 0.2813299232736573,
+      "grad_norm": 0.7198977204875759,
+      "learning_rate": 9.076416551997721e-06,
+      "loss": 0.1774,
+      "step": 110
+    },
+    {
+      "epoch": 0.3069053708439898,
+      "grad_norm": 0.6072199252093429,
+      "learning_rate": 8.801303129827352e-06,
+      "loss": 0.175,
+      "step": 120
+    },
+    {
+      "epoch": 0.33248081841432225,
+      "grad_norm": 0.552937855243384,
+      "learning_rate": 8.495757877643857e-06,
+      "loss": 0.1688,
+      "step": 130
+    },
+    {
+      "epoch": 0.35805626598465473,
+      "grad_norm": 0.5078356984647172,
+      "learning_rate": 8.162226877976886e-06,
+      "loss": 0.1679,
+      "step": 140
+    },
+    {
+      "epoch": 0.3836317135549872,
+      "grad_norm": 0.4569791962942034,
+      "learning_rate": 7.803380256922495e-06,
+      "loss": 0.1659,
+      "step": 150
+    },
+    {
+      "epoch": 0.4092071611253197,
+      "grad_norm": 0.43754448097194093,
+      "learning_rate": 7.422090808099014e-06,
+      "loss": 0.1614,
+      "step": 160
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 0.3965482560875204,
+      "learning_rate": 7.021410994121525e-06,
+      "loss": 0.1658,
+      "step": 170
+    },
+    {
+      "epoch": 0.46035805626598464,
+      "grad_norm": 0.40365524431178995,
+      "learning_rate": 6.6045485097126585e-06,
+      "loss": 0.162,
+      "step": 180
+    },
+    {
+      "epoch": 0.4859335038363171,
+      "grad_norm": 0.38726639073470187,
+      "learning_rate": 6.1748406020824115e-06,
+      "loss": 0.1603,
+      "step": 190
+    },
+    {
+      "epoch": 0.5115089514066496,
+      "grad_norm": 0.3760876442217351,
+      "learning_rate": 5.735727354158581e-06,
+      "loss": 0.1607,
+      "step": 200
+    },
+    {
+      "epoch": 0.5370843989769821,
+      "grad_norm": 0.3698546651087282,
+      "learning_rate": 5.290724144552379e-06,
+      "loss": 0.1566,
+      "step": 210
+    },
+    {
+      "epoch": 0.5626598465473146,
+      "grad_norm": 0.378775457895615,
+      "learning_rate": 4.8433935047346e-06,
+      "loss": 0.1617,
+      "step": 220
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.37700547911055976,
+      "learning_rate": 4.397316598723385e-06,
+      "loss": 0.1577,
+      "step": 230
+    },
+    {
+      "epoch": 0.6138107416879796,
+      "grad_norm": 0.34954174520163833,
+      "learning_rate": 3.956064553606708e-06,
+      "loss": 0.1595,
+      "step": 240
+    },
+    {
+      "epoch": 0.639386189258312,
+      "grad_norm": 0.357317340726361,
+      "learning_rate": 3.523169870416795e-06,
+      "loss": 0.154,
+      "step": 250
+    },
+    {
+      "epoch": 0.6649616368286445,
+      "grad_norm": 0.3684051566901591,
+      "learning_rate": 3.1020981442305187e-06,
+      "loss": 0.1531,
+      "step": 260
+    },
+    {
+      "epoch": 0.690537084398977,
+      "grad_norm": 0.3895498086957201,
+      "learning_rate": 2.6962203198941587e-06,
+      "loss": 0.1579,
+      "step": 270
+    },
+    {
+      "epoch": 0.7161125319693095,
+      "grad_norm": 0.3731438076456078,
+      "learning_rate": 2.308785705482982e-06,
+      "loss": 0.1586,
+      "step": 280
+    },
+    {
+      "epoch": 0.7416879795396419,
+      "grad_norm": 0.41906481058101075,
+      "learning_rate": 1.942895959539939e-06,
+      "loss": 0.1575,
+      "step": 290
+    },
+    {
+      "epoch": 0.7672634271099744,
+      "grad_norm": 0.3896314041500002,
+      "learning_rate": 1.6014802603420044e-06,
+      "loss": 0.1553,
+      "step": 300
+    },
+    {
+      "epoch": 0.7928388746803069,
+      "grad_norm": 0.385720584527069,
+      "learning_rate": 1.2872718559798852e-06,
+      "loss": 0.1532,
+      "step": 310
+    },
+    {
+      "epoch": 0.8184143222506394,
+      "grad_norm": 0.32351933058141824,
+      "learning_rate": 1.0027861829824953e-06,
+      "loss": 0.1562,
+      "step": 320
+    },
+    {
+      "epoch": 0.8439897698209718,
+      "grad_norm": 0.3670621953960731,
+      "learning_rate": 7.50300728660407e-07,
+      "loss": 0.155,
+      "step": 330
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 0.3829568746421653,
+      "learning_rate": 5.318367983829393e-07,
+      "loss": 0.1523,
+      "step": 340
+    },
+    {
+      "epoch": 0.8951406649616368,
+      "grad_norm": 0.3775945531822611,
+      "learning_rate": 3.49143333753309e-07,
+      "loss": 0.1521,
+      "step": 350
+    },
+    {
+      "epoch": 0.9207161125319693,
+      "grad_norm": 0.36031263149371584,
+      "learning_rate": 2.0368291122759898e-07,
+      "loss": 0.1523,
+      "step": 360
+    },
+    {
+      "epoch": 0.9462915601023018,
+      "grad_norm": 0.3348863130660584,
+      "learning_rate": 9.662003326740166e-08,
+      "loss": 0.1514,
+      "step": 370
+    },
+    {
+      "epoch": 0.9718670076726342,
+      "grad_norm": 0.360326022397128,
+      "learning_rate": 2.8811805762860578e-08,
+      "loss": 0.1501,
+      "step": 380
+    },
+    {
+      "epoch": 0.9974424552429667,
+      "grad_norm": 0.37241654765357973,
+      "learning_rate": 8.010763592264381e-10,
+      "loss": 0.152,
+      "step": 390
+    },
+    {
+      "epoch": 1.0,
+      "step": 391,
+      "total_flos": 24007129694208.0,
+      "train_loss": 0.18847447641365364,
+      "train_runtime": 1067.9437,
+      "train_samples_per_second": 46.819,
+      "train_steps_per_second": 0.366
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 391,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 24007129694208.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c95d9ece093116d8e3ae93ffc96a4f1e139a0964f50940249d7df0d4fefc873
+size 7953

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff