finalform commited on Jul 31, 2025

Commit

116c5a7

verified ·

1 Parent(s): a950342

Upload folder using huggingface_hub

Browse files

Files changed (35) hide show

.gitattributes +1 -0
README.md +26 -13
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +11 -10
chat_template.jinja +89 -0
checkpoint-384/README.md +202 -0
checkpoint-384/adapter_config.json +39 -0
checkpoint-384/adapter_model.safetensors +3 -0
checkpoint-384/added_tokens.json +28 -0
checkpoint-384/chat_template.jinja +89 -0
checkpoint-384/merges.txt +0 -0
checkpoint-384/optimizer.pt +3 -0
checkpoint-384/rng_state_0.pth +3 -0
checkpoint-384/rng_state_1.pth +3 -0
checkpoint-384/rng_state_2.pth +3 -0
checkpoint-384/rng_state_3.pth +3 -0
checkpoint-384/scheduler.pt +3 -0
checkpoint-384/special_tokens_map.json +31 -0
checkpoint-384/tokenizer.json +3 -0
checkpoint-384/tokenizer_config.json +240 -0
checkpoint-384/trainer_state.json +399 -0
checkpoint-384/training_args.bin +3 -0
checkpoint-384/vocab.json +0 -0
eval_results.json +6 -5
runs/Jul31_04-37-52_104-171-202-123/events.out.tfevents.1753936842.104-171-202-123.11452.0 +3 -0
runs/Jul31_04-37-52_104-171-202-123/events.out.tfevents.1753939703.104-171-202-123.11452.1 +3 -0
tokenizer_config.json +0 -1
train_results.json +6 -6
trainer_log.jsonl +51 -27
trainer_state.json +311 -121
training_args.bin +1 -1
training_eval_accuracy.png +0 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-246/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-246/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-384/tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -6,6 +6,8 @@ tags:
 - llama-factory
 - lora
 - generated_from_trainer
 model-index:
 - name: factory_qwen_results
   results: []
@@ -18,7 +20,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the train dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2394
 ## Model description
@@ -37,32 +40,42 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0003
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 3
 - gradient_accumulation_steps: 4
-- total_train_batch_size: 24
-- total_eval_batch_size: 6
-- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
-- num_epochs: 6.0
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 0.1949        | 2.3832 | 100  | 0.2576          |
-| 0.0946        | 4.7665 | 200  | 0.2338          |
 ### Framework versions
 - PEFT 0.15.2
-- Transformers 4.51.3
-- Pytorch 2.7.1+cu126
 - Datasets 3.6.0
 - Tokenizers 0.21.1

 - llama-factory
 - lora
 - generated_from_trainer
+metrics:
+- accuracy
 model-index:
 - name: factory_qwen_results
   results: []
 This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the train dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2565
+- Accuracy: 0.9462
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
 - train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
+- num_devices: 4
 - gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 12.0
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 0.4881        | 1.0   | 32   | 0.4397          | 0.8944   |
+| 0.338         | 2.0   | 64   | 0.3506          | 0.9138   |
+| 0.3097        | 3.0   | 96   | 0.3098          | 0.9230   |
+| 0.293         | 4.0   | 128  | 0.2800          | 0.9310   |
+| 0.202         | 5.0   | 160  | 0.2604          | 0.9357   |
+| 0.1846        | 6.0   | 192  | 0.2504          | 0.9395   |
+| 0.1536        | 7.0   | 224  | 0.2461          | 0.9422   |
+| 0.1484        | 8.0   | 256  | 0.2469          | 0.9449   |
+| 0.1132        | 9.0   | 288  | 0.2507          | 0.9459   |
+| 0.0924        | 10.0  | 320  | 0.2528          | 0.9459   |
+| 0.097         | 11.0  | 352  | 0.2561          | 0.9462   |
+| 0.1146        | 12.0  | 384  | 0.2565          | 0.9462   |
 ### Framework versions
 - PEFT 0.15.2
+- Transformers 4.52.4
+- Pytorch 2.7.0
 - Datasets 3.6.0
 - Tokenizers 0.21.1

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "up_proj",
-    "v_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
     "o_proj",
+    "k_proj",
     "up_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d97be992dadf51a5cd4fa96619aa91d19b561ff185c3ad7a25a93f08b79d979d
 size 349243752

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd57f85cfd0f5c6cd87305892b38484c1b8778a2f03c65c648efe0f5fa9b2568
 size 349243752

all_results.json CHANGED Viewed

@@ -1,12 +1,13 @@
 {
-    "epoch": 5.862275449101796,
-    "eval_loss": 0.23942436277866364,
-    "eval_runtime": 29.5831,
-    "eval_samples_per_second": 13.014,
-    "eval_steps_per_second": 2.197,
-    "total_flos": 2.145141677495419e+17,
-    "train_loss": 0.2387894634308854,
-    "train_runtime": 1711.2145,
-    "train_samples_per_second": 3.506,
-    "train_steps_per_second": 0.144
 }

 {
+    "epoch": 12.0,
+    "eval_accuracy": 0.9461611343879004,
+    "eval_loss": 0.2565154731273651,
+    "eval_runtime": 23.1024,
+    "eval_samples_per_second": 16.665,
+    "eval_steps_per_second": 2.121,
+    "total_flos": 4.38485641689301e+17,
+    "train_loss": 0.24724087212234735,
+    "train_runtime": 2839.5296,
+    "train_samples_per_second": 4.226,
+    "train_steps_per_second": 0.135
 }

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

checkpoint-384/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: Qwen/Qwen3-8B
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.15.2

checkpoint-384/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen3-8B",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj",
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-384/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd57f85cfd0f5c6cd87305892b38484c1b8778a2f03c65c648efe0f5fa9b2568
+size 349243752

checkpoint-384/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-384/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

checkpoint-384/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-384/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db17b26273ca647e990f2225a58162535538446d2fc29bf7705f4feddf8dff32
+size 698777675

checkpoint-384/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90d10bde53947b2a9392f22798aa3397b1c10dfb7b320575f243df389736190c
+size 15429

checkpoint-384/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82808d152cd33b0cb407b51dad2dfefeaa18a575cf127a42aaddf523ab713449
+size 15429

checkpoint-384/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:956b150206931807c119dc053b34ee1b92ddd535ded9a5d6a5906ab88a857d4e
+size 15429

checkpoint-384/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2335ab5a5c723b1c098ce80d97fe0151d15f7192a43b05befd9b5c7353853f32
+size 15429

checkpoint-384/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5a97a03f3528bb3a0af02c4c39c5c7ebf87edeb9eb4a864e242a63e977e3ce1
+size 1465

checkpoint-384/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-384/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

checkpoint-384/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-384/trainer_state.json ADDED Viewed

	@@ -0,0 +1,399 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 12.0,
+  "eval_steps": 500,
+  "global_step": 384,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.5422136187553406,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.4075,
+      "step": 10
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.24980580806732178,
+      "learning_rate": 9.991265793145479e-05,
+      "loss": 0.8351,
+      "step": 20
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.1963978260755539,
+      "learning_rate": 9.948559446825412e-05,
+      "loss": 0.4881,
+      "step": 30
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8943875280150239,
+      "eval_loss": 0.439687579870224,
+      "eval_runtime": 23.0702,
+      "eval_samples_per_second": 16.688,
+      "eval_steps_per_second": 2.124,
+      "step": 32
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 0.12824280560016632,
+      "learning_rate": 9.870580739976935e-05,
+      "loss": 0.3822,
+      "step": 40
+    },
+    {
+      "epoch": 1.576,
+      "grad_norm": 0.13147476315498352,
+      "learning_rate": 9.757885489518297e-05,
+      "loss": 0.4258,
+      "step": 50
+    },
+    {
+      "epoch": 1.896,
+      "grad_norm": 0.12476492673158646,
+      "learning_rate": 9.611276965077099e-05,
+      "loss": 0.338,
+      "step": 60
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9137864356203533,
+      "eval_loss": 0.3505571186542511,
+      "eval_runtime": 23.0857,
+      "eval_samples_per_second": 16.677,
+      "eval_steps_per_second": 2.123,
+      "step": 64
+    },
+    {
+      "epoch": 2.192,
+      "grad_norm": 0.136331707239151,
+      "learning_rate": 9.431800163442041e-05,
+      "loss": 0.3284,
+      "step": 70
+    },
+    {
+      "epoch": 2.512,
+      "grad_norm": 0.15875931084156036,
+      "learning_rate": 9.220734360030907e-05,
+      "loss": 0.3177,
+      "step": 80
+    },
+    {
+      "epoch": 2.832,
+      "grad_norm": 0.20174619555473328,
+      "learning_rate": 8.979583990466454e-05,
+      "loss": 0.3097,
+      "step": 90
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9229765721615035,
+      "eval_loss": 0.3097846210002899,
+      "eval_runtime": 23.0998,
+      "eval_samples_per_second": 16.667,
+      "eval_steps_per_second": 2.121,
+      "step": 96
+    },
+    {
+      "epoch": 3.128,
+      "grad_norm": 0.16589179635047913,
+      "learning_rate": 8.710067927254555e-05,
+      "loss": 0.2869,
+      "step": 100
+    },
+    {
+      "epoch": 3.448,
+      "grad_norm": 0.2508234977722168,
+      "learning_rate": 8.414107227998329e-05,
+      "loss": 0.264,
+      "step": 110
+    },
+    {
+      "epoch": 3.768,
+      "grad_norm": 0.2155790477991104,
+      "learning_rate": 8.093811442476573e-05,
+      "loss": 0.293,
+      "step": 120
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9309821545048526,
+      "eval_loss": 0.2800418436527252,
+      "eval_runtime": 23.147,
+      "eval_samples_per_second": 16.633,
+      "eval_steps_per_second": 2.117,
+      "step": 128
+    },
+    {
+      "epoch": 4.064,
+      "grad_norm": 0.19977881014347076,
+      "learning_rate": 7.751463576186957e-05,
+      "loss": 0.2517,
+      "step": 130
+    },
+    {
+      "epoch": 4.384,
+      "grad_norm": 0.2274104505777359,
+      "learning_rate": 7.389503817530905e-05,
+      "loss": 0.2501,
+      "step": 140
+    },
+    {
+      "epoch": 4.704,
+      "grad_norm": 0.22418978810310364,
+      "learning_rate": 7.010512144629579e-05,
+      "loss": 0.2115,
+      "step": 150
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.43173882365226746,
+      "learning_rate": 6.61718993574619e-05,
+      "loss": 0.202,
+      "step": 160
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9356952198262245,
+      "eval_loss": 0.26041463017463684,
+      "eval_runtime": 23.1637,
+      "eval_samples_per_second": 16.621,
+      "eval_steps_per_second": 2.115,
+      "step": 160
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.22742323577404022,
+      "learning_rate": 6.2123407143919e-05,
+      "loss": 0.195,
+      "step": 170
+    },
+    {
+      "epoch": 5.64,
+      "grad_norm": 0.2773088812828064,
+      "learning_rate": 5.798850166360461e-05,
+      "loss": 0.2085,
+      "step": 180
+    },
+    {
+      "epoch": 5.96,
+      "grad_norm": 0.326659232378006,
+      "learning_rate": 5.379665571126231e-05,
+      "loss": 0.1846,
+      "step": 190
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9394547551491287,
+      "eval_loss": 0.250407874584198,
+      "eval_runtime": 23.1202,
+      "eval_samples_per_second": 16.652,
+      "eval_steps_per_second": 2.119,
+      "step": 192
+    },
+    {
+      "epoch": 6.256,
+      "grad_norm": 0.24400818347930908,
+      "learning_rate": 4.957774794214508e-05,
+      "loss": 0.1577,
+      "step": 200
+    },
+    {
+      "epoch": 6.576,
+      "grad_norm": 0.3049585819244385,
+      "learning_rate": 4.5361849902824674e-05,
+      "loss": 0.1718,
+      "step": 210
+    },
+    {
+      "epoch": 6.896,
+      "grad_norm": 0.2874772846698761,
+      "learning_rate": 4.117901168710959e-05,
+      "loss": 0.1536,
+      "step": 220
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9421747829656392,
+      "eval_loss": 0.24610178172588348,
+      "eval_runtime": 23.0966,
+      "eval_samples_per_second": 16.669,
+      "eval_steps_per_second": 2.122,
+      "step": 224
+    },
+    {
+      "epoch": 7.192,
+      "grad_norm": 0.24850666522979736,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.1252,
+      "step": 230
+    },
+    {
+      "epoch": 7.5120000000000005,
+      "grad_norm": 0.2970203459262848,
+      "learning_rate": 3.3031324370510394e-05,
+      "loss": 0.1358,
+      "step": 240
+    },
+    {
+      "epoch": 7.832,
+      "grad_norm": 0.28144457936286926,
+      "learning_rate": 2.9124550385746857e-05,
+      "loss": 0.1484,
+      "step": 250
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9448626884131439,
+      "eval_loss": 0.2468687891960144,
+      "eval_runtime": 23.1407,
+      "eval_samples_per_second": 16.637,
+      "eval_steps_per_second": 2.117,
+      "step": 256
+    },
+    {
+      "epoch": 8.128,
+      "grad_norm": 0.24285829067230225,
+      "learning_rate": 2.5366572508799886e-05,
+      "loss": 0.1295,
+      "step": 260
+    },
+    {
+      "epoch": 8.448,
+      "grad_norm": 0.24960064888000488,
+      "learning_rate": 2.1784176868432376e-05,
+      "loss": 0.1198,
+      "step": 270
+    },
+    {
+      "epoch": 8.768,
+      "grad_norm": 0.2702842354774475,
+      "learning_rate": 1.8402898077684804e-05,
+      "loss": 0.1132,
+      "step": 280
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9458956775395686,
+      "eval_loss": 0.2507466971874237,
+      "eval_runtime": 23.1364,
+      "eval_samples_per_second": 16.64,
+      "eval_steps_per_second": 2.118,
+      "step": 288
+    },
+    {
+      "epoch": 9.064,
+      "grad_norm": 0.2220270186662674,
+      "learning_rate": 1.5246837228164907e-05,
+      "loss": 0.1069,
+      "step": 290
+    },
+    {
+      "epoch": 9.384,
+      "grad_norm": 0.29468902945518494,
+      "learning_rate": 1.2338490102196825e-05,
+      "loss": 0.1192,
+      "step": 300
+    },
+    {
+      "epoch": 9.704,
+      "grad_norm": 0.26781126856803894,
+      "learning_rate": 9.69858682729976e-06,
+      "loss": 0.108,
+      "step": 310
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.3624833822250366,
+      "learning_rate": 7.345944115907422e-06,
+      "loss": 0.0924,
+      "step": 320
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9458588957449963,
+      "eval_loss": 0.2528049647808075,
+      "eval_runtime": 23.1153,
+      "eval_samples_per_second": 16.656,
+      "eval_steps_per_second": 2.12,
+      "step": 320
+    },
+    {
+      "epoch": 10.32,
+      "grad_norm": 0.27165377140045166,
+      "learning_rate": 5.2973311435349725e-06,
+      "loss": 0.1069,
+      "step": 330
+    },
+    {
+      "epoch": 10.64,
+      "grad_norm": 0.2682035267353058,
+      "learning_rate": 3.567350021386895e-06,
+      "loss": 0.1041,
+      "step": 340
+    },
+    {
+      "epoch": 10.96,
+      "grad_norm": 0.26564228534698486,
+      "learning_rate": 2.1683317153742776e-06,
+      "loss": 0.097,
+      "step": 350
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9461563024276883,
+      "eval_loss": 0.2560921013355255,
+      "eval_runtime": 23.0822,
+      "eval_samples_per_second": 16.68,
+      "eval_steps_per_second": 2.123,
+      "step": 352
+    },
+    {
+      "epoch": 11.256,
+      "grad_norm": 0.20978766679763794,
+      "learning_rate": 1.1102481534098374e-06,
+      "loss": 0.0765,
+      "step": 360
+    },
+    {
+      "epoch": 11.576,
+      "grad_norm": 0.21784260869026184,
+      "learning_rate": 4.006411474628491e-07,
+      "loss": 0.0933,
+      "step": 370
+    },
+    {
+      "epoch": 11.896,
+      "grad_norm": 0.2561984956264496,
+      "learning_rate": 4.456863700363356e-08,
+      "loss": 0.1146,
+      "step": 380
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 384,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.38485641689301e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-384/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ee030483225b3eb8f716972359663148b4219a065cd4b29cbd0a2e1298c15ee
+size 6097

checkpoint-384/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

eval_results.json CHANGED Viewed

@@ -1,7 +1,8 @@
 {
-    "epoch": 5.862275449101796,
-    "eval_loss": 0.23942436277866364,
-    "eval_runtime": 29.5831,
-    "eval_samples_per_second": 13.014,
-    "eval_steps_per_second": 2.197
 }

 {
+    "epoch": 12.0,
+    "eval_accuracy": 0.9461611343879004,
+    "eval_loss": 0.2565154731273651,
+    "eval_runtime": 23.1024,
+    "eval_samples_per_second": 16.665,
+    "eval_steps_per_second": 2.121
 }

runs/Jul31_04-37-52_104-171-202-123/events.out.tfevents.1753936842.104-171-202-123.11452.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6513028a6d0964ad7a76cf93e71cdb0400602feb448e0761a2a105b55846061
+size 17593

runs/Jul31_04-37-52_104-171-202-123/events.out.tfevents.1753939703.104-171-202-123.11452.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b2760c38da3c83b6ee94c8fa736b2594cb112882df1993f3bf7e50c53208f46
+size 411

tokenizer_config.json CHANGED Viewed

@@ -227,7 +227,6 @@
     "<|video_pad|>"
   ],
   "bos_token": null,
-  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if message.content is string %}\n        {%- set content = message.content %}\n    {%- else %}\n        {%- set content = '' %}\n    {%- endif %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",

     "<|video_pad|>"
   ],
   "bos_token": null,
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|im_end|>",
   "errors": "replace",

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.862275449101796,
-    "total_flos": 2.145141677495419e+17,
-    "train_loss": 0.2387894634308854,
-    "train_runtime": 1711.2145,
-    "train_samples_per_second": 3.506,
-    "train_steps_per_second": 0.144
 }

 {
+    "epoch": 12.0,
+    "total_flos": 4.38485641689301e+17,
+    "train_loss": 0.24724087212234735,
+    "train_runtime": 2839.5296,
+    "train_samples_per_second": 4.226,
+    "train_steps_per_second": 0.135
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,27 +1,51 @@
-{"current_steps": 10, "total_steps": 246, "loss": 1.1534, "lr": 0.0002999869322508616, "epoch": 0.23952095808383234, "percentage": 4.07, "elapsed_time": "0:01:06", "remaining_time": "0:26:16"}
-{"current_steps": 20, "total_steps": 246, "loss": 0.4765, "lr": 0.0002984215555086929, "epoch": 0.47904191616766467, "percentage": 8.13, "elapsed_time": "0:02:11", "remaining_time": "0:24:42"}
-{"current_steps": 30, "total_steps": 246, "loss": 0.3861, "lr": 0.00029427384647592284, "epoch": 0.718562874251497, "percentage": 12.2, "elapsed_time": "0:03:18", "remaining_time": "0:23:48"}
-{"current_steps": 40, "total_steps": 246, "loss": 0.3632, "lr": 0.0002876159696230734, "epoch": 0.9580838323353293, "percentage": 16.26, "elapsed_time": "0:04:25", "remaining_time": "0:22:49"}
-{"current_steps": 50, "total_steps": 246, "loss": 0.2959, "lr": 0.0002785637629113157, "epoch": 1.1916167664670658, "percentage": 20.33, "elapsed_time": "0:05:32", "remaining_time": "0:21:44"}
-{"current_steps": 60, "total_steps": 246, "loss": 0.2919, "lr": 0.00026727472237020447, "epoch": 1.4311377245508983, "percentage": 24.39, "elapsed_time": "0:06:39", "remaining_time": "0:20:39"}
-{"current_steps": 70, "total_steps": 246, "loss": 0.3124, "lr": 0.00025394526188193703, "epoch": 1.6706586826347305, "percentage": 28.46, "elapsed_time": "0:07:47", "remaining_time": "0:19:35"}
-{"current_steps": 80, "total_steps": 246, "loss": 0.231, "lr": 0.0002388072958481457, "epoch": 1.910179640718563, "percentage": 32.52, "elapsed_time": "0:08:56", "remaining_time": "0:18:33"}
-{"current_steps": 90, "total_steps": 246, "loss": 0.249, "lr": 0.00022212420419615389, "epoch": 2.143712574850299, "percentage": 36.59, "elapsed_time": "0:10:02", "remaining_time": "0:17:25"}
-{"current_steps": 100, "total_steps": 246, "loss": 0.1949, "lr": 0.00020418624992807295, "epoch": 2.3832335329341316, "percentage": 40.65, "elapsed_time": "0:11:10", "remaining_time": "0:16:18"}
-{"current_steps": 100, "total_steps": 246, "eval_loss": 0.25764521956443787, "epoch": 2.3832335329341316, "percentage": 40.65, "elapsed_time": "0:11:40", "remaining_time": "0:17:02"}
-{"current_steps": 110, "total_steps": 246, "loss": 0.2308, "lr": 0.00018530552894112636, "epoch": 2.622754491017964, "percentage": 44.72, "elapsed_time": "0:12:48", "remaining_time": "0:15:50"}
-{"current_steps": 120, "total_steps": 246, "loss": 0.1837, "lr": 0.00016581053998542715, "epoch": 2.8622754491017965, "percentage": 48.78, "elapsed_time": "0:13:55", "remaining_time": "0:14:37"}
-{"current_steps": 130, "total_steps": 246, "loss": 0.1732, "lr": 0.00014604046923452459, "epoch": 3.095808383233533, "percentage": 52.85, "elapsed_time": "0:15:00", "remaining_time": "0:13:23"}
-{"current_steps": 140, "total_steps": 246, "loss": 0.1361, "lr": 0.00012633928890938437, "epoch": 3.3353293413173652, "percentage": 56.91, "elapsed_time": "0:16:08", "remaining_time": "0:12:13"}
-{"current_steps": 150, "total_steps": 246, "loss": 0.1481, "lr": 0.00010704977263168312, "epoch": 3.5748502994011977, "percentage": 60.98, "elapsed_time": "0:17:16", "remaining_time": "0:11:03"}
-{"current_steps": 160, "total_steps": 246, "loss": 0.183, "lr": 8.850753163109197e-05, "epoch": 3.81437125748503, "percentage": 65.04, "elapsed_time": "0:18:22", "remaining_time": "0:09:52"}
-{"current_steps": 170, "total_steps": 246, "loss": 0.1187, "lr": 7.10351755683966e-05, "epoch": 4.047904191616767, "percentage": 69.11, "elapsed_time": "0:19:29", "remaining_time": "0:08:42"}
-{"current_steps": 180, "total_steps": 246, "loss": 0.1273, "lr": 5.493669956815257e-05, "epoch": 4.287425149700598, "percentage": 73.17, "elapsed_time": "0:20:37", "remaining_time": "0:07:33"}
-{"current_steps": 190, "total_steps": 246, "loss": 0.0988, "lr": 4.04921951188395e-05, "epoch": 4.526946107784431, "percentage": 77.24, "elapsed_time": "0:21:44", "remaining_time": "0:06:24"}
-{"current_steps": 200, "total_steps": 246, "loss": 0.0946, "lr": 2.795297686362597e-05, "epoch": 4.766467065868263, "percentage": 81.3, "elapsed_time": "0:22:51", "remaining_time": "0:05:15"}
-{"current_steps": 200, "total_steps": 246, "eval_loss": 0.23381587862968445, "epoch": 4.766467065868263, "percentage": 81.3, "elapsed_time": "0:23:21", "remaining_time": "0:05:22"}
-{"current_steps": 210, "total_steps": 246, "loss": 0.1113, "lr": 1.7537210068927414e-05, "epoch": 5.0, "percentage": 85.37, "elapsed_time": "0:24:25", "remaining_time": "0:04:11"}
-{"current_steps": 220, "total_steps": 246, "loss": 0.0893, "lr": 9.426114846830196e-06, "epoch": 5.2395209580838324, "percentage": 89.43, "elapsed_time": "0:25:33", "remaining_time": "0:03:01"}
-{"current_steps": 230, "total_steps": 246, "loss": 0.0889, "lr": 3.760813172726457e-06, "epoch": 5.479041916167665, "percentage": 93.5, "elapsed_time": "0:26:41", "remaining_time": "0:01:51"}
-{"current_steps": 240, "total_steps": 246, "loss": 0.0805, "lr": 6.398735557448297e-07, "epoch": 5.718562874251497, "percentage": 97.56, "elapsed_time": "0:27:46", "remaining_time": "0:00:41"}
-{"current_steps": 246, "total_steps": 246, "epoch": 5.862275449101796, "percentage": 100.0, "elapsed_time": "0:28:28", "remaining_time": "0:00:00"}

+{"current_steps": 10, "total_steps": 384, "loss": 1.4075, "lr": 7.500000000000001e-05, "epoch": 0.32, "percentage": 2.6, "elapsed_time": "0:01:09", "remaining_time": "0:43:07"}
+{"current_steps": 20, "total_steps": 384, "loss": 0.8351, "lr": 9.991265793145479e-05, "epoch": 0.64, "percentage": 5.21, "elapsed_time": "0:02:15", "remaining_time": "0:41:05"}
+{"current_steps": 30, "total_steps": 384, "loss": 0.4881, "lr": 9.948559446825412e-05, "epoch": 0.96, "percentage": 7.81, "elapsed_time": "0:03:23", "remaining_time": "0:40:00"}
+{"current_steps": 32, "total_steps": 384, "eval_loss": 0.439687579870224, "epoch": 1.0, "percentage": 8.33, "elapsed_time": "0:03:55", "remaining_time": "0:43:09"}
+{"current_steps": 40, "total_steps": 384, "loss": 0.3822, "lr": 9.870580739976935e-05, "epoch": 1.256, "percentage": 10.42, "elapsed_time": "0:04:49", "remaining_time": "0:41:26"}
+{"current_steps": 50, "total_steps": 384, "loss": 0.4258, "lr": 9.757885489518297e-05, "epoch": 1.576, "percentage": 13.02, "elapsed_time": "0:05:57", "remaining_time": "0:39:50"}
+{"current_steps": 60, "total_steps": 384, "loss": 0.338, "lr": 9.611276965077099e-05, "epoch": 1.896, "percentage": 15.62, "elapsed_time": "0:07:07", "remaining_time": "0:38:30"}
+{"current_steps": 64, "total_steps": 384, "eval_loss": 0.3505571186542511, "epoch": 2.0, "percentage": 16.67, "elapsed_time": "0:07:53", "remaining_time": "0:39:28"}
+{"current_steps": 70, "total_steps": 384, "loss": 0.3284, "lr": 9.431800163442041e-05, "epoch": 2.192, "percentage": 18.23, "elapsed_time": "0:08:35", "remaining_time": "0:38:33"}
+{"current_steps": 80, "total_steps": 384, "loss": 0.3177, "lr": 9.220734360030907e-05, "epoch": 2.512, "percentage": 20.83, "elapsed_time": "0:09:42", "remaining_time": "0:36:55"}
+{"current_steps": 90, "total_steps": 384, "loss": 0.3097, "lr": 8.979583990466454e-05, "epoch": 2.832, "percentage": 23.44, "elapsed_time": "0:10:49", "remaining_time": "0:35:22"}
+{"current_steps": 96, "total_steps": 384, "eval_loss": 0.3097846210002899, "epoch": 3.0, "percentage": 25.0, "elapsed_time": "0:11:47", "remaining_time": "0:35:23"}
+{"current_steps": 100, "total_steps": 384, "loss": 0.2869, "lr": 8.710067927254555e-05, "epoch": 3.128, "percentage": 26.04, "elapsed_time": "0:12:15", "remaining_time": "0:34:47"}
+{"current_steps": 110, "total_steps": 384, "loss": 0.264, "lr": 8.414107227998329e-05, "epoch": 3.448, "percentage": 28.65, "elapsed_time": "0:13:23", "remaining_time": "0:33:20"}
+{"current_steps": 120, "total_steps": 384, "loss": 0.293, "lr": 8.093811442476573e-05, "epoch": 3.768, "percentage": 31.25, "elapsed_time": "0:14:30", "remaining_time": "0:31:54"}
+{"current_steps": 128, "total_steps": 384, "eval_loss": 0.2800418436527252, "epoch": 4.0, "percentage": 33.33, "elapsed_time": "0:15:42", "remaining_time": "0:31:25"}
+{"current_steps": 130, "total_steps": 384, "loss": 0.2517, "lr": 7.751463576186957e-05, "epoch": 4.064, "percentage": 33.85, "elapsed_time": "0:15:57", "remaining_time": "0:31:10"}
+{"current_steps": 140, "total_steps": 384, "loss": 0.2501, "lr": 7.389503817530905e-05, "epoch": 4.384, "percentage": 36.46, "elapsed_time": "0:17:05", "remaining_time": "0:29:47"}
+{"current_steps": 150, "total_steps": 384, "loss": 0.2115, "lr": 7.010512144629579e-05, "epoch": 4.704, "percentage": 39.06, "elapsed_time": "0:18:12", "remaining_time": "0:28:24"}
+{"current_steps": 160, "total_steps": 384, "loss": 0.202, "lr": 6.61718993574619e-05, "epoch": 5.0, "percentage": 41.67, "elapsed_time": "0:19:15", "remaining_time": "0:26:57"}
+{"current_steps": 160, "total_steps": 384, "eval_loss": 0.26041463017463684, "epoch": 5.0, "percentage": 41.67, "elapsed_time": "0:19:38", "remaining_time": "0:27:30"}
+{"current_steps": 170, "total_steps": 384, "loss": 0.195, "lr": 6.2123407143919e-05, "epoch": 5.32, "percentage": 44.27, "elapsed_time": "0:20:47", "remaining_time": "0:26:10"}
+{"current_steps": 180, "total_steps": 384, "loss": 0.2085, "lr": 5.798850166360461e-05, "epoch": 5.64, "percentage": 46.88, "elapsed_time": "0:21:54", "remaining_time": "0:24:49"}
+{"current_steps": 190, "total_steps": 384, "loss": 0.1846, "lr": 5.379665571126231e-05, "epoch": 5.96, "percentage": 49.48, "elapsed_time": "0:23:02", "remaining_time": "0:23:31"}
+{"current_steps": 192, "total_steps": 384, "eval_loss": 0.250407874584198, "epoch": 6.0, "percentage": 50.0, "elapsed_time": "0:23:34", "remaining_time": "0:23:34"}
+{"current_steps": 200, "total_steps": 384, "loss": 0.1577, "lr": 4.957774794214508e-05, "epoch": 6.256, "percentage": 52.08, "elapsed_time": "0:24:30", "remaining_time": "0:22:32"}
+{"current_steps": 210, "total_steps": 384, "loss": 0.1718, "lr": 4.5361849902824674e-05, "epoch": 6.576, "percentage": 54.69, "elapsed_time": "0:25:38", "remaining_time": "0:21:14"}
+{"current_steps": 220, "total_steps": 384, "loss": 0.1536, "lr": 4.117901168710959e-05, "epoch": 6.896, "percentage": 57.29, "elapsed_time": "0:26:46", "remaining_time": "0:19:57"}
+{"current_steps": 224, "total_steps": 384, "eval_loss": 0.24610178172588348, "epoch": 7.0, "percentage": 58.33, "elapsed_time": "0:27:32", "remaining_time": "0:19:40"}
+{"current_steps": 230, "total_steps": 384, "loss": 0.1252, "lr": 3.705904774487396e-05, "epoch": 7.192, "percentage": 59.9, "elapsed_time": "0:28:14", "remaining_time": "0:18:54"}
+{"current_steps": 240, "total_steps": 384, "loss": 0.1358, "lr": 3.3031324370510394e-05, "epoch": 7.5120000000000005, "percentage": 62.5, "elapsed_time": "0:29:22", "remaining_time": "0:17:37"}
+{"current_steps": 250, "total_steps": 384, "loss": 0.1484, "lr": 2.9124550385746857e-05, "epoch": 7.832, "percentage": 65.1, "elapsed_time": "0:30:31", "remaining_time": "0:16:21"}
+{"current_steps": 256, "total_steps": 384, "eval_loss": 0.2468687891960144, "epoch": 8.0, "percentage": 66.67, "elapsed_time": "0:31:30", "remaining_time": "0:15:45"}
+{"current_steps": 260, "total_steps": 384, "loss": 0.1295, "lr": 2.5366572508799886e-05, "epoch": 8.128, "percentage": 67.71, "elapsed_time": "0:31:58", "remaining_time": "0:15:14"}
+{"current_steps": 270, "total_steps": 384, "loss": 0.1198, "lr": 2.1784176868432376e-05, "epoch": 8.448, "percentage": 70.31, "elapsed_time": "0:33:05", "remaining_time": "0:13:58"}
+{"current_steps": 280, "total_steps": 384, "loss": 0.1132, "lr": 1.8402898077684804e-05, "epoch": 8.768, "percentage": 72.92, "elapsed_time": "0:34:12", "remaining_time": "0:12:42"}
+{"current_steps": 288, "total_steps": 384, "eval_loss": 0.2507466971874237, "epoch": 9.0, "percentage": 75.0, "elapsed_time": "0:35:25", "remaining_time": "0:11:48"}
+{"current_steps": 290, "total_steps": 384, "loss": 0.1069, "lr": 1.5246837228164907e-05, "epoch": 9.064, "percentage": 75.52, "elapsed_time": "0:35:39", "remaining_time": "0:11:33"}
+{"current_steps": 300, "total_steps": 384, "loss": 0.1192, "lr": 1.2338490102196825e-05, "epoch": 9.384, "percentage": 78.12, "elapsed_time": "0:36:47", "remaining_time": "0:10:18"}
+{"current_steps": 310, "total_steps": 384, "loss": 0.108, "lr": 9.69858682729976e-06, "epoch": 9.704, "percentage": 80.73, "elapsed_time": "0:37:55", "remaining_time": "0:09:03"}
+{"current_steps": 320, "total_steps": 384, "loss": 0.0924, "lr": 7.345944115907422e-06, "epoch": 10.0, "percentage": 83.33, "elapsed_time": "0:38:58", "remaining_time": "0:07:47"}
+{"current_steps": 320, "total_steps": 384, "eval_loss": 0.2528049647808075, "epoch": 10.0, "percentage": 83.33, "elapsed_time": "0:39:21", "remaining_time": "0:07:52"}
+{"current_steps": 330, "total_steps": 384, "loss": 0.1069, "lr": 5.2973311435349725e-06, "epoch": 10.32, "percentage": 85.94, "elapsed_time": "0:40:30", "remaining_time": "0:06:37"}
+{"current_steps": 340, "total_steps": 384, "loss": 0.1041, "lr": 3.567350021386895e-06, "epoch": 10.64, "percentage": 88.54, "elapsed_time": "0:41:38", "remaining_time": "0:05:23"}
+{"current_steps": 350, "total_steps": 384, "loss": 0.097, "lr": 2.1683317153742776e-06, "epoch": 10.96, "percentage": 91.15, "elapsed_time": "0:42:47", "remaining_time": "0:04:09"}
+{"current_steps": 352, "total_steps": 384, "eval_loss": 0.2560921013355255, "epoch": 11.0, "percentage": 91.67, "elapsed_time": "0:43:19", "remaining_time": "0:03:56"}
+{"current_steps": 360, "total_steps": 384, "loss": 0.0765, "lr": 1.1102481534098374e-06, "epoch": 11.256, "percentage": 93.75, "elapsed_time": "0:44:14", "remaining_time": "0:02:56"}
+{"current_steps": 370, "total_steps": 384, "loss": 0.0933, "lr": 4.006411474628491e-07, "epoch": 11.576, "percentage": 96.35, "elapsed_time": "0:45:20", "remaining_time": "0:01:42"}
+{"current_steps": 380, "total_steps": 384, "loss": 0.1146, "lr": 4.456863700363356e-08, "epoch": 11.896, "percentage": 98.96, "elapsed_time": "0:46:28", "remaining_time": "0:00:29"}
+{"current_steps": 384, "total_steps": 384, "eval_loss": 0.2565154731273651, "epoch": 12.0, "percentage": 100.0, "elapsed_time": "0:47:16", "remaining_time": "0:00:00"}
+{"current_steps": 384, "total_steps": 384, "epoch": 12.0, "percentage": 100.0, "elapsed_time": "0:47:16", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -2,211 +2,401 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.862275449101796,
-  "eval_steps": 100,
-  "global_step": 246,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.23952095808383234,
-      "grad_norm": 0.37946805357933044,
-      "learning_rate": 0.0002999869322508616,
-      "loss": 1.1534,
       "step": 10
     },
     {
-      "epoch": 0.47904191616766467,
-      "grad_norm": 0.16755534708499908,
-      "learning_rate": 0.0002984215555086929,
-      "loss": 0.4765,
       "step": 20
     },
     {
-      "epoch": 0.718562874251497,
-      "grad_norm": 0.14300930500030518,
-      "learning_rate": 0.00029427384647592284,
-      "loss": 0.3861,
       "step": 30
     },
     {
-      "epoch": 0.9580838323353293,
-      "grad_norm": 0.12766212224960327,
-      "learning_rate": 0.0002876159696230734,
-      "loss": 0.3632,
       "step": 40
     },
     {
-      "epoch": 1.1916167664670658,
-      "grad_norm": 0.11549726128578186,
-      "learning_rate": 0.0002785637629113157,
-      "loss": 0.2959,
       "step": 50
     },
     {
-      "epoch": 1.4311377245508983,
-      "grad_norm": 0.1669497787952423,
-      "learning_rate": 0.00026727472237020447,
-      "loss": 0.2919,
       "step": 60
     },
     {
-      "epoch": 1.6706586826347305,
-      "grad_norm": 0.21683713793754578,
-      "learning_rate": 0.00025394526188193703,
-      "loss": 0.3124,
       "step": 70
     },
     {
-      "epoch": 1.910179640718563,
-      "grad_norm": 0.149092897772789,
-      "learning_rate": 0.0002388072958481457,
-      "loss": 0.231,
       "step": 80
     },
     {
-      "epoch": 2.143712574850299,
-      "grad_norm": 0.15870417654514313,
-      "learning_rate": 0.00022212420419615389,
-      "loss": 0.249,
       "step": 90
     },
     {
-      "epoch": 2.3832335329341316,
-      "grad_norm": 0.19152162969112396,
-      "learning_rate": 0.00020418624992807295,
-      "loss": 0.1949,
-      "step": 100
     },
     {
-      "epoch": 2.3832335329341316,
-      "eval_loss": 0.25764521956443787,
-      "eval_runtime": 29.7628,
-      "eval_samples_per_second": 12.936,
-      "eval_steps_per_second": 2.184,
       "step": 100
     },
     {
-      "epoch": 2.622754491017964,
-      "grad_norm": 0.2698158323764801,
-      "learning_rate": 0.00018530552894112636,
-      "loss": 0.2308,
       "step": 110
     },
     {
-      "epoch": 2.8622754491017965,
-      "grad_norm": 0.19512350857257843,
-      "learning_rate": 0.00016581053998542715,
-      "loss": 0.1837,
       "step": 120
     },
     {
-      "epoch": 3.095808383233533,
-      "grad_norm": 0.16712640225887299,
-      "learning_rate": 0.00014604046923452459,
-      "loss": 0.1732,
       "step": 130
     },
     {
-      "epoch": 3.3353293413173652,
-      "grad_norm": 0.19614258408546448,
-      "learning_rate": 0.00012633928890938437,
-      "loss": 0.1361,
       "step": 140
     },
     {
-      "epoch": 3.5748502994011977,
-      "grad_norm": 0.17640164494514465,
-      "learning_rate": 0.00010704977263168312,
-      "loss": 0.1481,
       "step": 150
     },
     {
-      "epoch": 3.81437125748503,
-      "grad_norm": 0.2778976857662201,
-      "learning_rate": 8.850753163109197e-05,
-      "loss": 0.183,
       "step": 160
     },
     {
-      "epoch": 4.047904191616767,
-      "grad_norm": 0.1458514928817749,
-      "learning_rate": 7.10351755683966e-05,
-      "loss": 0.1187,
       "step": 170
     },
     {
-      "epoch": 4.287425149700598,
-      "grad_norm": 0.22260785102844238,
-      "learning_rate": 5.493669956815257e-05,
-      "loss": 0.1273,
       "step": 180
     },
     {
-      "epoch": 4.526946107784431,
-      "grad_norm": 0.27317678928375244,
-      "learning_rate": 4.04921951188395e-05,
-      "loss": 0.0988,
       "step": 190
     },
     {
-      "epoch": 4.766467065868263,
-      "grad_norm": 0.21051597595214844,
-      "learning_rate": 2.795297686362597e-05,
-      "loss": 0.0946,
-      "step": 200
     },
     {
-      "epoch": 4.766467065868263,
-      "eval_loss": 0.23381587862968445,
-      "eval_runtime": 29.7685,
-      "eval_samples_per_second": 12.933,
-      "eval_steps_per_second": 2.184,
       "step": 200
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 0.2187952846288681,
-      "learning_rate": 1.7537210068927414e-05,
-      "loss": 0.1113,
       "step": 210
     },
     {
-      "epoch": 5.2395209580838324,
-      "grad_norm": 0.17852631211280823,
-      "learning_rate": 9.426114846830196e-06,
-      "loss": 0.0893,
       "step": 220
     },
     {
-      "epoch": 5.479041916167665,
-      "grad_norm": 0.14697887003421783,
-      "learning_rate": 3.760813172726457e-06,
-      "loss": 0.0889,
       "step": 230
     },
     {
-      "epoch": 5.718562874251497,
-      "grad_norm": 0.23584799468517303,
-      "learning_rate": 6.398735557448297e-07,
-      "loss": 0.0805,
       "step": 240
     },
     {
-      "epoch": 5.862275449101796,
-      "step": 246,
-      "total_flos": 2.145141677495419e+17,
-      "train_loss": 0.2387894634308854,
-      "train_runtime": 1711.2145,
-      "train_samples_per_second": 3.506,
-      "train_steps_per_second": 0.144
     }
   ],
   "logging_steps": 10,
-  "max_steps": 246,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -220,7 +410,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.145141677495419e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.0,
+  "eval_steps": 500,
+  "global_step": 384,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.32,
+      "grad_norm": 0.5422136187553406,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.4075,
       "step": 10
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 0.24980580806732178,
+      "learning_rate": 9.991265793145479e-05,
+      "loss": 0.8351,
       "step": 20
     },
     {
+      "epoch": 0.96,
+      "grad_norm": 0.1963978260755539,
+      "learning_rate": 9.948559446825412e-05,
+      "loss": 0.4881,
       "step": 30
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8943875280150239,
+      "eval_loss": 0.439687579870224,
+      "eval_runtime": 23.0702,
+      "eval_samples_per_second": 16.688,
+      "eval_steps_per_second": 2.124,
+      "step": 32
+    },
+    {
+      "epoch": 1.256,
+      "grad_norm": 0.12824280560016632,
+      "learning_rate": 9.870580739976935e-05,
+      "loss": 0.3822,
       "step": 40
     },
     {
+      "epoch": 1.576,
+      "grad_norm": 0.13147476315498352,
+      "learning_rate": 9.757885489518297e-05,
+      "loss": 0.4258,
       "step": 50
     },
     {
+      "epoch": 1.896,
+      "grad_norm": 0.12476492673158646,
+      "learning_rate": 9.611276965077099e-05,
+      "loss": 0.338,
       "step": 60
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9137864356203533,
+      "eval_loss": 0.3505571186542511,
+      "eval_runtime": 23.0857,
+      "eval_samples_per_second": 16.677,
+      "eval_steps_per_second": 2.123,
+      "step": 64
+    },
+    {
+      "epoch": 2.192,
+      "grad_norm": 0.136331707239151,
+      "learning_rate": 9.431800163442041e-05,
+      "loss": 0.3284,
       "step": 70
     },
     {
+      "epoch": 2.512,
+      "grad_norm": 0.15875931084156036,
+      "learning_rate": 9.220734360030907e-05,
+      "loss": 0.3177,
       "step": 80
     },
     {
+      "epoch": 2.832,
+      "grad_norm": 0.20174619555473328,
+      "learning_rate": 8.979583990466454e-05,
+      "loss": 0.3097,
       "step": 90
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9229765721615035,
+      "eval_loss": 0.3097846210002899,
+      "eval_runtime": 23.0998,
+      "eval_samples_per_second": 16.667,
+      "eval_steps_per_second": 2.121,
+      "step": 96
     },
     {
+      "epoch": 3.128,
+      "grad_norm": 0.16589179635047913,
+      "learning_rate": 8.710067927254555e-05,
+      "loss": 0.2869,
       "step": 100
     },
     {
+      "epoch": 3.448,
+      "grad_norm": 0.2508234977722168,
+      "learning_rate": 8.414107227998329e-05,
+      "loss": 0.264,
       "step": 110
     },
     {
+      "epoch": 3.768,
+      "grad_norm": 0.2155790477991104,
+      "learning_rate": 8.093811442476573e-05,
+      "loss": 0.293,
       "step": 120
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9309821545048526,
+      "eval_loss": 0.2800418436527252,
+      "eval_runtime": 23.147,
+      "eval_samples_per_second": 16.633,
+      "eval_steps_per_second": 2.117,
+      "step": 128
+    },
+    {
+      "epoch": 4.064,
+      "grad_norm": 0.19977881014347076,
+      "learning_rate": 7.751463576186957e-05,
+      "loss": 0.2517,
       "step": 130
     },
     {
+      "epoch": 4.384,
+      "grad_norm": 0.2274104505777359,
+      "learning_rate": 7.389503817530905e-05,
+      "loss": 0.2501,
       "step": 140
     },
     {
+      "epoch": 4.704,
+      "grad_norm": 0.22418978810310364,
+      "learning_rate": 7.010512144629579e-05,
+      "loss": 0.2115,
       "step": 150
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 0.43173882365226746,
+      "learning_rate": 6.61718993574619e-05,
+      "loss": 0.202,
       "step": 160
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9356952198262245,
+      "eval_loss": 0.26041463017463684,
+      "eval_runtime": 23.1637,
+      "eval_samples_per_second": 16.621,
+      "eval_steps_per_second": 2.115,
+      "step": 160
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.22742323577404022,
+      "learning_rate": 6.2123407143919e-05,
+      "loss": 0.195,
       "step": 170
     },
     {
+      "epoch": 5.64,
+      "grad_norm": 0.2773088812828064,
+      "learning_rate": 5.798850166360461e-05,
+      "loss": 0.2085,
       "step": 180
     },
     {
+      "epoch": 5.96,
+      "grad_norm": 0.326659232378006,
+      "learning_rate": 5.379665571126231e-05,
+      "loss": 0.1846,
       "step": 190
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9394547551491287,
+      "eval_loss": 0.250407874584198,
+      "eval_runtime": 23.1202,
+      "eval_samples_per_second": 16.652,
+      "eval_steps_per_second": 2.119,
+      "step": 192
     },
     {
+      "epoch": 6.256,
+      "grad_norm": 0.24400818347930908,
+      "learning_rate": 4.957774794214508e-05,
+      "loss": 0.1577,
       "step": 200
     },
     {
+      "epoch": 6.576,
+      "grad_norm": 0.3049585819244385,
+      "learning_rate": 4.5361849902824674e-05,
+      "loss": 0.1718,
       "step": 210
     },
     {
+      "epoch": 6.896,
+      "grad_norm": 0.2874772846698761,
+      "learning_rate": 4.117901168710959e-05,
+      "loss": 0.1536,
       "step": 220
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9421747829656392,
+      "eval_loss": 0.24610178172588348,
+      "eval_runtime": 23.0966,
+      "eval_samples_per_second": 16.669,
+      "eval_steps_per_second": 2.122,
+      "step": 224
+    },
+    {
+      "epoch": 7.192,
+      "grad_norm": 0.24850666522979736,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.1252,
       "step": 230
     },
     {
+      "epoch": 7.5120000000000005,
+      "grad_norm": 0.2970203459262848,
+      "learning_rate": 3.3031324370510394e-05,
+      "loss": 0.1358,
       "step": 240
     },
     {
+      "epoch": 7.832,
+      "grad_norm": 0.28144457936286926,
+      "learning_rate": 2.9124550385746857e-05,
+      "loss": 0.1484,
+      "step": 250
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9448626884131439,
+      "eval_loss": 0.2468687891960144,
+      "eval_runtime": 23.1407,
+      "eval_samples_per_second": 16.637,
+      "eval_steps_per_second": 2.117,
+      "step": 256
+    },
+    {
+      "epoch": 8.128,
+      "grad_norm": 0.24285829067230225,
+      "learning_rate": 2.5366572508799886e-05,
+      "loss": 0.1295,
+      "step": 260
+    },
+    {
+      "epoch": 8.448,
+      "grad_norm": 0.24960064888000488,
+      "learning_rate": 2.1784176868432376e-05,
+      "loss": 0.1198,
+      "step": 270
+    },
+    {
+      "epoch": 8.768,
+      "grad_norm": 0.2702842354774475,
+      "learning_rate": 1.8402898077684804e-05,
+      "loss": 0.1132,
+      "step": 280
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9458956775395686,
+      "eval_loss": 0.2507466971874237,
+      "eval_runtime": 23.1364,
+      "eval_samples_per_second": 16.64,
+      "eval_steps_per_second": 2.118,
+      "step": 288
+    },
+    {
+      "epoch": 9.064,
+      "grad_norm": 0.2220270186662674,
+      "learning_rate": 1.5246837228164907e-05,
+      "loss": 0.1069,
+      "step": 290
+    },
+    {
+      "epoch": 9.384,
+      "grad_norm": 0.29468902945518494,
+      "learning_rate": 1.2338490102196825e-05,
+      "loss": 0.1192,
+      "step": 300
+    },
+    {
+      "epoch": 9.704,
+      "grad_norm": 0.26781126856803894,
+      "learning_rate": 9.69858682729976e-06,
+      "loss": 0.108,
+      "step": 310
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.3624833822250366,
+      "learning_rate": 7.345944115907422e-06,
+      "loss": 0.0924,
+      "step": 320
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9458588957449963,
+      "eval_loss": 0.2528049647808075,
+      "eval_runtime": 23.1153,
+      "eval_samples_per_second": 16.656,
+      "eval_steps_per_second": 2.12,
+      "step": 320
+    },
+    {
+      "epoch": 10.32,
+      "grad_norm": 0.27165377140045166,
+      "learning_rate": 5.2973311435349725e-06,
+      "loss": 0.1069,
+      "step": 330
+    },
+    {
+      "epoch": 10.64,
+      "grad_norm": 0.2682035267353058,
+      "learning_rate": 3.567350021386895e-06,
+      "loss": 0.1041,
+      "step": 340
+    },
+    {
+      "epoch": 10.96,
+      "grad_norm": 0.26564228534698486,
+      "learning_rate": 2.1683317153742776e-06,
+      "loss": 0.097,
+      "step": 350
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9461563024276883,
+      "eval_loss": 0.2560921013355255,
+      "eval_runtime": 23.0822,
+      "eval_samples_per_second": 16.68,
+      "eval_steps_per_second": 2.123,
+      "step": 352
+    },
+    {
+      "epoch": 11.256,
+      "grad_norm": 0.20978766679763794,
+      "learning_rate": 1.1102481534098374e-06,
+      "loss": 0.0765,
+      "step": 360
+    },
+    {
+      "epoch": 11.576,
+      "grad_norm": 0.21784260869026184,
+      "learning_rate": 4.006411474628491e-07,
+      "loss": 0.0933,
+      "step": 370
+    },
+    {
+      "epoch": 11.896,
+      "grad_norm": 0.2561984956264496,
+      "learning_rate": 4.456863700363356e-08,
+      "loss": 0.1146,
+      "step": 380
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9461611343879004,
+      "eval_loss": 0.2565154731273651,
+      "eval_runtime": 23.0977,
+      "eval_samples_per_second": 16.668,
+      "eval_steps_per_second": 2.121,
+      "step": 384
+    },
+    {
+      "epoch": 12.0,
+      "step": 384,
+      "total_flos": 4.38485641689301e+17,
+      "train_loss": 0.24724087212234735,
+      "train_runtime": 2839.5296,
+      "train_samples_per_second": 4.226,
+      "train_steps_per_second": 0.135
     }
   ],
   "logging_steps": 10,
+  "max_steps": 384,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.38485641689301e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab04e1c6df530cfb3c90349a8f3e3d91d8cc24fddf50a395eb76671e205234f4
 size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ee030483225b3eb8f716972359663148b4219a065cd4b29cbd0a2e1298c15ee
 size 6097

training_eval_accuracy.png ADDED Viewed

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed