Upload ARO Coder 4-bit (distill_student)

Browse files

Files changed (7) hide show

.source_model +1 -1
README.md +4 -4
chat_template.jinja +65 -111
config.json +15 -411
model.safetensors +3 -0
model.safetensors.index.json +0 -0
tokenizer_config.json +2 -2

.source_model CHANGED Viewed

	@@ -1 +1 @@
1	- /Users/kris/Projects/ARO/ARO-Train/Train/models/~~dpo~~/fused


1	+ /Users/kris/Projects/ARO/ARO-Train/Train/models/distill/student/fused

README.md CHANGED Viewed

@@ -26,9 +26,9 @@ ARO is a domain-specific language where every statement follows the pattern:
 | **Base model** | [mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit](https://huggingface.co/mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit) |
 | **Quantization** | 4-bit (MLX) |
 | **Language** | ARO |
-| **Training samples** | 861 |
-| **Syntax pass rate** | 47% |
-| **Source label** | dpo |
 ## Links
@@ -108,7 +108,7 @@ Key features:
 This model was trained with the ARO training pipeline:
-1. **Corpus collection** — 861 samples from Examples, Book, Wiki, Proposals, and real-world ARO applications
 2. **Supervised fine-tuning** — LoRA on all code generation, debugging, Q&A, and explanation tasks
 3. **DPO preference training** — using `aro check` validation to build chosen/rejected pairs
 4. **Iterative self-improvement** — multiple rounds of generate-validate-retrain

 | **Base model** | [mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit](https://huggingface.co/mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit) |
 | **Quantization** | 4-bit (MLX) |
 | **Language** | ARO |
+| **Training samples** | 777 |
+| **Syntax pass rate** | 30% |
+| **Source label** | distill_student |
 ## Links
 This model was trained with the ARO training pipeline:
+1. **Corpus collection** — 777 samples from Examples, Book, Wiki, Proposals, and real-world ARO applications
 2. **Supervised fine-tuning** — LoRA on all code generation, debugging, Q&A, and explanation tasks
 3. **DPO preference training** — using `aro check` validation to build chosen/rejected pairs
 4. **Iterative self-improvement** — multiple rounds of generate-validate-retrain

chat_template.jinja CHANGED Viewed

@@ -1,131 +1,85 @@
-{% macro render_item_list(item_list, tag_name='required') %}
-    {%- if item_list is defined and item_list is iterable and item_list | length > 0 %}
-        {%- if tag_name %}{{- '\n<' ~ tag_name ~ '>' -}}{% endif %}
-            {{- '[' }}
-                {%- for item in item_list -%}
-                    {%- if loop.index > 1 %}{{- ", "}}{% endif -%}
-                    {%- if item is string -%}
-                        {{ "`" ~ item ~ "`" }}
-                    {%- else -%}
-                        {{ item }}
-                    {%- endif -%}
-                {%- endfor -%}
-            {{- ']' }}
-        {%- if tag_name %}{{- '</' ~ tag_name ~ '>' -}}{% endif %}
     {%- endif %}
-{% endmacro %}
-{%- if messages[0]["role"] == "system" %}
-    {%- set system_message = messages[0]["content"] %}
-    {%- set loop_messages = messages[1:] %}
-{%- else %}
-    {%- set loop_messages = messages %}
-{%- endif %}
-{%- if not tools is defined %}
-    {%- set tools = [] %}
-{%- endif %}
-{%- if system_message is defined %}
-    {{- "<|im_start|>system\n" + system_message }}
 {%- else %}
-    {%- if tools is iterable and tools | length > 0 %}
-        {{- "<|im_start|>system\nYou are Qwen, a helpful AI assistant that can interact with a computer to solve tasks." }}
     {%- endif %}
 {%- endif %}
-{%- if tools is iterable and tools | length > 0 %}
-    {{- "\n\nYou have access to the following functions:\n\n" }}
-    {{- "<tools>" }}
-    {%- for tool in tools %}
-        {%- if tool.function is defined %}
-            {%- set tool = tool.function %}
-        {%- endif %}
-        {{- "\n<function>\n<name>" ~ tool.name ~ "</name>" }}
-        {{- '\n<description>' ~ (tool.description | trim) ~ '</description>' }}
-        {{- '\n<parameters>' }}
-        {%- for param_name, param_fields in tool.parameters.properties|items %}
-            {{- '\n<parameter>' }}
-            {{- '\n<name>' ~ param_name ~ '</name>' }}
-            {%- if param_fields.type is defined %}
-                {{- '\n<type>' ~ (param_fields.type | string) ~ '</type>' }}
             {%- endif %}
-            {%- if param_fields.description is defined %}
-                {{- '\n<description>' ~ (param_fields.description | trim) ~ '</description>' }}
             {%- endif %}
-            {{- render_item_list(param_fields.enum, 'enum') }}
-            {%- set handled_keys = ['type', 'description', 'enum', 'required'] %}
-            {%- for json_key in param_fields.keys() | reject("in", handled_keys) %}
-                {%- set normed_json_key = json_key | replace("-", "_") | replace(" ", "_") | replace("$", "") %}
-                {%- if param_fields[json_key] is mapping %}
-                    {{- '\n<' ~ normed_json_key ~ '>' ~ (param_fields[json_key] | tojson | safe) ~ '</' ~ normed_json_key ~ '>' }}
                 {%- else %}
-                    {{-'\n<' ~ normed_json_key ~ '>' ~ (param_fields[json_key] | string) ~ '</' ~ normed_json_key ~ '>' }}
                 {%- endif %}
             {%- endfor %}
-            {{- render_item_list(param_fields.required, 'required') }}
-            {{- '\n</parameter>' }}
-        {%- endfor %}
-        {{- render_item_list(tool.parameters.required, 'required') }}
-        {{- '\n</parameters>' }}
-        {%- if tool.return is defined %}
-            {%- if tool.return is mapping %}
-                {{- '\n<return>' ~ (tool.return | tojson | safe) ~ '</return>' }}
-            {%- else %}
-                {{- '\n<return>' ~ (tool.return | string) ~ '</return>' }}
-            {%- endif %}
         {%- endif %}
-        {{- '\n</function>' }}
-    {%- endfor %}
-    {{- "\n</tools>" }}
-    {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }}
-{%- endif %}
-{%- if system_message is defined %}
-    {{- '<|im_end|>\n' }}
-{%- else %}
-    {%- if tools is iterable and tools | length > 0 %}
         {{- '<|im_end|>\n' }}
-    {%- endif %}
-{%- endif %}
-{%- for message in loop_messages %}
-    {%- if message.role == "assistant" and message.tool_calls is defined and message.tool_calls is iterable and message.tool_calls | length > 0 %}
-        {{- '<|im_start|>' + message.role }}
-        {%- if message.content is defined and message.content is string and message.content | trim | length > 0 %}
-            {{- '\n' + message.content | trim + '\n' }}
-        {%- endif %}
-        {%- for tool_call in message.tool_calls %}
-            {%- if tool_call.function is defined %}
-                {%- set tool_call = tool_call.function %}
-            {%- endif %}
-            {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
-            {%- if tool_call.arguments is defined %}
-                {%- for args_name, args_value in tool_call.arguments|items %}
-                    {{- '<parameter=' + args_name + '>\n' }}
-                    {%- set args_value = args_value if args_value is string else args_value | string %}
-                    {{- args_value }}
-                    {{- '\n</parameter>\n' }}
-                {%- endfor %}
-            {%- endif %}
-            {{- '</function>\n</tool_call>' }}
-        {%- endfor %}
-        {{- '<|im_end|>\n' }}
-    {%- elif message.role == "user" or message.role == "system" or message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
     {%- elif message.role == "tool" %}
-        {%- if loop.previtem and loop.previtem.role != "tool" %}
-            {{- '<|im_start|>user\n' }}
         {%- endif %}
-        {{- '<tool_response>\n' }}
         {{- message.content }}
-        {{- '\n</tool_response>\n' }}
-        {%- if not loop.last and loop.nextitem.role != "tool" %}
-            {{- '<|im_end|>\n' }}
-        {%- elif loop.last %}
             {{- '<|im_end|>\n' }}
         {%- endif %}
-    {%- else %}
-        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>\n' }}
     {%- endif %}
 {%- endfor %}
 {%- if add_generation_prompt %}
     {{- '<|im_start|>assistant\n' }}
-{%- endif %}

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
     {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
 {%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
     {%- endif %}
 {%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content = message.content %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
+                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
             {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
             {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
                 {%- else %}
+                    {{- tool_call.arguments | tojson }}
                 {%- endif %}
+                {{- '}\n</tool_call>' }}
             {%- endfor %}
         {%- endif %}
         {{- '<|im_end|>\n' }}
     {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
         {%- endif %}
+        {{- '\n<tool_response>\n' }}
         {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
             {{- '<|im_end|>\n' }}
         {%- endif %}
     {%- endif %}
 {%- endfor %}
 {%- if add_generation_prompt %}
     {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json CHANGED Viewed

@@ -1,434 +1,38 @@
 {
     "architectures": [
-        "Qwen3MoeForCausalLM"
     ],
     "attention_dropout": 0.0,
-    "decoder_sparse_step": 1,
-    "eos_token_id": [
-        151645,
-        151643
-    ],
     "head_dim": 128,
     "hidden_act": "silu",
-    "hidden_size": 2048,
     "initializer_range": 0.02,
-    "intermediate_size": 5472,
-    "max_position_embeddings": 262144,
-    "max_window_layers": 28,
-    "mlp_only_layers": [],
-    "model_type": "qwen3_moe",
-    "moe_intermediate_size": 768,
-    "norm_topk_prob": true,
     "num_attention_heads": 32,
-    "num_experts": 128,
-    "num_experts_per_tok": 8,
-    "num_hidden_layers": 48,
-    "num_key_value_heads": 4,
-    "output_router_logits": false,
-    "qkv_bias": false,
     "quantization": {
         "group_size": 64,
-        "bits": 4,
-        "model.layers.0.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.1.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.2.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.3.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.4.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.5.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.6.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.7.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.8.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.9.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.10.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.11.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.12.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.13.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.14.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.15.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.16.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.17.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.18.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.19.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.20.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.21.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.22.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.23.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.24.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.25.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.26.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.27.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.28.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.29.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.30.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.31.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.32.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.33.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.34.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.35.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.36.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.37.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.38.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.39.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.40.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.41.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.42.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.43.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.44.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.45.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.46.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.47.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        }
     },
     "quantization_config": {
         "group_size": 64,
-        "bits": 4,
-        "model.layers.0.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.1.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.2.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.3.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.4.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.5.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.6.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.7.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.8.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.9.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.10.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.11.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.12.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.13.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.14.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.15.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.16.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.17.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.18.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.19.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.20.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.21.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.22.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.23.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.24.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.25.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.26.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.27.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.28.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.29.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.30.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.31.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.32.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.33.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.34.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.35.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.36.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.37.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.38.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.39.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.40.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.41.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.42.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.43.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.44.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.45.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.46.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        },
-        "model.layers.47.mlp.gate": {
-            "group_size": 64,
-            "bits": 8
-        }
     },
     "rms_norm_eps": 1e-06,
     "rope_scaling": null,
-    "rope_theta": 10000000,
-    "router_aux_loss_coef": 0.0,
-    "shared_expert_intermediate_size": 0,
     "sliding_window": null,
     "tie_word_embeddings": false,
     "torch_dtype": "bfloat16",
-    "transformers_version": "4.52.3",
     "use_cache": true,
-    "use_qk_norm": true,
     "use_sliding_window": false,
     "vocab_size": 151936
 }

 {
     "architectures": [
+        "Qwen3ForCausalLM"
     ],
+    "attention_bias": false,
     "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151645,
     "head_dim": 128,
     "hidden_act": "silu",
+    "hidden_size": 4096,
     "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 40960,
+    "max_window_layers": 36,
+    "model_type": "qwen3",
     "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
     "quantization": {
         "group_size": 64,
+        "bits": 4
     },
     "quantization_config": {
         "group_size": 64,
+        "bits": 4
     },
     "rms_norm_eps": 1e-06,
     "rope_scaling": null,
+    "rope_theta": 1000000,
     "sliding_window": null,
     "tie_word_embeddings": false,
     "torch_dtype": "bfloat16",
+    "transformers_version": "4.51.0",
     "use_cache": true,
     "use_sliding_window": false,
     "vocab_size": 151936
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6795684e67d21c9463e679f00e3f2d079a00f1fd028d6c1cc0a31899f521d918
+size 4607835164

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -6,10 +6,10 @@
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "is_local": true,
-  "model_max_length": 1048576,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
-  "tool_parser_type": "qwen3_coder",
   "unk_token": null
 }

   "eos_token": "<|im_end|>",
   "errors": "replace",
   "is_local": true,
+  "model_max_length": 131072,
   "pad_token": "<|endoftext|>",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
+  "tool_parser_type": "json_tools",
   "unk_token": null
 }