Instructions to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with MLX:

# Make sure mlx-lm is installed
# pip install --upgrade mlx-lm

# Generate text with mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("hybridaione/LFM2.5-1.2B-Text2SQL-MLX")

prompt = "Write a story about Einstein"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True
)

text = generate(model, tokenizer, prompt=prompt, verbose=True)

Notebooks
Google Colab
Kaggle
Local Apps Settings
LM Studio

How to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with Pi:

Start the MLX server

# Install MLX LM:
uv tool install mlx-lm
# Start a local OpenAI-compatible server:
mlx_lm.server --model "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "mlx-lm": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with Hermes Agent:

Start the MLX server

# Install MLX LM:
uv tool install mlx-lm
# Start a local OpenAI-compatible server:
mlx_lm.server --model "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default hybridaione/LFM2.5-1.2B-Text2SQL-MLX

Run Hermes

hermes

OpenClaw new

How to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with OpenClaw:

Start the MLX server

# Install MLX LM:
uv tool install mlx-lm
# Start a local OpenAI-compatible server:
mlx_lm.server --model "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"

Configure OpenClaw

# Install OpenClaw:
npm install -g openclaw@latest
# Register the local server and set it as the default model:
openclaw onboard --non-interactive --mode local \
  --auth-choice custom-api-key \
  --custom-base-url http://127.0.0.1:8080/v1 \
  --custom-model-id "hybridaione/LFM2.5-1.2B-Text2SQL-MLX" \
  --custom-provider-id mlx-lm \
  --custom-compatibility openai \
  --custom-text-input \
  --accept-risk \
  --skip-health

Run OpenClaw

openclaw agent --local --agent main --message "Hello from Hugging Face"

MLX LM

How to use hybridaione/LFM2.5-1.2B-Text2SQL-MLX with MLX LM:

Generate or start a chat session

# Install MLX LM
uv tool install mlx-lm
# Interactive chat REPL
mlx_lm.chat --model "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"

Run an OpenAI-compatible server

# Install MLX LM
uv tool install mlx-lm
# Start the server
mlx_lm.server --model "hybridaione/LFM2.5-1.2B-Text2SQL-MLX"
# Calling the OpenAI-compatible server with curl
curl -X POST "http://localhost:8000/v1/chat/completions" \
   -H "Content-Type: application/json" \
   --data '{
     "model": "hybridaione/LFM2.5-1.2B-Text2SQL-MLX",
     "messages": [
       {"role": "user", "content": "Hello"}
     ]
   }'

furukama commited on Jan 30

Commit

714792b

verified ·

1 Parent(s): 409798e

Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +58 -19
config.json +0 -10
model.safetensors +2 -2
model.safetensors.index.json +1 -187
model_comparison.png +0 -0
training_progression.png +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+training_progression.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -2,40 +2,79 @@
 license: apache-2.0
 base_model: LiquidAI/LFM2.5-1.2B-Instruct
 tags:
-- text-to-sql
-- sql
-- mlx
-- 4-bit
 language:
-- en
 pipeline_tag: text-generation
-library_name: mlx
 ---
-# LFM2.5-1.2B-Text2SQL (MLX 4-bit)
-MLX-optimized 4-bit quantized version for Apple Silicon.
 ## Usage
 ```python
 from mlx_lm import load, generate
-model, tokenizer = load("hybridaione/LFM2.5-1.2B-Text2SQL-MLX")
-prompt = '''<|im_start|>system
-You are an expert SQL writer.<|im_end|>
-<|im_start|>user
-Schema:
-CREATE TABLE users (id INTEGER, name TEXT);
-Question: Count all users<|im_end|>
-<|im_start|>assistant
-'''
 response = generate(model, tokenizer, prompt=prompt, max_tokens=256)
 print(response)
 ```
-## Other Formats
-- **PyTorch/vLLM**: [hybridaione/LFM2.5-1.2B-Text2SQL](https://huggingface.co/hybridaione/LFM2.5-1.2B-Text2SQL)

 license: apache-2.0
 base_model: LiquidAI/LFM2.5-1.2B-Instruct
 tags:
+  - text2sql
+  - sql
+  - fine-tuned
+  - lora
+  - mlx
+datasets:
+  - synthetic
 language:
+  - en
 pipeline_tag: text-generation
 ---
+# LFM2.5-1.2B-Text2SQL (MLX)
+A fine-tuned version of [LiquidAI/LFM2.5-1.2B-Instruct](https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct) for Text-to-SQL generation.
+## Model Description
+This model was fine-tuned on 2000 synthetic Text-to-SQL examples generated using a teacher model (DeepSeek V3).
+The fine-tuning was performed using LoRA adapters with MLX on Apple Silicon, then fused into the base model.
+### Training Details
+- **Base Model**: LiquidAI/LFM2.5-1.2B-Instruct
+- **Training Data**: 2000 synthetic examples
+- **Training Method**: LoRA fine-tuning (FP16)
+- **Iterations**: 5400
+- **Hardware**: Apple Silicon (MLX)
+## Performance
+### Model Comparison
+![Model Comparison](model_comparison.png)
+| Metric | Teacher (DeepSeek V3) | Base Model | Fine-tuned |
+|--------|----------------------|------------|------------|
+| Exact Match | 60% | 48% | **72%** |
+| LLM-as-Judge | 90% | 75% | 87% |
+| ROUGE-L | 92% | 83% | **94%** |
+| BLEU | 85% | 70% | **89%** |
+| Semantic Similarity | 96% | 93% | **97%** |
+### Training Progression
+![Training Progression](training_progression.png)
+The model shows consistent improvement across all checkpoints with no signs of overfitting.
 ## Usage
+### MLX (Apple Silicon)
 ```python
 from mlx_lm import load, generate
+model, tokenizer = load("furukama/LFM2.5-1.2B-Text2SQL-MLX")
+# Example query
+prompt = '''CREATE TABLE employees (id INT, name VARCHAR, salary DECIMAL);
+Question: What are the names of employees earning more than 50000?'''
 response = generate(model, tokenizer, prompt=prompt, max_tokens=256)
 print(response)
 ```
+## Limitations
+- Trained on synthetic data for a specific database schema
+- Best suited for similar SQL query patterns seen during training
+- May not generalize well to very different database schemas
+## License
+This model is released under the Apache 2.0 license, following the base model's license.

config.json CHANGED Viewed

@@ -48,16 +48,6 @@
     "num_hidden_layers": 16,
     "num_key_value_heads": 8,
     "pad_token_id": 0,
-    "quantization": {
-        "group_size": 64,
-        "bits": 4,
-        "mode": "affine"
-    },
-    "quantization_config": {
-        "group_size": 64,
-        "bits": 4,
-        "mode": "affine"
-    },
     "rope_theta": 1000000.0,
     "tie_embedding": true,
     "transformers_version": "4.57.2",

     "num_hidden_layers": 16,
     "num_key_value_heads": 8,
     "pad_token_id": 0,
     "rope_theta": 1000000.0,
     "tie_embedding": true,
     "transformers_version": "4.57.2",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa003939b5a7009c2095b03333ebdd6e5b1b12e515974b1d23df4fa08ab1957a
-size 658540250

 version https://git-lfs.github.com/spec/v1
+oid sha256:420460c9cac5ef5c07727fa98cc497c7ac7a6aa05991b103474458b91324a508
+size 2340697867

model.safetensors.index.json CHANGED Viewed

@@ -1,340 +1,154 @@
 {
     "metadata": {
-        "total_size": 658503168,
         "total_parameters": 1170340608
     },
     "weight_map": {
-        "model.embed_tokens.biases": "model.safetensors",
-        "model.embed_tokens.scales": "model.safetensors",
         "model.embed_tokens.weight": "model.safetensors",
         "model.embedding_norm.weight": "model.safetensors",
         "model.layers.0.conv.conv.weight": "model.safetensors",
-        "model.layers.0.conv.in_proj.biases": "model.safetensors",
-        "model.layers.0.conv.in_proj.scales": "model.safetensors",
         "model.layers.0.conv.in_proj.weight": "model.safetensors",
-        "model.layers.0.conv.out_proj.biases": "model.safetensors",
-        "model.layers.0.conv.out_proj.scales": "model.safetensors",
         "model.layers.0.conv.out_proj.weight": "model.safetensors",
-        "model.layers.0.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.0.feed_forward.w1.scales": "model.safetensors",
         "model.layers.0.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.0.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.0.feed_forward.w2.scales": "model.safetensors",
         "model.layers.0.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.0.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.0.feed_forward.w3.scales": "model.safetensors",
         "model.layers.0.feed_forward.w3.weight": "model.safetensors",
         "model.layers.0.ffn_norm.weight": "model.safetensors",
         "model.layers.0.operator_norm.weight": "model.safetensors",
         "model.layers.1.conv.conv.weight": "model.safetensors",
-        "model.layers.1.conv.in_proj.biases": "model.safetensors",
-        "model.layers.1.conv.in_proj.scales": "model.safetensors",
         "model.layers.1.conv.in_proj.weight": "model.safetensors",
-        "model.layers.1.conv.out_proj.biases": "model.safetensors",
-        "model.layers.1.conv.out_proj.scales": "model.safetensors",
         "model.layers.1.conv.out_proj.weight": "model.safetensors",
-        "model.layers.1.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.1.feed_forward.w1.scales": "model.safetensors",
         "model.layers.1.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.1.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.1.feed_forward.w2.scales": "model.safetensors",
         "model.layers.1.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.1.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.1.feed_forward.w3.scales": "model.safetensors",
         "model.layers.1.feed_forward.w3.weight": "model.safetensors",
         "model.layers.1.ffn_norm.weight": "model.safetensors",
         "model.layers.1.operator_norm.weight": "model.safetensors",
-        "model.layers.10.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.10.feed_forward.w1.scales": "model.safetensors",
         "model.layers.10.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.10.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.10.feed_forward.w2.scales": "model.safetensors",
         "model.layers.10.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.10.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.10.feed_forward.w3.scales": "model.safetensors",
         "model.layers.10.feed_forward.w3.weight": "model.safetensors",
         "model.layers.10.ffn_norm.weight": "model.safetensors",
         "model.layers.10.operator_norm.weight": "model.safetensors",
         "model.layers.10.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.10.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.10.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.10.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.10.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.10.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.10.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.10.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.10.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.10.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.10.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.10.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.10.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.10.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.11.conv.conv.weight": "model.safetensors",
-        "model.layers.11.conv.in_proj.biases": "model.safetensors",
-        "model.layers.11.conv.in_proj.scales": "model.safetensors",
         "model.layers.11.conv.in_proj.weight": "model.safetensors",
-        "model.layers.11.conv.out_proj.biases": "model.safetensors",
-        "model.layers.11.conv.out_proj.scales": "model.safetensors",
         "model.layers.11.conv.out_proj.weight": "model.safetensors",
-        "model.layers.11.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.11.feed_forward.w1.scales": "model.safetensors",
         "model.layers.11.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.11.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.11.feed_forward.w2.scales": "model.safetensors",
         "model.layers.11.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.11.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.11.feed_forward.w3.scales": "model.safetensors",
         "model.layers.11.feed_forward.w3.weight": "model.safetensors",
         "model.layers.11.ffn_norm.weight": "model.safetensors",
         "model.layers.11.operator_norm.weight": "model.safetensors",
-        "model.layers.12.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.12.feed_forward.w1.scales": "model.safetensors",
         "model.layers.12.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.12.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.12.feed_forward.w2.scales": "model.safetensors",
         "model.layers.12.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.12.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.12.feed_forward.w3.scales": "model.safetensors",
         "model.layers.12.feed_forward.w3.weight": "model.safetensors",
         "model.layers.12.ffn_norm.weight": "model.safetensors",
         "model.layers.12.operator_norm.weight": "model.safetensors",
         "model.layers.12.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.12.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.12.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.12.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.12.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.12.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.12.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.12.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.12.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.12.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.12.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.12.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.12.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.12.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.13.conv.conv.weight": "model.safetensors",
-        "model.layers.13.conv.in_proj.biases": "model.safetensors",
-        "model.layers.13.conv.in_proj.scales": "model.safetensors",
         "model.layers.13.conv.in_proj.weight": "model.safetensors",
-        "model.layers.13.conv.out_proj.biases": "model.safetensors",
-        "model.layers.13.conv.out_proj.scales": "model.safetensors",
         "model.layers.13.conv.out_proj.weight": "model.safetensors",
-        "model.layers.13.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.13.feed_forward.w1.scales": "model.safetensors",
         "model.layers.13.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.13.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.13.feed_forward.w2.scales": "model.safetensors",
         "model.layers.13.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.13.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.13.feed_forward.w3.scales": "model.safetensors",
         "model.layers.13.feed_forward.w3.weight": "model.safetensors",
         "model.layers.13.ffn_norm.weight": "model.safetensors",
         "model.layers.13.operator_norm.weight": "model.safetensors",
-        "model.layers.14.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.14.feed_forward.w1.scales": "model.safetensors",
         "model.layers.14.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.14.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.14.feed_forward.w2.scales": "model.safetensors",
         "model.layers.14.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.14.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.14.feed_forward.w3.scales": "model.safetensors",
         "model.layers.14.feed_forward.w3.weight": "model.safetensors",
         "model.layers.14.ffn_norm.weight": "model.safetensors",
         "model.layers.14.operator_norm.weight": "model.safetensors",
         "model.layers.14.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.14.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.14.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.14.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.14.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.14.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.14.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.14.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.14.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.14.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.14.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.14.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.14.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.14.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.15.conv.conv.weight": "model.safetensors",
-        "model.layers.15.conv.in_proj.biases": "model.safetensors",
-        "model.layers.15.conv.in_proj.scales": "model.safetensors",
         "model.layers.15.conv.in_proj.weight": "model.safetensors",
-        "model.layers.15.conv.out_proj.biases": "model.safetensors",
-        "model.layers.15.conv.out_proj.scales": "model.safetensors",
         "model.layers.15.conv.out_proj.weight": "model.safetensors",
-        "model.layers.15.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.15.feed_forward.w1.scales": "model.safetensors",
         "model.layers.15.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.15.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.15.feed_forward.w2.scales": "model.safetensors",
         "model.layers.15.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.15.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.15.feed_forward.w3.scales": "model.safetensors",
         "model.layers.15.feed_forward.w3.weight": "model.safetensors",
         "model.layers.15.ffn_norm.weight": "model.safetensors",
         "model.layers.15.operator_norm.weight": "model.safetensors",
-        "model.layers.2.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.2.feed_forward.w1.scales": "model.safetensors",
         "model.layers.2.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.2.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.2.feed_forward.w2.scales": "model.safetensors",
         "model.layers.2.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.2.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.2.feed_forward.w3.scales": "model.safetensors",
         "model.layers.2.feed_forward.w3.weight": "model.safetensors",
         "model.layers.2.ffn_norm.weight": "model.safetensors",
         "model.layers.2.operator_norm.weight": "model.safetensors",
         "model.layers.2.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.2.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.2.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.2.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.2.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.2.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.2.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.2.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.2.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.2.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.2.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.2.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.2.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.2.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.3.conv.conv.weight": "model.safetensors",
-        "model.layers.3.conv.in_proj.biases": "model.safetensors",
-        "model.layers.3.conv.in_proj.scales": "model.safetensors",
         "model.layers.3.conv.in_proj.weight": "model.safetensors",
-        "model.layers.3.conv.out_proj.biases": "model.safetensors",
-        "model.layers.3.conv.out_proj.scales": "model.safetensors",
         "model.layers.3.conv.out_proj.weight": "model.safetensors",
-        "model.layers.3.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.3.feed_forward.w1.scales": "model.safetensors",
         "model.layers.3.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.3.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.3.feed_forward.w2.scales": "model.safetensors",
         "model.layers.3.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.3.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.3.feed_forward.w3.scales": "model.safetensors",
         "model.layers.3.feed_forward.w3.weight": "model.safetensors",
         "model.layers.3.ffn_norm.weight": "model.safetensors",
         "model.layers.3.operator_norm.weight": "model.safetensors",
         "model.layers.4.conv.conv.weight": "model.safetensors",
-        "model.layers.4.conv.in_proj.biases": "model.safetensors",
-        "model.layers.4.conv.in_proj.scales": "model.safetensors",
         "model.layers.4.conv.in_proj.weight": "model.safetensors",
-        "model.layers.4.conv.out_proj.biases": "model.safetensors",
-        "model.layers.4.conv.out_proj.scales": "model.safetensors",
         "model.layers.4.conv.out_proj.weight": "model.safetensors",
-        "model.layers.4.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.4.feed_forward.w1.scales": "model.safetensors",
         "model.layers.4.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.4.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.4.feed_forward.w2.scales": "model.safetensors",
         "model.layers.4.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.4.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.4.feed_forward.w3.scales": "model.safetensors",
         "model.layers.4.feed_forward.w3.weight": "model.safetensors",
         "model.layers.4.ffn_norm.weight": "model.safetensors",
         "model.layers.4.operator_norm.weight": "model.safetensors",
-        "model.layers.5.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.5.feed_forward.w1.scales": "model.safetensors",
         "model.layers.5.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.5.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.5.feed_forward.w2.scales": "model.safetensors",
         "model.layers.5.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.5.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.5.feed_forward.w3.scales": "model.safetensors",
         "model.layers.5.feed_forward.w3.weight": "model.safetensors",
         "model.layers.5.ffn_norm.weight": "model.safetensors",
         "model.layers.5.operator_norm.weight": "model.safetensors",
         "model.layers.5.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.5.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.5.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.5.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.5.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.5.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.5.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.5.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.5.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.5.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.5.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.5.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.5.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.5.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.6.conv.conv.weight": "model.safetensors",
-        "model.layers.6.conv.in_proj.biases": "model.safetensors",
-        "model.layers.6.conv.in_proj.scales": "model.safetensors",
         "model.layers.6.conv.in_proj.weight": "model.safetensors",
-        "model.layers.6.conv.out_proj.biases": "model.safetensors",
-        "model.layers.6.conv.out_proj.scales": "model.safetensors",
         "model.layers.6.conv.out_proj.weight": "model.safetensors",
-        "model.layers.6.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.6.feed_forward.w1.scales": "model.safetensors",
         "model.layers.6.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.6.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.6.feed_forward.w2.scales": "model.safetensors",
         "model.layers.6.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.6.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.6.feed_forward.w3.scales": "model.safetensors",
         "model.layers.6.feed_forward.w3.weight": "model.safetensors",
         "model.layers.6.ffn_norm.weight": "model.safetensors",
         "model.layers.6.operator_norm.weight": "model.safetensors",
         "model.layers.7.conv.conv.weight": "model.safetensors",
-        "model.layers.7.conv.in_proj.biases": "model.safetensors",
-        "model.layers.7.conv.in_proj.scales": "model.safetensors",
         "model.layers.7.conv.in_proj.weight": "model.safetensors",
-        "model.layers.7.conv.out_proj.biases": "model.safetensors",
-        "model.layers.7.conv.out_proj.scales": "model.safetensors",
         "model.layers.7.conv.out_proj.weight": "model.safetensors",
-        "model.layers.7.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.7.feed_forward.w1.scales": "model.safetensors",
         "model.layers.7.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.7.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.7.feed_forward.w2.scales": "model.safetensors",
         "model.layers.7.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.7.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.7.feed_forward.w3.scales": "model.safetensors",
         "model.layers.7.feed_forward.w3.weight": "model.safetensors",
         "model.layers.7.ffn_norm.weight": "model.safetensors",
         "model.layers.7.operator_norm.weight": "model.safetensors",
-        "model.layers.8.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.8.feed_forward.w1.scales": "model.safetensors",
         "model.layers.8.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.8.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.8.feed_forward.w2.scales": "model.safetensors",
         "model.layers.8.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.8.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.8.feed_forward.w3.scales": "model.safetensors",
         "model.layers.8.feed_forward.w3.weight": "model.safetensors",
         "model.layers.8.ffn_norm.weight": "model.safetensors",
         "model.layers.8.operator_norm.weight": "model.safetensors",
         "model.layers.8.self_attn.k_layernorm.weight": "model.safetensors",
-        "model.layers.8.self_attn.k_proj.biases": "model.safetensors",
-        "model.layers.8.self_attn.k_proj.scales": "model.safetensors",
         "model.layers.8.self_attn.k_proj.weight": "model.safetensors",
-        "model.layers.8.self_attn.out_proj.biases": "model.safetensors",
-        "model.layers.8.self_attn.out_proj.scales": "model.safetensors",
         "model.layers.8.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.8.self_attn.q_layernorm.weight": "model.safetensors",
-        "model.layers.8.self_attn.q_proj.biases": "model.safetensors",
-        "model.layers.8.self_attn.q_proj.scales": "model.safetensors",
         "model.layers.8.self_attn.q_proj.weight": "model.safetensors",
-        "model.layers.8.self_attn.v_proj.biases": "model.safetensors",
-        "model.layers.8.self_attn.v_proj.scales": "model.safetensors",
         "model.layers.8.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.9.conv.conv.weight": "model.safetensors",
-        "model.layers.9.conv.in_proj.biases": "model.safetensors",
-        "model.layers.9.conv.in_proj.scales": "model.safetensors",
         "model.layers.9.conv.in_proj.weight": "model.safetensors",
-        "model.layers.9.conv.out_proj.biases": "model.safetensors",
-        "model.layers.9.conv.out_proj.scales": "model.safetensors",
         "model.layers.9.conv.out_proj.weight": "model.safetensors",
-        "model.layers.9.feed_forward.w1.biases": "model.safetensors",
-        "model.layers.9.feed_forward.w1.scales": "model.safetensors",
         "model.layers.9.feed_forward.w1.weight": "model.safetensors",
-        "model.layers.9.feed_forward.w2.biases": "model.safetensors",
-        "model.layers.9.feed_forward.w2.scales": "model.safetensors",
         "model.layers.9.feed_forward.w2.weight": "model.safetensors",
-        "model.layers.9.feed_forward.w3.biases": "model.safetensors",
-        "model.layers.9.feed_forward.w3.scales": "model.safetensors",
         "model.layers.9.feed_forward.w3.weight": "model.safetensors",
         "model.layers.9.ffn_norm.weight": "model.safetensors",
         "model.layers.9.operator_norm.weight": "model.safetensors"

 {
     "metadata": {
+        "total_size": 2340681216,
         "total_parameters": 1170340608
     },
     "weight_map": {
         "model.embed_tokens.weight": "model.safetensors",
         "model.embedding_norm.weight": "model.safetensors",
         "model.layers.0.conv.conv.weight": "model.safetensors",
         "model.layers.0.conv.in_proj.weight": "model.safetensors",
         "model.layers.0.conv.out_proj.weight": "model.safetensors",
         "model.layers.0.feed_forward.w1.weight": "model.safetensors",
         "model.layers.0.feed_forward.w2.weight": "model.safetensors",
         "model.layers.0.feed_forward.w3.weight": "model.safetensors",
         "model.layers.0.ffn_norm.weight": "model.safetensors",
         "model.layers.0.operator_norm.weight": "model.safetensors",
         "model.layers.1.conv.conv.weight": "model.safetensors",
         "model.layers.1.conv.in_proj.weight": "model.safetensors",
         "model.layers.1.conv.out_proj.weight": "model.safetensors",
         "model.layers.1.feed_forward.w1.weight": "model.safetensors",
         "model.layers.1.feed_forward.w2.weight": "model.safetensors",
         "model.layers.1.feed_forward.w3.weight": "model.safetensors",
         "model.layers.1.ffn_norm.weight": "model.safetensors",
         "model.layers.1.operator_norm.weight": "model.safetensors",
         "model.layers.10.feed_forward.w1.weight": "model.safetensors",
         "model.layers.10.feed_forward.w2.weight": "model.safetensors",
         "model.layers.10.feed_forward.w3.weight": "model.safetensors",
         "model.layers.10.ffn_norm.weight": "model.safetensors",
         "model.layers.10.operator_norm.weight": "model.safetensors",
         "model.layers.10.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.10.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.10.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.10.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.10.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.10.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.11.conv.conv.weight": "model.safetensors",
         "model.layers.11.conv.in_proj.weight": "model.safetensors",
         "model.layers.11.conv.out_proj.weight": "model.safetensors",
         "model.layers.11.feed_forward.w1.weight": "model.safetensors",
         "model.layers.11.feed_forward.w2.weight": "model.safetensors",
         "model.layers.11.feed_forward.w3.weight": "model.safetensors",
         "model.layers.11.ffn_norm.weight": "model.safetensors",
         "model.layers.11.operator_norm.weight": "model.safetensors",
         "model.layers.12.feed_forward.w1.weight": "model.safetensors",
         "model.layers.12.feed_forward.w2.weight": "model.safetensors",
         "model.layers.12.feed_forward.w3.weight": "model.safetensors",
         "model.layers.12.ffn_norm.weight": "model.safetensors",
         "model.layers.12.operator_norm.weight": "model.safetensors",
         "model.layers.12.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.12.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.12.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.12.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.12.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.12.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.13.conv.conv.weight": "model.safetensors",
         "model.layers.13.conv.in_proj.weight": "model.safetensors",
         "model.layers.13.conv.out_proj.weight": "model.safetensors",
         "model.layers.13.feed_forward.w1.weight": "model.safetensors",
         "model.layers.13.feed_forward.w2.weight": "model.safetensors",
         "model.layers.13.feed_forward.w3.weight": "model.safetensors",
         "model.layers.13.ffn_norm.weight": "model.safetensors",
         "model.layers.13.operator_norm.weight": "model.safetensors",
         "model.layers.14.feed_forward.w1.weight": "model.safetensors",
         "model.layers.14.feed_forward.w2.weight": "model.safetensors",
         "model.layers.14.feed_forward.w3.weight": "model.safetensors",
         "model.layers.14.ffn_norm.weight": "model.safetensors",
         "model.layers.14.operator_norm.weight": "model.safetensors",
         "model.layers.14.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.14.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.14.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.14.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.14.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.14.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.15.conv.conv.weight": "model.safetensors",
         "model.layers.15.conv.in_proj.weight": "model.safetensors",
         "model.layers.15.conv.out_proj.weight": "model.safetensors",
         "model.layers.15.feed_forward.w1.weight": "model.safetensors",
         "model.layers.15.feed_forward.w2.weight": "model.safetensors",
         "model.layers.15.feed_forward.w3.weight": "model.safetensors",
         "model.layers.15.ffn_norm.weight": "model.safetensors",
         "model.layers.15.operator_norm.weight": "model.safetensors",
         "model.layers.2.feed_forward.w1.weight": "model.safetensors",
         "model.layers.2.feed_forward.w2.weight": "model.safetensors",
         "model.layers.2.feed_forward.w3.weight": "model.safetensors",
         "model.layers.2.ffn_norm.weight": "model.safetensors",
         "model.layers.2.operator_norm.weight": "model.safetensors",
         "model.layers.2.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.2.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.2.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.2.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.2.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.2.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.3.conv.conv.weight": "model.safetensors",
         "model.layers.3.conv.in_proj.weight": "model.safetensors",
         "model.layers.3.conv.out_proj.weight": "model.safetensors",
         "model.layers.3.feed_forward.w1.weight": "model.safetensors",
         "model.layers.3.feed_forward.w2.weight": "model.safetensors",
         "model.layers.3.feed_forward.w3.weight": "model.safetensors",
         "model.layers.3.ffn_norm.weight": "model.safetensors",
         "model.layers.3.operator_norm.weight": "model.safetensors",
         "model.layers.4.conv.conv.weight": "model.safetensors",
         "model.layers.4.conv.in_proj.weight": "model.safetensors",
         "model.layers.4.conv.out_proj.weight": "model.safetensors",
         "model.layers.4.feed_forward.w1.weight": "model.safetensors",
         "model.layers.4.feed_forward.w2.weight": "model.safetensors",
         "model.layers.4.feed_forward.w3.weight": "model.safetensors",
         "model.layers.4.ffn_norm.weight": "model.safetensors",
         "model.layers.4.operator_norm.weight": "model.safetensors",
         "model.layers.5.feed_forward.w1.weight": "model.safetensors",
         "model.layers.5.feed_forward.w2.weight": "model.safetensors",
         "model.layers.5.feed_forward.w3.weight": "model.safetensors",
         "model.layers.5.ffn_norm.weight": "model.safetensors",
         "model.layers.5.operator_norm.weight": "model.safetensors",
         "model.layers.5.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.5.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.5.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.5.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.5.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.5.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.6.conv.conv.weight": "model.safetensors",
         "model.layers.6.conv.in_proj.weight": "model.safetensors",
         "model.layers.6.conv.out_proj.weight": "model.safetensors",
         "model.layers.6.feed_forward.w1.weight": "model.safetensors",
         "model.layers.6.feed_forward.w2.weight": "model.safetensors",
         "model.layers.6.feed_forward.w3.weight": "model.safetensors",
         "model.layers.6.ffn_norm.weight": "model.safetensors",
         "model.layers.6.operator_norm.weight": "model.safetensors",
         "model.layers.7.conv.conv.weight": "model.safetensors",
         "model.layers.7.conv.in_proj.weight": "model.safetensors",
         "model.layers.7.conv.out_proj.weight": "model.safetensors",
         "model.layers.7.feed_forward.w1.weight": "model.safetensors",
         "model.layers.7.feed_forward.w2.weight": "model.safetensors",
         "model.layers.7.feed_forward.w3.weight": "model.safetensors",
         "model.layers.7.ffn_norm.weight": "model.safetensors",
         "model.layers.7.operator_norm.weight": "model.safetensors",
         "model.layers.8.feed_forward.w1.weight": "model.safetensors",
         "model.layers.8.feed_forward.w2.weight": "model.safetensors",
         "model.layers.8.feed_forward.w3.weight": "model.safetensors",
         "model.layers.8.ffn_norm.weight": "model.safetensors",
         "model.layers.8.operator_norm.weight": "model.safetensors",
         "model.layers.8.self_attn.k_layernorm.weight": "model.safetensors",
         "model.layers.8.self_attn.k_proj.weight": "model.safetensors",
         "model.layers.8.self_attn.out_proj.weight": "model.safetensors",
         "model.layers.8.self_attn.q_layernorm.weight": "model.safetensors",
         "model.layers.8.self_attn.q_proj.weight": "model.safetensors",
         "model.layers.8.self_attn.v_proj.weight": "model.safetensors",
         "model.layers.9.conv.conv.weight": "model.safetensors",
         "model.layers.9.conv.in_proj.weight": "model.safetensors",
         "model.layers.9.conv.out_proj.weight": "model.safetensors",
         "model.layers.9.feed_forward.w1.weight": "model.safetensors",
         "model.layers.9.feed_forward.w2.weight": "model.safetensors",
         "model.layers.9.feed_forward.w3.weight": "model.safetensors",
         "model.layers.9.ffn_norm.weight": "model.safetensors",
         "model.layers.9.operator_norm.weight": "model.safetensors"

model_comparison.png ADDED Viewed

training_progression.png ADDED Viewed

Git LFS Details

SHA256: ff9e4eef7c04052ad5c501b9dde336ccfedfe837ffd726c49ee4e4f48a8027da
Pointer size: 131 Bytes
Size of remote file: 141 kB