LiquidAI
/

LFM2.5-1.2B-Instruct-ONNX

@@ -59,10 +59,18 @@ LFM2.5 is a hybrid architecture combining multiplicative gates and short convolu
 ```
 onnx/
-├── model.onnx              # FP32
-├── model_fp16.onnx         # FP16
-├── model_q4.onnx           # Q4 (recommended)
-└── model_q8.onnx           # Q8
 ```
 ## Python
@@ -86,7 +94,12 @@ from transformers import AutoTokenizer
 # Download model (Q4 recommended)
 model_id = "LiquidAI/LFM2.5-1.2B-Instruct-ONNX"
 model_path = hf_hub_download(model_id, "onnx/model_q4.onnx")
-data_path = hf_hub_download(model_id, "onnx/model_q4.onnx_data")
 # Load model and tokenizer
 session = ort.InferenceSession(model_path)

 ```
 onnx/
+├── model.onnx              # FP32 model graph
+├── model.onnx_data*        # FP32 weights
+├── model_fp16.onnx         # FP16 model graph
+├── model_fp16.onnx_data*   # FP16 weights
+├── model_q4.onnx           # Q4 model graph (recommended)
+├── model_q4.onnx_data      # Q4 weights
+├── model_q8.onnx           # Q8 model graph
+└── model_q8.onnx_data      # Q8 weights
+* Large models (>2GB) split weights across multiple files:
+  model.onnx_data, model.onnx_data_1, model.onnx_data_2, etc.
+  All data files must be in the same directory as the .onnx file.
 ```
 ## Python
 # Download model (Q4 recommended)
 model_id = "LiquidAI/LFM2.5-1.2B-Instruct-ONNX"
 model_path = hf_hub_download(model_id, "onnx/model_q4.onnx")
+# Download all data files (handles multiple splits for large models)
+from huggingface_hub import list_repo_files
+for f in list_repo_files(model_id):
+    if f.startswith("onnx/model_q4.onnx_data"):
+        hf_hub_download(model_id, f)
 # Load model and tokenizer
 session = ort.InferenceSession(model_path)