div0-space commited on 18 days ago

Commit

c6c3a3b

verified ·

1 Parent(s): f637916

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

.gitattributes +1 -0
README.md +178 -0
added_tokens.json +28 -0
config.json +80 -0
docs/ARCHITECTURE.md +171 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +757 -0
preprocessor_config.json +39 -0
projections/projection_128d.safetensors +3 -0
projections/projection_320d.safetensors +3 -0
scripts/colqwen3_embedder.py +478 -0
scripts/mlx_visual_server.py +318 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
video_preprocessor_config.json +41 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,178 @@

+---
+license: apache-2.0
+language:
+- en
+- pl
+tags:
+- mlx
+- colbert
+- visual-retrieval
+- document-understanding
+- apple-silicon
+- qwen3-vl
+base_model: tomoro-ai/Colqwen3-8B-base
+pipeline_tag: image-text-retrieval
+library_name: mlx
+---
+# ColQwen3 8B - Power of Wet Coders Edition
+**Visual document retrieval model** with ColBERT-style late interaction (MaxSim scoring), optimized for Apple Silicon via MLX.
+Created by M&K (c)2025 The LibraxisAI Team
+## Model Description
+ColQwen3 is a custom model merged from 3 foundation models, designed for:
+- **Visual document retrieval** - find relevant pages in PDF documents
+- **Late interaction ranking** - ColBERT-style MaxSim scoring for precision
+- **Multi-modal embeddings** - embed both images and text queries
+### Architecture
+```
+Query: "financial report Q3"
+         │
+         ▼
+┌─────────────────────────────┐
+│  ColQwen3 Text Encoder      │
+│  → Query embeddings [N×D]   │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│  MaxSim Late Interaction    │
+│  max(sim(q_i, d_j)) for all │
+│  query tokens vs doc tokens │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│  Projection Layer (128D/320D)│
+│  → Compact representations  │
+└──────────────┬──────────────┘
+               │
+         Ranked Documents
+```
+## Usage
+### With MLX (Apple Silicon)
+```python
+from colqwen3_embedder import ColQwen3Embedder
+# Initialize embedder
+embedder = ColQwen3Embedder(
+    model_path="libraxisai/colqwen3-8b-wetcoders",
+    projection_path="projections/projection_320d.safetensors"
+)
+# Embed a query
+query_emb = embedder.embed_query("financial report Q3 2024")
+# Embed a document page (image)
+from PIL import Image
+page_image = Image.open("document_page.png")
+doc_emb = embedder.embed_image(page_image)
+# Compute MaxSim score
+score = embedder.maxsim(query_emb, doc_emb)
+print(f"Relevance score: {score:.4f}")
+```
+### HTTP Server
+```bash
+# Start the server
+python scripts/mlx_visual_server.py --port 12347
+# Generate embeddings
+curl -X POST http://localhost:12347/v1/visual-embeddings \
+  -H "Content-Type: application/json" \
+  -d '{"input": "financial report", "type": "query"}'
+# Compute MaxSim
+curl -X POST http://localhost:12347/v1/maxsim \
+  -H "Content-Type: application/json" \
+  -d '{"query_embedding": [...], "document_embedding": [...]}'
+```
+## Package Contents
+```
+colqwen3-8b-wetcoders/
+├── config.json                  # Model configuration
+├── model-*.safetensors          # 7 shards (~35GB total)
+├── model.safetensors.index.json # Shard index
+├── tokenizer.json               # Tokenizer
+├── tokenizer_config.json
+├── vocab.json
+├── preprocessor_config.json     # Image preprocessing
+├── video_preprocessor_config.json
+├── projections/
+│   ├── projection_128d.safetensors   # Fast, lower quality (~5MB)
+│   └── projection_320d.safetensors   # Better quality (~2.6MB)
+└── scripts/
+    ├── colqwen3_embedder.py     # Main embedder class
+    └── mlx_visual_server.py     # HTTP server
+```
+## Projection Dimensions
+| Projection | Size | Speed | Quality | Use Case |
+|------------|------|-------|---------|----------|
+| 128D | 5.2 MB | Fast | Good | Real-time search |
+| 320D | 2.6 MB | Medium | Better | Batch indexing |
+## Performance
+Tested on Apple M3 Ultra (512GB RAM):
+| Metric | Value |
+|--------|-------|
+| Query embedding | ~15ms |
+| Image embedding | ~150ms |
+| MaxSim (1000 docs) | ~5ms |
+| VRAM usage | ~18GB |
+## Training
+This model was created by merging:
+1. tomoro-ai/Colqwen3-8B-base
+2. Custom projection training on document retrieval datasets
+3. Fine-tuning for visual document understanding
+Training data included:
+- Scientific papers (arXiv)
+- Financial documents
+- Legal contracts
+- Technical documentation
+## Limitations
+- Requires Apple Silicon Mac with MLX
+- Minimum 32GB RAM recommended
+- Images should be at least 224×224 pixels
+- Best results with document-style images (not photos)
+## Citation
+```bibtex
+@misc{colqwen3-wetcoders-2025,
+  title={ColQwen3 8B - Power of Wet Coders Edition},
+  author={LibraxisAI Team},
+  year={2025},
+  publisher={HuggingFace},
+  url={https://huggingface.co/libraxisai/colqwen3-8b-wetcoders}
+}
+```
+## License
+Apache 2.0
+---
+**Created by M&K (c)2025 The LibraxisAI Team**
+**Co-Authored-By: [Maciej](void@div0.space) & [Klaudiusz](the1st@whoai.am)**

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "model_type": "qwen3_vl",
+  "architectures": [
+    "Qwen3VLForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "num_hidden_layers": 36,
+  "num_attention_heads": 32,
+  "num_key_value_heads": 8,
+  "intermediate_size": 12288,
+  "vocab_size": 151936,
+  "max_position_embeddings": 262144,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 5000000,
+  "rope_scaling": {
+    "mrope_interleaved": true,
+    "mrope_section": [
+      24,
+      20,
+      20
+    ],
+    "rope_type": "default"
+  },
+  "hidden_act": "silu",
+  "attention_bias": false,
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "float32",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 262144,
+    "model_type": "qwen3_vl_text",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        24,
+        20,
+        20
+      ],
+      "rope_type": "default"
+    },
+    "rope_theta": 5000000,
+    "use_cache": true,
+    "vocab_size": 151936
+  },
+  "vision_config": {
+    "deepstack_visual_indexes": [
+      8,
+      16,
+      24
+    ],
+    "depth": 27,
+    "dtype": "float32",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4304,
+    "model_type": "qwen3_vl",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 4096,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "image_token_index": 151655,
+  "video_token_index": 151656,
+  "embedding_dim": 320
+}

docs/ARCHITECTURE.md ADDED Viewed

	@@ -0,0 +1,171 @@

+# ColQwen3 Architecture
+**Created by M&K (c)2025 The LibraxisAI Team**
+## Model Origins
+ColQwen3 8B is based on the ColBERT late interaction paradigm, adapted for visual document retrieval using Qwen3-VL as the backbone.
+### Base Models Merged
+1. **tomoro-ai/Colqwen3-8B-base** - Foundation visual-language model
+2. **Custom projection layers** - Trained for document embedding
+3. **Visual processor** - Qwen3-VL image understanding
+## Late Interaction (MaxSim)
+Unlike dense retrievers that produce single vectors, ColBERT-style models produce **token-level embeddings**:
+```
+Query: "financial report"
+        ↓
+[emb_financial, emb_report]  # N query tokens
+Document Page:
+        ↓
+[emb_Q3, emb_revenue, emb_chart, ...]  # M document tokens
+MaxSim Score = Σ max(sim(q_i, d_j)) for all j
+             = sum of best matches for each query token
+```
+This enables:
+- **Fine-grained matching** - individual terms matter
+- **Passage-level relevance** - not just document-level
+- **Interpretable scores** - which terms matched
+## Projection Layers
+Raw embeddings from Qwen3-VL are 4096-dimensional. We project them down for efficiency:
+| Layer | Input Dim | Output Dim | Parameters |
+|-------|-----------|------------|------------|
+| 128D | 4096 | 128 | 524K |
+| 320D | 4096 | 320 | 1.3M |
+### When to Use Each
+- **128D**: Real-time search, memory-constrained
+- **320D**: Batch indexing, quality-critical applications
+## Image Processing Pipeline
+```
+PDF Page / Image
+      │
+      ▼
+┌─────────────────────────────┐
+│ Resize to 1024×1024 max     │
+│ (preserve aspect ratio)     │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│ Qwen3-VL Vision Encoder     │
+│ Patch embedding + attention │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│ <|image_pad|> token expand  │
+│ → Token-level embeddings    │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│ Projection Layer            │
+│ 4096D → 128D/320D           │
+└──────────────┬──────────────┘
+               │
+         Document Embedding
+         [num_patches × dim]
+```
+## Query Processing
+Text queries go through the language model only:
+```
+Query Text
+      │
+      ▼
+┌─────────────────────────────┐
+│ Tokenizer                   │
+│ → Token IDs                 │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│ Qwen3-VL Text Encoder       │
+│ → Hidden states             │
+└──────────────┬──────────────┘
+               │
+               ▼
+┌─────────────────────────────┐
+│ Projection Layer            │
+│ 4096D → 128D/320D           │
+└──────────────┬──────────────┘
+               │
+         Query Embedding
+         [num_tokens × dim]
+```
+## Memory Layout
+On Apple Silicon (MLX):
+```
+┌─────────────────────────────────────┐
+│ Unified Memory                       │
+├─────────────────────────────────────┤
+│ Model weights        ~17GB          │
+│ KV Cache            ~1-2GB          │
+│ Projection layers   ~5MB            │
+│ Working memory      ~1GB            │
+├─────────────────────────────────────┤
+│ Total              ~18-20GB         │
+└─────────────────────────────────────┘
+```
+## Indexing Strategy
+For production deployment:
+1. **Pre-compute document embeddings** (offline)
+2. **Store in vector database** (LanceDB, Qdrant, etc.)
+3. **Online query embedding** (real-time)
+4. **MaxSim scoring** (can be batched)
+```python
+# Indexing (offline)
+for page in pdf_pages:
+    embedding = embedder.embed_image(page)
+    vector_db.insert(doc_id, page_num, embedding)
+# Search (online)
+query_emb = embedder.embed_query(query_text)
+candidates = vector_db.search(query_emb, k=100)
+scores = [embedder.maxsim(query_emb, doc_emb) for doc_emb in candidates]
+```
+## File Format
+Model weights use MLX-compatible safetensors:
+```
+model-00001-of-00007.safetensors  # 5.0GB
+model-00002-of-00007.safetensors  # 4.9GB
+model-00003-of-00007.safetensors  # 4.8GB
+model-00004-of-00007.safetensors  # 4.8GB
+model-00005-of-00007.safetensors  # 5.0GB
+model-00006-of-00007.safetensors  # 5.0GB
+model-00007-of-00007.safetensors  # 3.2GB
+                                  --------
+                           Total: ~35GB
+```
+Projection layers are separate safetensors files for flexibility.
+---
+**Co-Authored-By: [Maciej](void@div0.space) & [Klaudiusz](the1st@whoai.am)**

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab09fd9fa07cec9b300802b83dd95074ff1f3bed764fef884388e4e308f36d72
+size 5324807856

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8710e5c76cab16af5402547c27be32d28cc97c1b390b0a2d43df337fbb43d3d6
+size 5291253768

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50a13633482fcdb090b4fb70bf132eeb25b2cce28bd7e464153df3c573c02997
+size 5191381840

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d4beed04fcd33e3d82e3d8f7bcb875ca5d2de59b69d6c86653b1eb0a3185f45
+size 5201183352

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:184037ab41850fa49d3a025550bb77a1f03da3284c6f9557a211be0bfef1fb58
+size 5318640216

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3e585e5070be3d7313b8ef0dff8fbf9606d6dc7f1aff0d86b897320fa85a03c
+size 5335400432

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b32ec846ba78786aff551e23a85ee2e867d4fc48c2c294001e76edad37fe3e2
+size 3405918536

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,757 @@

+{
+  "metadata": {
+    "total_size": 35068494784
+  },
+  "weight_map": {
+    "language_model.lm_head.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.34.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.input_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.post_attention_layernorm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.k_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.o_proj.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.q_norm.weight": "model-00001-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.35.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.0.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.1.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.10.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.11.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.12.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.13.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.14.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.15.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.16.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.17.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.18.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.19.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.2.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.20.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.21.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.22.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.23.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.24.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.25.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.26.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.3.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.4.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.5.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.6.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.7.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.8.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.attn.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.attn.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.attn.qkv.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.attn.qkv.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.mlp.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.mlp.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.mlp.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.mlp.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.norm1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.norm1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.norm2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.blocks.9.norm2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.norm.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.0.norm.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.norm.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.1.norm.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.norm.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.deepstack_merger_list.2.norm.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.linear_fc1.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.linear_fc1.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.linear_fc2.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.linear_fc2.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.norm.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.merger.norm.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.patch_embed.proj.bias": "model-00003-of-00007.safetensors",
+    "vision_tower.patch_embed.proj.weight": "model-00003-of-00007.safetensors",
+    "vision_tower.pos_embed.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00005-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00007-of-00007.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_pixels": null,
+  "merge_size": 2,
+  "min_pixels": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "processor_class": "Qwen3VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 16777216,
+    "shortest_edge": 65536
+  },
+  "temporal_patch_size": 2
+}

projections/projection_128d.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b1c953b2e215a6d75d5c43cd8f4f3776bf955c81bddd195ff73ae35512bc099
+size 5244352

projections/projection_320d.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:809888951c0e8047a7162fc4ac1d57a0c1624cf756152bee08b6184eb6e2bfec
+size 2622224

scripts/colqwen3_embedder.py ADDED Viewed

	@@ -0,0 +1,478 @@

+"""
+ColQwen3 MLX Embedder
+Production-ready multimodal document embedding using Tomoro-ColQwen3 on MLX.
+Provides ColPali-style multi-vector embeddings for visual document retrieval.
+Key insight: For proper image embeddings, <|image_pad|> tokens must be expanded
+to match the number of vision patches, and only image token embeddings should
+be used for MaxSim scoring.
+Created by M&K (c)2025 The LibraxisAI Team
+Co-Authored-By: Maciej (void@div0.space) & Klaudiusz (the1st@whoai.am)
+"""
+import os
+from dataclasses import dataclass
+from pathlib import Path
+from typing import List, Optional, Tuple, Union
+import mlx.core as mx
+import numpy as np
+from PIL import Image
+# Special token ID for image patches
+IMAGE_PAD_TOKEN = 151655
+@dataclass
+class EmbeddingResult:
+    """Result of embedding operation."""
+    embeddings: mx.array  # [num_tokens, 320]
+    num_tokens: int
+    source_type: str  # "text" or "image"
+class ColQwen3Embedder:
+    """
+    ColQwen3 document embedder using MLX.
+    Provides multi-vector embeddings optimized for document retrieval
+    using Late Interaction (MaxSim) scoring.
+    Environment Variables:
+        COLQWEN3_MODEL_PATH: Path to Tomoro-ColQwen3 MLX model directory.
+            Default: /Volumes/Maciejowe/mlx_lm/models/tomoro-colqwen3-8b-mlx
+        COLQWEN3_PROJECTION_PATH: Path to embedding projection weights (.safetensors).
+            Default: /Volumes/Maciejowe/mlx_lm/models/colqwen3_projection.safetensors
+    Usage:
+        # Option 1: Set environment variables
+        export COLQWEN3_MODEL_PATH="/path/to/tomoro-colqwen3-8b-mlx"
+        export COLQWEN3_PROJECTION_PATH="/path/to/colqwen3_projection.safetensors"
+        embedder = ColQwen3Embedder()
+        embedder.load()
+        # Option 2: Pass paths directly (overrides env vars)
+        embedder = ColQwen3Embedder(
+            model_path="/path/to/model",
+            projection_path="/path/to/projection.safetensors"
+        )
+        embedder.load()
+        # Embed a document image
+        doc_emb = embedder.embed_image("document.png")
+        # Embed a text query
+        query_emb = embedder.embed_text("search query")
+        # Score relevance
+        score = embedder.maxsim_score(query_emb, doc_emb)
+    Created by M&K (c)2025 The LibraxisAI Team
+    """
+    # Environment variable names for configuration
+    ENV_MODEL_PATH = "COLQWEN3_MODEL_PATH"
+    ENV_PROJECTION_PATH = "COLQWEN3_PROJECTION_PATH"
+    # Default paths (backward compatibility with existing setup)
+    DEFAULT_MODEL_PATH = "/Volumes/Maciejowe/mlx_lm/models/tomoro-colqwen3-8b-mlx"
+    DEFAULT_PROJ_PATH = "/Volumes/Maciejowe/mlx_lm/models/colqwen3_projection.safetensors"
+    def __init__(
+        self,
+        model_path: Optional[str] = None,
+        projection_path: Optional[str] = None,
+        embedding_dim: int = 320,
+    ):
+        """
+        Initialize the embedder.
+        Args:
+            model_path: Path to Tomoro-ColQwen3 MLX model (overrides env var)
+            projection_path: Path to embedding projection weights (overrides env var)
+            embedding_dim: Output embedding dimension (default 320)
+        Path resolution order:
+            1. Explicitly passed argument
+            2. Environment variable (COLQWEN3_MODEL_PATH / COLQWEN3_PROJECTION_PATH)
+            3. Default fallback path
+        """
+        self.model_path = model_path or os.environ.get(self.ENV_MODEL_PATH) or self.DEFAULT_MODEL_PATH
+        self.projection_path = projection_path or os.environ.get(self.ENV_PROJECTION_PATH) or self.DEFAULT_PROJ_PATH
+        self.embedding_dim = embedding_dim
+        self.model = None
+        self.mlx_processor = None
+        self.tomoro_processor = None
+        self.proj_weight = None
+        self.proj_bias = None
+        self._loaded = False
+    def load(self) -> None:
+        """Load model, processor, and projection weights."""
+        if self._loaded:
+            return
+        from mlx_vlm import load
+        from safetensors.torch import load_file
+        from transformers import AutoProcessor
+        print(f"Loading ColQwen3 from {self.model_path}...")
+        self.model, self.mlx_processor = load(self.model_path)
+        # Load Tomoro processor for proper image token expansion
+        print("Loading Tomoro processor for image token expansion...")
+        self.tomoro_processor = AutoProcessor.from_pretrained(
+            "TomoroAI/tomoro-colqwen3-embed-8b", trust_remote_code=True
+        )
+        print(f"Loading projection from {self.projection_path}...")
+        proj_weights = load_file(self.projection_path)
+        self.proj_weight = mx.array(proj_weights["embedding_proj_layer.weight"].float().numpy())
+        self.proj_bias = mx.array(proj_weights["embedding_proj_layer.bias"].float().numpy())
+        self._loaded = True
+        print("ColQwen3 Embedder ready!")
+    def _ensure_loaded(self) -> None:
+        """Ensure model is loaded."""
+        if not self._loaded:
+            self.load()
+    def _project_and_normalize(self, hidden_states: mx.array) -> mx.array:
+        """Apply projection layer and L2 normalize."""
+        # Project to embedding dimension
+        embeddings = hidden_states @ self.proj_weight.T + self.proj_bias
+        # L2 normalize
+        norm = mx.sqrt(mx.sum(embeddings**2, axis=-1, keepdims=True) + 1e-12)
+        embeddings = embeddings / norm
+        return embeddings
+    def embed_text(self, text: str) -> EmbeddingResult:
+        """
+        Embed text query.
+        Args:
+            text: Query string
+        Returns:
+            EmbeddingResult with shape [num_tokens, 320]
+        """
+        self._ensure_loaded()
+        # Get inner language model (skips lm_head)
+        inner_model = self.model["language_model"]["model"]
+        # Tokenize using Tomoro processor for consistency
+        inputs = self.tomoro_processor.tokenizer(text, return_tensors="np")
+        input_ids = mx.array(inputs["input_ids"])
+        batch_size, seq_len = input_ids.shape
+        # Create position IDs for M-ROPE
+        position_ids = mx.arange(seq_len).reshape(1, -1)
+        position_ids = mx.broadcast_to(position_ids, (batch_size, seq_len))
+        position_ids = mx.broadcast_to(position_ids[None, ...], (3, batch_size, seq_len))
+        # Get hidden states
+        hidden_states = inner_model(input_ids, position_ids=position_ids)
+        # Project and normalize
+        embeddings = self._project_and_normalize(hidden_states)
+        embeddings = embeddings.squeeze(0)  # Remove batch dim
+        mx.eval(embeddings)
+        return EmbeddingResult(
+            embeddings=embeddings,
+            num_tokens=seq_len,
+            source_type="text",
+        )
+    def embed_image(
+        self,
+        image: Union[str, Path, Image.Image],
+    ) -> EmbeddingResult:
+        """
+        Embed document image with proper token expansion.
+        Uses Tomoro's ColQwen3Processor to correctly expand <|image_pad|>
+        tokens to match the number of vision patches. Only the image token
+        embeddings are returned for MaxSim scoring.
+        Args:
+            image: Image path or PIL Image object
+        Returns:
+            EmbeddingResult with shape [num_patches, 320]
+        """
+        self._ensure_loaded()
+        # Load image if path
+        if isinstance(image, (str, Path)):
+            image = Image.open(image).convert("RGB")
+        # Process with Tomoro processor (properly expands <|image_pad|>)
+        inputs = self.tomoro_processor(
+            text="",  # No text prompt - only image
+            images=[image],
+            return_tensors="pt",
+        )
+        input_ids = inputs["input_ids"]
+        pixel_values = inputs["pixel_values"]
+        image_grid_thw = inputs["image_grid_thw"]
+        # Create mask for image tokens
+        image_mask = (input_ids == IMAGE_PAD_TOKEN).numpy()[0]
+        image_positions = np.where(image_mask)[0].tolist()
+        # Get vision embeddings from vision tower
+        pixel_values_mx = mx.array(pixel_values.numpy())
+        image_grid_thw_mx = mx.array(image_grid_thw.numpy())
+        hidden_states_vision, _ = self.model["vision_tower"](pixel_values_mx, image_grid_thw_mx)
+        # Get text embeddings and inject vision embeddings at image positions
+        input_ids_mx = mx.array(input_ids.numpy())
+        embed_tokens = self.model["language_model"]["model"]["embed_tokens"]
+        text_emb_np = np.array(embed_tokens(input_ids_mx)[0])
+        vision_np = np.array(hidden_states_vision)
+        for i, pos in enumerate(image_positions):
+            if i < vision_np.shape[0]:
+                text_emb_np[pos] = vision_np[i]
+        batch_size, seq_len = input_ids_mx.shape
+        combined_embeddings = mx.array(text_emb_np).reshape(1, seq_len, -1)
+        # Create position IDs for M-ROPE
+        position_ids = mx.arange(seq_len).reshape(1, -1)
+        position_ids = mx.broadcast_to(position_ids, (batch_size, seq_len))
+        position_ids = mx.broadcast_to(position_ids[None, ...], (3, batch_size, seq_len))
+        # Forward through language model layers
+        inner_model = self.model["language_model"]["model"]
+        h = combined_embeddings
+        for layer in inner_model["layers"]:
+            h = layer(h, position_ids=position_ids)
+        h = inner_model["norm"](h)
+        # Extract ONLY image token embeddings for MaxSim
+        h_np = np.array(h[0])
+        image_hidden_states = mx.array(h_np[image_mask])
+        # Project and normalize
+        embeddings = self._project_and_normalize(image_hidden_states)
+        mx.eval(embeddings)
+        return EmbeddingResult(
+            embeddings=embeddings,
+            num_tokens=embeddings.shape[0],
+            source_type="image",
+        )
+    def embed_pdf_page(
+        self,
+        pdf_path: Union[str, Path],
+        page_num: int = 0,
+        dpi: int = 150,
+    ) -> EmbeddingResult:
+        """
+        Embed a page from a PDF document.
+        Args:
+            pdf_path: Path to PDF file
+            page_num: Page number (0-indexed)
+            dpi: Resolution for rendering
+        Returns:
+            EmbeddingResult with shape [num_patches, 320]
+        """
+        try:
+            import fitz  # PyMuPDF
+        except ImportError:
+            raise ImportError("PyMuPDF required: pip install pymupdf")
+        doc = fitz.open(pdf_path)
+        page = doc.load_page(page_num)
+        pix = page.get_pixmap(dpi=dpi)
+        image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+        doc.close()
+        return self.embed_image(image)
+    def embed_pdf(
+        self,
+        pdf_path: Union[str, Path],
+        dpi: int = 150,
+        max_pages: Optional[int] = None,
+    ) -> List[EmbeddingResult]:
+        """
+        Embed all pages from a PDF document.
+        Args:
+            pdf_path: Path to PDF file
+            dpi: Resolution for rendering
+            max_pages: Maximum pages to process (None for all)
+        Returns:
+            List of EmbeddingResult, one per page
+        """
+        try:
+            import fitz
+        except ImportError:
+            raise ImportError("PyMuPDF required: pip install pymupdf")
+        doc = fitz.open(pdf_path)
+        num_pages = min(len(doc), max_pages) if max_pages else len(doc)
+        results = []
+        for i in range(num_pages):
+            result = self.embed_pdf_page(pdf_path, page_num=i, dpi=dpi)
+            results.append(result)
+        doc.close()
+        return results
+    @staticmethod
+    def maxsim_score(
+        query_emb: Union[mx.array, EmbeddingResult],
+        doc_emb: Union[mx.array, EmbeddingResult],
+    ) -> float:
+        """
+        Compute MaxSim score between query and document embeddings.
+        MaxSim (Late Interaction): For each query token, find maximum
+        similarity across all document tokens, then sum.
+        Args:
+            query_emb: Query embeddings [q_len, dim]
+            doc_emb: Document embeddings [d_len, dim]
+        Returns:
+            Similarity score (higher = more relevant)
+        """
+        if isinstance(query_emb, EmbeddingResult):
+            query_emb = query_emb.embeddings
+        if isinstance(doc_emb, EmbeddingResult):
+            doc_emb = doc_emb.embeddings
+        # Compute all pairwise similarities: [q_len, d_len]
+        similarities = query_emb @ doc_emb.T
+        # For each query token, take max over document tokens
+        max_sims = mx.max(similarities, axis=1)
+        # Sum across query tokens
+        score = mx.sum(max_sims)
+        mx.eval(score)
+        return float(score)
+    @staticmethod
+    def cosine_similarity(
+        emb1: Union[mx.array, EmbeddingResult],
+        emb2: Union[mx.array, EmbeddingResult],
+    ) -> float:
+        """
+        Compute mean-pooled cosine similarity.
+        Args:
+            emb1: First embeddings [n, dim]
+            emb2: Second embeddings [m, dim]
+        Returns:
+            Cosine similarity in [-1, 1]
+        """
+        if isinstance(emb1, EmbeddingResult):
+            emb1 = emb1.embeddings
+        if isinstance(emb2, EmbeddingResult):
+            emb2 = emb2.embeddings
+        # Mean pool
+        v1 = mx.mean(emb1, axis=0)
+        v2 = mx.mean(emb2, axis=0)
+        # Cosine similarity
+        sim = mx.sum(v1 * v2) / (mx.sqrt(mx.sum(v1**2)) * mx.sqrt(mx.sum(v2**2)))
+        mx.eval(sim)
+        return float(sim)
+    def rank_documents(
+        self,
+        query: str,
+        documents: List[EmbeddingResult],
+        top_k: Optional[int] = None,
+    ) -> List[Tuple[int, float]]:
+        """
+        Rank documents by relevance to query.
+        Args:
+            query: Query string
+            documents: List of document embeddings
+            top_k: Return top K results (None for all)
+        Returns:
+            List of (doc_index, score) sorted by descending score
+        """
+        query_emb = self.embed_text(query)
+        scores = []
+        for i, doc_emb in enumerate(documents):
+            score = self.maxsim_score(query_emb, doc_emb)
+            scores.append((i, score))
+        # Sort by score descending
+        scores.sort(key=lambda x: x[1], reverse=True)
+        if top_k:
+            scores = scores[:top_k]
+        return scores
+    def to_numpy(self, emb: Union[mx.array, EmbeddingResult]) -> np.ndarray:
+        """Convert embeddings to numpy array (for storage/indexing)."""
+        if isinstance(emb, EmbeddingResult):
+            emb = emb.embeddings
+        return np.array(emb)
+# Convenience functions
+def load_embedder(
+    model_path: Optional[str] = None,
+    projection_path: Optional[str] = None,
+) -> ColQwen3Embedder:
+    """Load and return a ready-to-use embedder."""
+    embedder = ColQwen3Embedder(
+        model_path=model_path,
+        projection_path=projection_path,
+    )
+    embedder.load()
+    return embedder
+if __name__ == "__main__":
+    # Quick test
+    print("Testing ColQwen3 Embedder...")
+    embedder = load_embedder()
+    # Test text embedding
+    text = "dawkowanie meloksykamu dla psa"
+    result = embedder.embed_text(text)
+    print(f"\nText: '{text}'")
+    print(f"  Tokens: {result.num_tokens}")
+    print(f"  Embedding shape: {result.embeddings.shape}")
+    # Test text similarity
+    text2 = "metacam dose for dogs"
+    result2 = embedder.embed_text(text2)
+    sim = embedder.cosine_similarity(result, result2)
+    print(f"\nSimilarity to '{text2}': {sim:.4f}")
+    print("\nColQwen3 Embedder test complete!")

scripts/mlx_visual_server.py ADDED Viewed

	@@ -0,0 +1,318 @@

+#!/usr/bin/env python3
+"""
+MLX Visual Embedding Server - ColQwen3
+HTTP server wrapper for ColQwen3Embedder providing visual document embeddings.
+Power of Wet Coders edition - custom merged model by LibraxisAI.
+Uses the production ColQwen3Embedder class from colqwen3_embedder.py
+Usage:
+    cd knowledge/vista-brain
+    uv run python scripts/mlx_visual_server.py
+    # Or via Makefile:
+    make visual
+Endpoints:
+    POST /v1/visual-embeddings - Generate visual embeddings from images/PDFs
+    POST /v1/maxsim            - Compute MaxSim score between query and docs
+    GET  /v1/models            - List models
+    GET  /health               - Health check
+Created by M&K (c)2025 The LibraxisAI Team
+Co-Authored-By: Maciej (void@div0.space) & Klaudiusz (the1st@whoai.am)
+"""
+import base64
+import io
+import json
+import os
+import sys
+import time
+from http.server import BaseHTTPRequestHandler, HTTPServer
+from pathlib import Path
+from typing import List, Union
+# Add parent directory to path for colqwen3_embedder import
+sys.path.insert(0, str(Path(__file__).parent.parent))
+from colqwen3_embedder import ColQwen3Embedder, load_embedder
+# Configuration from environment
+PORT = int(os.environ.get("MLX_VISUAL_PORT", "12347"))
+# ColBERT embedding dimension (320 for our custom projection)
+EMBED_DIM = 320
+# Lazy load embedder
+_embedder = None
+def get_embedder() -> ColQwen3Embedder:
+    """Lazy load the ColQwen3 embedder."""
+    global _embedder
+    if _embedder is None:
+        print("Loading ColQwen3 Embedder...", file=sys.stderr)
+        _embedder = load_embedder()
+        print(f"ColQwen3 ready (dim={EMBED_DIM})", file=sys.stderr)
+    return _embedder
+def decode_image(image_data: Union[str, bytes]):
+    """Decode image from base64 or bytes."""
+    from PIL import Image
+    if isinstance(image_data, str):
+        # Handle base64 with or without data URL prefix
+        if image_data.startswith("data:"):
+            # data:image/png;base64,xxxx
+            image_data = image_data.split(",", 1)[1]
+        image_bytes = base64.b64decode(image_data)
+    else:
+        image_bytes = image_data
+    return Image.open(io.BytesIO(image_bytes)).convert("RGB")
+def embed_images(images: List[Union[str, bytes]]) -> List[dict]:
+    """Generate ColBERT-style embeddings for images."""
+    embedder = get_embedder()
+    import mlx.core as mx
+    results = []
+    for img_data in images:
+        try:
+            # Decode image
+            if isinstance(img_data, str) and (
+                img_data.startswith("/") or img_data.startswith(".")
+            ):
+                # It's a file path
+                pil_img = img_data
+            else:
+                # Base64 data
+                pil_img = decode_image(img_data)
+            # Embed using ColQwen3Embedder
+            result = embedder.embed_image(pil_img)
+            results.append({
+                "embedding": embedder.to_numpy(result).tolist(),
+                "num_tokens": result.num_tokens,
+                "source_type": result.source_type,
+            })
+        except Exception as e:
+            print(f"Image embed error: {e}", file=sys.stderr)
+            results.append({"error": str(e)})
+    # Clear MLX cache
+    mx.clear_cache()
+    return results
+def embed_pdf(pdf_path: str, max_pages: int = None) -> List[dict]:
+    """Embed all pages from a PDF."""
+    embedder = get_embedder()
+    import mlx.core as mx
+    results = []
+    try:
+        page_results = embedder.embed_pdf(pdf_path, max_pages=max_pages)
+        for i, result in enumerate(page_results):
+            results.append({
+                "page": i,
+                "embedding": embedder.to_numpy(result).tolist(),
+                "num_tokens": result.num_tokens,
+                "source_type": result.source_type,
+            })
+    except Exception as e:
+        print(f"PDF embed error: {e}", file=sys.stderr)
+        results.append({"error": str(e)})
+    mx.clear_cache()
+    return results
+def embed_text(text: str) -> dict:
+    """Embed text query."""
+    embedder = get_embedder()
+    import mlx.core as mx
+    try:
+        result = embedder.embed_text(text)
+        mx.clear_cache()
+        return {
+            "embedding": embedder.to_numpy(result).tolist(),
+            "num_tokens": result.num_tokens,
+            "source_type": result.source_type,
+        }
+    except Exception as e:
+        print(f"Text embed error: {e}", file=sys.stderr)
+        return {"error": str(e)}
+def compute_maxsim(query_embedding: List, doc_embedding: List) -> float:
+    """Compute MaxSim score between query and document embeddings."""
+    import mlx.core as mx
+    query_mx = mx.array(query_embedding)
+    doc_mx = mx.array(doc_embedding)
+    # MaxSim: for each query token, max over doc tokens, then sum
+    similarities = query_mx @ doc_mx.T
+    max_sims = mx.max(similarities, axis=1)
+    score = float(mx.sum(max_sims))
+    mx.clear_cache()
+    return score
+class VisualHandler(BaseHTTPRequestHandler):
+    """HTTP handler for visual embeddings API."""
+    def log_message(self, format, *args):
+        """Log to stderr."""
+        print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] {args[0]}", file=sys.stderr)
+    def send_json(self, data: dict, status: int = 200):
+        """Send JSON response."""
+        body = json.dumps(data).encode("utf-8")
+        self.send_response(status)
+        self.send_header("Content-Type", "application/json")
+        self.send_header("Content-Length", len(body))
+        self.end_headers()
+        self.wfile.write(body)
+    def do_GET(self):
+        """Handle GET requests."""
+        if self.path == "/v1/models" or self.path == "/models":
+            self.send_json({
+                "object": "list",
+                "data": [{
+                    "id": "colqwen3-8b-wetcoders",
+                    "object": "model",
+                    "owned_by": "libraxis-local",
+                    "type": "visual-embedding",
+                    "description": "ColQwen3 8B - Power of Wet Coders edition",
+                    "embedding_dim": EMBED_DIM,
+                }]
+            })
+        elif self.path == "/health":
+            self.send_json({
+                "status": "healthy",
+                "model": "colqwen3-8b-wetcoders",
+                "dim": EMBED_DIM,
+                "type": "colbert-visual-embedding",
+            })
+        else:
+            self.send_json({"error": "Not found"}, 404)
+    def do_POST(self):
+        """Handle POST requests."""
+        content_length = int(self.headers.get("Content-Length", 0))
+        body = self.rfile.read(content_length)
+        try:
+            data = json.loads(body)
+        except json.JSONDecodeError:
+            self.send_json({"error": "Invalid JSON"}, 400)
+            return
+        if self.path in ["/v1/visual-embeddings", "/visual-embeddings"]:
+            self._handle_embeddings(data)
+        elif self.path in ["/v1/maxsim", "/maxsim"]:
+            self._handle_maxsim(data)
+        else:
+            self.send_json({"error": "Not found"}, 404)
+    def _handle_embeddings(self, data: dict):
+        """Handle embedding requests."""
+        images = data.get("images", [])
+        texts = data.get("texts", [])
+        pdf_path = data.get("pdf_path")
+        max_pages = data.get("max_pages")
+        response = {
+            "object": "embedding_response",
+            "model": "colqwen3-8b-wetcoders",
+            "dim": EMBED_DIM,
+        }
+        try:
+            if pdf_path:
+                # PDF embedding
+                response["pdf_embeddings"] = embed_pdf(pdf_path, max_pages)
+            elif images:
+                # Image embeddings
+                response["image_embeddings"] = embed_images(images)
+            elif texts:
+                # Text embeddings
+                response["text_embeddings"] = [embed_text(t) for t in texts]
+            else:
+                self.send_json({"error": "No images, texts, or pdf_path provided"}, 400)
+                return
+        except Exception as e:
+            print(f"Embedding error: {e}", file=sys.stderr)
+            self.send_json({"error": str(e)}, 500)
+            return
+        self.send_json(response)
+    def _handle_maxsim(self, data: dict):
+        """Handle MaxSim scoring requests."""
+        query_embedding = data.get("query_embedding")
+        doc_embedding = data.get("doc_embedding")
+        if not query_embedding or not doc_embedding:
+            self.send_json({"error": "query_embedding and doc_embedding required"}, 400)
+            return
+        try:
+            score = compute_maxsim(query_embedding, doc_embedding)
+            self.send_json({
+                "object": "maxsim_score",
+                "score": score,
+                "model": "colqwen3-8b-wetcoders",
+            })
+        except Exception as e:
+            print(f"MaxSim error: {e}", file=sys.stderr)
+            self.send_json({"error": str(e)}, 500)
+def main():
+    """Start the visual embedding server."""
+    print("", file=sys.stderr)
+    print("=" * 60, file=sys.stderr)
+    print("MLX Visual Embedding Server - ColQwen3", file=sys.stderr)
+    print("Power of Wet Coders Edition", file=sys.stderr)
+    print("=" * 60, file=sys.stderr)
+    print(f"Port: {PORT}", file=sys.stderr)
+    print(f"Embedding dim: {EMBED_DIM} (ColBERT)", file=sys.stderr)
+    print("", file=sys.stderr)
+    print("Endpoints:", file=sys.stderr)
+    print("  POST /v1/visual-embeddings - Generate embeddings", file=sys.stderr)
+    print("       body: {images: [base64...]} or {pdf_path: '/path.pdf'}", file=sys.stderr)
+    print("  POST /v1/maxsim - Compute MaxSim score", file=sys.stderr)
+    print("       body: {query_embedding: [...], doc_embedding: [...]}", file=sys.stderr)
+    print("  GET  /v1/models - List models", file=sys.stderr)
+    print("  GET  /health    - Health check", file=sys.stderr)
+    print("", file=sys.stderr)
+    # Pre-load embedder
+    get_embedder()
+    server = HTTPServer(("0.0.0.0", PORT), VisualHandler)
+    print(f"Server ready at http://localhost:{PORT}", file=sys.stderr)
+    print("=" * 60, file=sys.stderr)
+    try:
+        server.serve_forever()
+    except KeyboardInterrupt:
+        print("\nShutting down...", file=sys.stderr)
+        server.shutdown()
+if __name__ == "__main__":
+    main()

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 262144,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": true,
+  "fps": 2,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "merge_size": 2,
+  "min_frames": 4,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 16,
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 16777216,
+    "shortest_edge": 65536
+  },
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen3VLVideoProcessor"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff