llm-semantic-router
/

multi-modal-embed-small

@@ -58,7 +58,7 @@ A compact multimodal embedding model that unifies text, image, and audio represe
 - **Text encoding** via MiniLM-L6-v2 (22M params)
 - **Image encoding** via SigLIP-base-patch16-512 (86M params)
-- **Audio encoding** via Whisper-tiny encoder (39M params)
 - **Cross-modal fusion** via 2-layer transformer attention
 - **2DMSE**: Two-Dimensional Matryoshka Sentence Embeddings for adaptive compute
 - **MRL**: Matryoshka Representation Learning for flexible embedding dimensions
@@ -196,7 +196,7 @@ emb_64 = F.normalize(full_emb[:, :64], p=2, dim=-1)    # 6x faster retrieval
 ├──────────────────────────────────────────────────────────────┤
 │  Text Encoder:  MiniLM-L6-v2           (22M params, 6 layers)│
 │  Image Encoder: SigLIP-base-patch16-512 (86M params)         │
-│  Audio Encoder: Whisper-tiny encoder    (39M params, 4 layers)│
 │  Fusion:        2-layer Transformer                          │
 ├──────────────────────────────────────────────────────────────┤
 │  Output: 384-dim normalized embeddings                       │

 - **Text encoding** via MiniLM-L6-v2 (22M params)
 - **Image encoding** via SigLIP-base-patch16-512 (86M params)
+- **Audio encoding** via Whisper-tiny encoder (8M params)
 - **Cross-modal fusion** via 2-layer transformer attention
 - **2DMSE**: Two-Dimensional Matryoshka Sentence Embeddings for adaptive compute
 - **MRL**: Matryoshka Representation Learning for flexible embedding dimensions
 ├──────────────────────────────────────────────────────────────┤
 │  Text Encoder:  MiniLM-L6-v2           (22M params, 6 layers)│
 │  Image Encoder: SigLIP-base-patch16-512 (86M params)         │
+│  Audio Encoder: Whisper-tiny encoder    (8M params, 4 layers) │
 │  Fusion:        2-layer Transformer                          │
 ├──────────────────────────────────────────────────────────────┤
 │  Output: 384-dim normalized embeddings                       │