embedl
/

gemma-3-270m-it-FlashHead

Model card Files Files and versions

WilhelmT commited on Dec 20, 2025

Commit

85dde8d

·

verified ·

1 Parent(s): 05f2184

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -60,7 +60,7 @@ python3 -m embedl.models.vllm.demo --model embedl/gemma-3-270m-it-FlashHead
 | BF16 baseline | 397 | 1.0× |
 | **FlashHead (Embedl)** | **526** | **1.32×** |
 | W4A16 baseline | 420 | 1.06× |
-| **FlashHead W4A16 (Embedl)** | **568** | **1.74×** |
 FlashHead improves end-to-end speed by **1.35×** over state-of-the-art, while maintaining full accuracy parity.

 | BF16 baseline | 397 | 1.0× |
 | **FlashHead (Embedl)** | **526** | **1.32×** |
 | W4A16 baseline | 420 | 1.06× |
+| **FlashHead W4A16 (Embedl)** | **568** | **1.43×** |
 FlashHead improves end-to-end speed by **1.35×** over state-of-the-art, while maintaining full accuracy parity.