JustinDuc
/

saute

feature-extraction

masked-language-modeling

Model card Files Files and versions

JustinDuc commited on Jun 11, 2025

Commit

6f92cd0

·

verified ·

1 Parent(s): 91a2e1f

Update README.md

Files changed (1) hide show

README.md +9 -6

README.md CHANGED Viewed

@@ -56,12 +56,15 @@ It avoids the quadratic cost of full self-attention by summarizing per-speaker m
 ## 📈 Performance (on SODA, Masked Language Modeling)
-| Model Variant             | Avg MLM Accuracy | Best MLM Accuracy |
-|---------------------------|------------------|-------------------|
-| BERT-base (frozen)        | 33.45            | 45.89             |
-| + 1-layer Transformer     | 68.20            | 76.69             |
-| + 2-layer Transformer     | 71.81            | 79.54             |
-| **+ SAUTE (Ours)**        | **72.05**        | **80.40**         |
 > SAUTE achieves the best accuracy using fewer parameters than multi-layer transformers.

 ## 📈 Performance (on SODA, Masked Language Modeling)
+| Model                      | Avg MLM Acc | Best MLM Acc |
+|---------------------------|-------------|--------------|
+| BERT-base (frozen)        | 33.45       | 45.89        |
+| + 1-layer Transformer     | 68.20       | 76.69        |
+| + 2-layer Transformer     | 71.81       | 79.54        |
+| **+ 1-layer SAUTE (Ours)**        | **72.05**   | **80.40%**   |
+| + 3-layer Transformer| 73.5 | 80.84 |
+| **+ 3-layer SAUTE (Ours)**| **75.65** | **85.55%**|
 > SAUTE achieves the best accuracy using fewer parameters than multi-layer transformers.