dmis-lab
/

OSP-1.4B-1T-Muon-SSNorm-EmbProj

@@ -3,7 +3,11 @@ datasets:
 - HuggingFaceTB/smollm-corpus
 language:
 - en
 ---
 # Outlier-Safe Pre-Training
 [![arXiv](https://img.shields.io/badge/arXiv-2506.19697-b31b1b?style=flat-square)](https://arxiv.org/abs/2506.19697)
@@ -25,7 +29,14 @@ A method that prevents outliers but significantly reduces efficiency is unlikely
 3. 🧩**Ensuring full compatibility with existing inference pipelines**<br/>
 We prioritize compatibility with widely adopted inference frameworks such as vLLM and SGLang. Rather than introducing architectural changes that break compatibility, OSP preserves computational invariance, allowing models to be directly integrated into existing pipelines without additional effort.
 ## Model Checkpoints
@@ -92,9 +103,9 @@ The models were trained on 1 trillion tokens, following the pre-training recipe
             <td>✗<br>✔</td>
             <!-- <td>41.0<br>41.0</td>
             <td>11.7<br>11.7</td> -->
-            <!-- <td>38.4<br>37.5</td>
             <td>14.8<br>15.4</td>
-            <td>38.3<br>37.5</td>
             <td>14.8<br>15.4</td>
             <td>26.3<br>33.3</td>
             <td>1e6<br>24.5</td> -->
@@ -110,9 +121,9 @@ The models were trained on 1 trillion tokens, following the pre-training recipe
             <td>✗<br>✔</td>
             <!-- <td>41.5<br>41.5</td>
             <td>11.4<br>11.4</td> -->
-            <!-- <td>40.0<br>40.6</td>
             <td>13.8<br>12.9</td>
-            <td>40.0<br>40.6</td>
             <td>13.8<br>12.9</td>
             <td>29.4<br>38.6</td>
             <td>934.3<br>15.7</td> -->
@@ -128,9 +139,9 @@ The models were trained on 1 trillion tokens, following the pre-training recipe
             <td>✗<br>✔</td>
             <!-- <td><strong>41.8</strong><br><strong>41.8</strong></td>
             <td><strong>11.2</strong><br><strong>11.2</strong></td> -->
-            <!-- <td><strong>41.0</strong><br><strong>40.8</strong></td>
             <td>12.4<br>12.2</td>
-            <td><strong>40.9</strong><br><strong>40.8</strong></td>
             <td>12.4<br>12.2</td>
             <td>36.6<br>38.6</td>
             <td>43.3<br>33.7</td> -->
@@ -146,9 +157,9 @@ The models were trained on 1 trillion tokens, following the pre-training recipe
             <td>✗<br>✔</td>
             <!-- <td>40.0<br>40.0</td>
             <td>12.3<br>12.3</td> -->
-            <!-- <td>38.4<br>39.2</td>
             <td>14.8<br>13.9</td>
-            <td>38.4<br>39.3</td>
             <td>14.8<br>13.9</td>
             <td>31.0<br>36.3</td>
             <td>99.7<br>22.1</td> -->
@@ -164,9 +175,9 @@ The models were trained on 1 trillion tokens, following the pre-training recipe
             <td>✗<br>✔</td>
             <!-- <td>41.4<br>41.4</td>
             <td><strong>11.2</strong><br><strong>11.2</strong></td> -->
-            <!-- <td>40.6<br>40.5</td>
             <td><strong>12.2</strong><br><strong>12.1</strong></td>
-            <td>40.6<br>40.5</td>
             <td><strong>12.2</strong><br><strong>12.1</strong></td>
             <td><strong>37.9</strong><br><strong>39.1</strong></td>
             <td><strong>19.4</strong><br><strong>13.4</strong></td> -->

 - HuggingFaceTB/smollm-corpus
 language:
 - en
+license: apache-2.0
+library_name: transformers
+pipeline_tag: text-generation
 ---
 # Outlier-Safe Pre-Training
 [![arXiv](https://img.shields.io/badge/arXiv-2506.19697-b31b1b?style=flat-square)](https://arxiv.org/abs/2506.19697)
 3. 🧩**Ensuring full compatibility with existing inference pipelines**<br/>
 We prioritize compatibility with widely adopted inference frameworks such as vLLM and SGLang. Rather than introducing architectural changes that break compatibility, OSP preserves computational invariance, allowing models to be directly integrated into existing pipelines without additional effort.
+<p align="center">
+    <img src="./images/figure2.png" alt="drawing" width="700"/>
+</p>
+## News
+- **2025-06-25**: Released **Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models** on [arXiv](https://www.arxiv.org/abs/2506.19697), with [GitHub](https://github.com/dmis-lab/Outlier-Safe-Pre-Training) and [models](https://huggingface.co/collections/dmis-lab/outlier-safe-pre-training-osp-685bda10aa1e8a19fcb58ea8).
+- **2025-05-16**: Our paper has been accepted to ACL 2025! 🎉
 ## Model Checkpoints
             <td>✗<br>✔</td>
             <!-- <td>41.0<br>41.0</td>
             <td>11.7<br>11.7</td> -->
+            <!-- <td> 38.4<br>37.5</td>
             <td>14.8<br>15.4</td>
+            <td> 38.3<br>37.5</td>
             <td>14.8<br>15.4</td>
             <td>26.3<br>33.3</td>
             <td>1e6<br>24.5</td> -->
             <td>✗<br>✔</td>
             <!-- <td>41.5<br>41.5</td>
             <td>11.4<br>11.4</td> -->
+            <!-- <td> 40.0<br>40.6</td>
             <td>13.8<br>12.9</td>
+            <td> 40.0<br>40.6</td>
             <td>13.8<br>12.9</td>
             <td>29.4<br>38.6</td>
             <td>934.3<br>15.7</td> -->
             <td>✗<br>✔</td>
             <!-- <td><strong>41.8</strong><br><strong>41.8</strong></td>
             <td><strong>11.2</strong><br><strong>11.2</strong></td> -->
+            <!-- <td> <strong>41.0</strong><br><strong>40.8</strong></td>
             <td>12.4<br>12.2</td>
+            <td> <strong>40.9</strong><br><strong>40.8</strong></td>
             <td>12.4<br>12.2</td>
             <td>36.6<br>38.6</td>
             <td>43.3<br>33.7</td> -->
             <td>✗<br>✔</td>
             <!-- <td>40.0<br>40.0</td>
             <td>12.3<br>12.3</td> -->
+            <!-- <td> 38.4<br>39.2</td>
             <td>14.8<br>13.9</td>
+            <td> 38.4<br>39.3</td>
             <td>14.8<br>13.9</td>
             <td>31.0<br>36.3</td>
             <td>99.7<br>22.1</td> -->
             <td>✗<br>✔</td>
             <!-- <td>41.4<br>41.4</td>
             <td><strong>11.2</strong><br><strong>11.2</strong></td> -->
+            <!-- <td> 40.6<br>40.5</td>
             <td><strong>12.2</strong><br><strong>12.1</strong></td>
+            <td> 40.6<br>40.5</td>
             <td><strong>12.2</strong><br><strong>12.1</strong></td>
             <td><strong>37.9</strong><br><strong>39.1</strong></td>
             <td><strong>19.4</strong><br><strong>13.4</strong></td> -->