AngelSlim
/

Hunyuan-7B-Instruct_eagle3

@@ -3,8 +3,23 @@ tags:
 - hunyuan
 - eagle3
 - eagle
 ---
 <p align="center">
   <picture>
     <source media="(prefers-color-scheme: dark)" srcset="https://github.com/Tencent/AngelSlim/blob/main/docs/source/assets/logos/angelslim_logo_light.png?raw=true">
@@ -30,7 +45,7 @@ Dedicated to building a more intuitive, comprehensive, and efficient LLMs compre
 - [How to Use](#how-to-use)
   - [Install AngelSlim](#install-angelslim)
   - [Quick Start](#quick-start)
-  - [deployment & Evaluation](#deployment)
 - [Benchmark](#benchmark)
 - [License](#license)
 - [Citation](#citation)
@@ -245,30 +260,30 @@ Benchmark results for other models with `FP8-Static`, `FP8-Dynamic`, `INT4-GPTQ`
     <tr><th>Model</th><th>Quantization</th><th>CEVAL</th><th>MMLU</th><th>GSM8K</th></tr>
   </thead>
   <tbody>
-    <tr><td rowspan="3">Qwen2.5-1.5B-Instruct</td><td>BF16</td><td>67.01</td><td>60.05</td><td>54.28</td></tr>
     <tr><td>FP8-Static</td><td>66.27</td><td>60.23</td><td>-</td></tr>
     <tr><td>FP8-Dynamic</td><td>66.79</td><td>60.08</td><td>51.71</td></tr>
-    <tr><td rowspan="5">Qwen2.5-7B-Instruct</td><td>BF16</td><td>81.20</td><td>74.55</td><td>79.98</td></tr>
     <tr><td>FP8-Static</td><td>81.13</td><td>74.03</td><td>79.30</td></tr>
     <tr><td>FP8-Dynamic</td><td>80.31</td><td>74.07</td><td>79.00</td></tr>
     <tr><td>INT4-GPTQ</td><td>79.05</td><td>73.05</td><td>74.75</td></tr>
     <tr><td>INT4-AWQ</td><td>79.35</td><td>73.22</td><td>79.38</td></tr>
-    <tr><td rowspan="5">Qwen2.5-32B-Instruct</td><td>BF16</td><td>87.30</td><td>83.21</td><td>81.73</td></tr>
     <tr><td>FP8-Static</td><td>87.59</td><td>83.08</td><td>81.58</td></tr>
     <tr><td>FP8-Dynamic</td><td>87.30</td><td>83.04</td><td>81.58</td></tr>
     <tr><td>INT4-GPTQ</td><td>86.70</td><td>82.45</td><td>82.03</td></tr>
     <tr><td>INT4-AWQ</td><td>87.00</td><td>82.64</td><td>-</td></tr>
-    <tr><td rowspan="5">DeepSeek-R1-Distill-Qwen-7B</td><td>BF16</td><td>53.49</td><td>53.80</td><td>75.74</td></tr>
     <tr><td>FP8-Static</td><td>53.57</td><td>54.17</td><td>76.19</td></tr>
     <tr><td>FP8-Dynamic</td><td>52.97</td><td>54.13</td><td>74.15</td></tr>
     <tr><td>INT4-GPTQ</td><td>51.86</td><td>52.44</td><td>75.89</td></tr>
     <tr><td>INT4-AWQ</td><td>53.49</td><td>53.70</td><td>-</td></tr>
-    <tr><td rowspan="5">DeepSeek-R1-Distill-Qwen-14B</td><td>BF16</td><td>77.71</td><td>74.28</td><td>85.67</td></tr>
     <tr><td>FP8-Static</td><td>77.56</td><td>74.66</td><td>86.73</td></tr>
     <tr><td>FP8-Dynamic</td><td>76.82</td><td>74.63</td><td>87.11</td></tr>
     <tr><td>INT4-GPTQ</td><td>74.29</td><td>72.37</td><td>84.61</td></tr>
     <tr><td>INT4-AWQ</td><td>74.81</td><td>73.00</td><td>86.05</td></tr>
-    <tr><td rowspan="5">DeepSeek-R1-Distill-Qwen-32B</td><td>BF16</td><td>84.18</td><td>80.89</td><td>87.41</td></tr>
     <tr><td>FP8-Static</td><td>83.43</td><td>80.90</td><td>87.57</td></tr>
     <tr><td>FP8-Dynamic</td><td>83.73</td><td>81.10</td><td>86.43</td></tr>
     <tr><td>INT4-GPTQ</td><td>84.10</td><td>79.80</td><td>86.73</td></tr>
@@ -277,7 +292,6 @@ Benchmark results for other models with `FP8-Static`, `FP8-Dynamic`, `INT4-GPTQ`
 </table>
 ### (2) Speculative Decoding
 #### Qwen3 Series Models
 Benchmark results for Qwen3 series models with `Eagle3` speculative decoding algorithm on datasets including `MT-bench`, `HunmanEval`, `GSM8K`, and `Alpaca`:
@@ -346,16 +360,28 @@ The code for this project is open-sourced under the [License for AngelSlim](LICE
 ## 🔗 Citation
 ```
 @software{AngelSlim2025,
     title={{AngelSlim}},
     author={Tencent AngelSlim Project Contributors},
     year={2025},
-    month={6},
     url={https://github.com/Tencent/AngelSlim},
 }
 ```
 ## 💬 Technical Discussion
 * AngelSlim is continuously iterating and new features will be released soon. If you have any questions or suggestions, please open an issue on GitHub or join our [WeChat technical discussion group](https://github.com/Tencent/AngelSlim/blob/main/docs/source/assets/angel_slim_wechat.png?raw=true).

 - hunyuan
 - eagle3
 - eagle
+- quantization
+- ternary-quantization
+- tequila
+pipeline_tag: text-generation
+library_name: transformers
+license: apache-2.0
 ---
+# Tequila: Trapping-free Ternary Quantization for Large Language Models
+This repository provides models and/or implementations related to the **Tequila** method, a novel trapping-free ternary quantization technique for Large Language Models, as introduced in the paper:
+[**Tequila: Trapping-free Ternary Quantization for Large Language Models**](https://huggingface.co/papers/2509.23809)
+Tequila is implemented as part of the broader **AngelSlim** compression toolkit, which aims to provide intuitive, comprehensive, and efficient tools for LLM compression.
+For the Tequila specific implementation code, please refer to: [https://github.com/Tencent/AngelSlim/tree/tequila/TernaryQuant](https://github.com/Tencent/AngelSlim/tree/tequila/TernaryQuant)
 <p align="center">
   <picture>
     <source media="(prefers-color-scheme: dark)" srcset="https://github.com/Tencent/AngelSlim/blob/main/docs/source/assets/logos/angelslim_logo_light.png?raw=true">
 - [How to Use](#how-to-use)
   - [Install AngelSlim](#install-angelslim)
   - [Quick Start](#quick-start)
+  - [Deployment & Evaluation](#deployment)
 - [Benchmark](#benchmark)
 - [License](#license)
 - [Citation](#citation)
     <tr><th>Model</th><th>Quantization</th><th>CEVAL</th><th>MMLU</th><th>GSM8K</th></tr>
   </thead>
   <tbody>
+    <tr><td rowspan=\"3\">Qwen2.5-1.5B-Instruct</td><td>BF16</td><td>67.01</td><td>60.05</td><td>54.28</td></tr>
     <tr><td>FP8-Static</td><td>66.27</td><td>60.23</td><td>-</td></tr>
     <tr><td>FP8-Dynamic</td><td>66.79</td><td>60.08</td><td>51.71</td></tr>
+    <tr><td rowspan=\"5\">Qwen2.5-7B-Instruct</td><td>BF16</td><td>81.20</td><td>74.55</td><td>79.98</td></tr>
     <tr><td>FP8-Static</td><td>81.13</td><td>74.03</td><td>79.30</td></tr>
     <tr><td>FP8-Dynamic</td><td>80.31</td><td>74.07</td><td>79.00</td></tr>
     <tr><td>INT4-GPTQ</td><td>79.05</td><td>73.05</td><td>74.75</td></tr>
     <tr><td>INT4-AWQ</td><td>79.35</td><td>73.22</td><td>79.38</td></tr>
+    <tr><td rowspan=\"5\">Qwen2.5-32B-Instruct</td><td>BF16</td><td>87.30</td><td>83.21</td><td>81.73</td></tr>
     <tr><td>FP8-Static</td><td>87.59</td><td>83.08</td><td>81.58</td></tr>
     <tr><td>FP8-Dynamic</td><td>87.30</td><td>83.04</td><td>81.58</td></tr>
     <tr><td>INT4-GPTQ</td><td>86.70</td><td>82.45</td><td>82.03</td></tr>
     <tr><td>INT4-AWQ</td><td>87.00</td><td>82.64</td><td>-</td></tr>
+    <tr><td rowspan=\"5\">DeepSeek-R1-Distill-Qwen-7B</td><td>BF16</td><td>53.49</td><td>53.80</td><td>75.74</td></tr>
     <tr><td>FP8-Static</td><td>53.57</td><td>54.17</td><td>76.19</td></tr>
     <tr><td>FP8-Dynamic</td><td>52.97</td><td>54.13</td><td>74.15</td></tr>
     <tr><td>INT4-GPTQ</td><td>51.86</td><td>52.44</td><td>75.89</td></tr>
     <tr><td>INT4-AWQ</td><td>53.49</td><td>53.70</td><td>-</td></tr>
+    <tr><td rowspan=\"5\">DeepSeek-R1-Distill-Qwen-14B</td><td>BF16</td><td>77.71</td><td>74.28</td><td>85.67</td></tr>
     <tr><td>FP8-Static</td><td>77.56</td><td>74.66</td><td>86.73</td></tr>
     <tr><td>FP8-Dynamic</td><td>76.82</td><td>74.63</td><td>87.11</td></tr>
     <tr><td>INT4-GPTQ</td><td>74.29</td><td>72.37</td><td>84.61</td></tr>
     <tr><td>INT4-AWQ</td><td>74.81</td><td>73.00</td><td>86.05</td></tr>
+    <tr><td rowspan=\"5\">DeepSeek-R1-Distill-Qwen-32B</td><td>BF16</td><td>84.18</td><td>80.89</td><td>87.41</td></tr>
     <tr><td>FP8-Static</td><td>83.43</td><td>80.90</td><td>87.57</td></tr>
     <tr><td>FP8-Dynamic</td><td>83.73</td><td>81.10</td><td>86.43</td></tr>
     <tr><td>INT4-GPTQ</td><td>84.10</td><td>79.80</td><td>86.73</td></tr>
 </table>
 ### (2) Speculative Decoding
 #### Qwen3 Series Models
 Benchmark results for Qwen3 series models with `Eagle3` speculative decoding algorithm on datasets including `MT-bench`, `HunmanEval`, `GSM8K`, and `Alpaca`:
 ## 🔗 Citation
+If you use AngelSlim, please cite it as:
 ```
 @software{AngelSlim2025,
     title={{AngelSlim}},
     author={Tencent AngelSlim Project Contributors},
     year={2025},
+    month={7},
     url={https://github.com/Tencent/AngelSlim},
 }
 ```
+If you use the Tequila quantization method, please also cite its corresponding paper:
+```bibtex
+@article{li2025tequila,
+  title={{Tequila: Trapping-free Ternary Quantization for Large Language Models}},
+  author={Li, Yuhui and Wei, Fangyun and Zhang, Chao and Zhang, Hongyang},
+  journal={arXiv preprint arXiv:2509.23809},
+  year={2025},
+  url={https://arxiv.org/abs/2509.23809}
+}
+```
 ## 💬 Technical Discussion
 * AngelSlim is continuously iterating and new features will be released soon. If you have any questions or suggestions, please open an issue on GitHub or join our [WeChat technical discussion group](https://github.com/Tencent/AngelSlim/blob/main/docs/source/assets/angel_slim_wechat.png?raw=true).