akhauriyash/DeepSeek-R1-Distill-Llama-8B-Butler · Adding `safetensors` variant of this model

Files changed (10) hide show

README.md CHANGED Viewed

@@ -1,9 +1,11 @@
 ---
-license: mit
-library_name: transformers
 base_model:
 - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
 ---
 # TokenButler
 <!-- markdownlint-disable first-line-h1 -->
 <!-- markdownlint-disable html -->
@@ -17,7 +19,7 @@ base_model:
 <hr>
 <div align="center" style="line-height: 1;">
   <!-- Paper Badge -->
-  <a href="https://github.com/abdelfattah-lab/TokenButler/blob/main/TokenButler_Draft.pdf" target="_blank" style="margin: 2px;">
     <img alt="Paper"
          src="https://img.shields.io/badge/Paper-View-orange?logo=readthedocs&logoColor=white"
          style="display: inline-block; vertical-align: middle;"/>
@@ -28,6 +30,12 @@ base_model:
          src="https://img.shields.io/badge/GitHub-Repo-black?logo=github&logoColor=white"
          style="display: inline-block; vertical-align: middle;"/>
   </a>
 </div>
 <br>

 ---
 base_model:
 - deepseek-ai/DeepSeek-R1-Distill-Llama-8B
+library_name: transformers
+license: mit
+pipeline_tag: text-generation
 ---
 # TokenButler
 <!-- markdownlint-disable first-line-h1 -->
 <!-- markdownlint-disable html -->
 <hr>
 <div align="center" style="line-height: 1;">
   <!-- Paper Badge -->
+  <a href="https://arxiv.org/abs/2503.07518" target="_blank" style="margin: 2px;">
     <img alt="Paper"
          src="https://img.shields.io/badge/Paper-View-orange?logo=readthedocs&logoColor=white"
          style="display: inline-block; vertical-align: middle;"/>
          src="https://img.shields.io/badge/GitHub-Repo-black?logo=github&logoColor=white"
          style="display: inline-block; vertical-align: middle;"/>
   </a>
+    <!-- Project Page Badge -->
+  <a href="https://abdelfattah-lab.github.io/TokenButler/" target="_blank" style="margin: 2px;">
+    <img alt="Project Page"
+         src="https://img.shields.io/badge/Project%20Page-🌐-lightgrey"
+         style="display: inline-block; vertical-align: middle;"/>
+  </a>
 </div>
 <br>

model-00001-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4a06424d231b4b858b6d735de2be355a9d81b5558c21925bd8eeabad7f62140
+size 4816363256

model-00002-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fb6c677968f55ccf762344219ea002c980b4eee36bc8004bc9908a90e855759
+size 4999813072

model-00003-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:707dd72cdaee4b1099afa9416e41437371a901e98a6e4435a30bb65781773fa0
+size 4999813104

model-00004-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:6feb8a06d88592e03352c2cf5d8a6132038ccce44939d88437d39d5a9621dd70
+size 4832007496

model-00005-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:09c3f1f6241553ab4304aebe3c832ef53e6a877e7e29f34eb23151f38530900a
+size 4999813120

model-00006-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f42f22d1e85d2d9ef439f10fd24ce74ca05e260a84aaea3980678f2b64769f4
+size 4999813128

model-00007-of-00007.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:eebb1a694f4b88729a06f520d99b489a6778a58d831b7b2dadf51f37c4ae5f80
+size 2806039320

model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modeling_llama_butler.py CHANGED Viewed

@@ -918,7 +918,7 @@ class LlamaAttentionExperimental(nn.Module):
         self.num_key_value_groups = self.num_heads // self.num_key_value_heads
         self.max_position_embeddings = config.max_position_embeddings
         self.rope_theta = config.rope_theta
-        self.inference_mode = False
         self.producer = producer
         self.layer_idx = layer_idx
         self.token_sparse_method = None
@@ -1217,7 +1217,7 @@ class LlamaAttentionExperimental(nn.Module):
                 num_active = (~attention_mask.bool()).sum(dim=-1).expand_as(num_deact)    # Number of tokens active at this position if zero-sparsity
                 effective_sparsity = 100 * (additional_deact.float() / num_active.float()).mean().item()
                 self.effective_sparsity = effective_sparsity
-                print("Effective Sparsity:", effective_sparsity, "%\t Sequence Length:", q_len)
         if self.layer_idx == 0:
             if self.effective_sparsity is None:
                 self.effective_sparsity = 0.0

         self.num_key_value_groups = self.num_heads // self.num_key_value_heads
         self.max_position_embeddings = config.max_position_embeddings
         self.rope_theta = config.rope_theta
+        self.inference_mode = True
         self.producer = producer
         self.layer_idx = layer_idx
         self.token_sparse_method = None
                 num_active = (~attention_mask.bool()).sum(dim=-1).expand_as(num_deact)    # Number of tokens active at this position if zero-sparsity
                 effective_sparsity = 100 * (additional_deact.float() / num_active.float()).mean().item()
                 self.effective_sparsity = effective_sparsity
+                # print("Effective Sparsity:", effective_sparsity, "%\t Sequence Length:", q_len)
         if self.layer_idx == 0:
             if self.effective_sparsity is None:
                 self.effective_sparsity = 0.0