Spaces:

BoostedJonP
/

powell-assistant

Sleeping

BoostedJonP commited on Oct 8, 2025

Commit

6cbf469

1 Parent(s): 9c0c216

remove cache usage in model

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,8 +4,6 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
 from functools import lru_cache
 import logging
-MODEL_NAME = "BoostedJonP/powell-phi3-mini"
 logger = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
@@ -42,7 +40,6 @@ def load_model():
                 torch_dtype=torch.float16,
                 device_map="auto",
                 attn_implementation="eager",
-                use_cache=True,
                 cache_dir="/tmp/model_cache",
             )
         else:
@@ -56,7 +53,6 @@ def load_model():
                 trust_remote_code=True,
                 torch_dtype=torch.float32,
                 attn_implementation="eager",
-                use_cache=True,
                 cache_dir="/tmp/model_cache",
                 low_cpu_mem_usage=True,
             )
@@ -89,7 +85,7 @@ def load_model():
 model, tokenizer = load_model()
-def generate_powell_response(question, max_length=256, num_beams=3, temperature=0.3):
     """Generate a response in Jerome Powell's style"""
     if model is None or tokenizer is None:
@@ -113,7 +109,7 @@ def generate_powell_response(question, max_length=256, num_beams=3, temperature=
             prompt,
             return_tensors="pt",
             truncation=True,
-            max_length=256,
             padding=False,
         )

 from functools import lru_cache
 import logging
 logger = logging.getLogger(__name__)
 logging.basicConfig(level=logging.INFO)
                 torch_dtype=torch.float16,
                 device_map="auto",
                 attn_implementation="eager",
                 cache_dir="/tmp/model_cache",
             )
         else:
                 trust_remote_code=True,
                 torch_dtype=torch.float32,
                 attn_implementation="eager",
                 cache_dir="/tmp/model_cache",
                 low_cpu_mem_usage=True,
             )
 model, tokenizer = load_model()
+def generate_powell_response(question, max_length=256, num_beams=1, temperature=0.3):
     """Generate a response in Jerome Powell's style"""
     if model is None or tokenizer is None:
             prompt,
             return_tensors="pt",
             truncation=True,
+            max_length=max_length,
             padding=False,
         )