Spaces:

SecureLLMSys
/

AttnTrace

Sleeping

SecureLLMSys commited on Aug 3

Commit

444ccdb

1 Parent(s): 3a7a5c6

update

Files changed (2) hide show

src/attribution/attntrace.py CHANGED Viewed

@@ -41,7 +41,7 @@ class AttnTraceAttribution(Attribution):
         if self.llm.model!=None:
             self.model = self.llm.model
         else:
-            self.model = self.llm._load_model_if_needed()
         self.layers = range(len(self.model.model.layers))
         model = self.model
         tokenizer = self.tokenizer

         if self.llm.model!=None:
             self.model = self.llm.model
         else:
+            self.model = self.llm._load_model_if_needed().to("cuda")
         self.layers = range(len(self.model.model.layers))
         model = self.model
         tokenizer = self.tokenizer

src/models/Llama.py CHANGED Viewed

@@ -24,17 +24,18 @@ class Llama(Model):
         ]
     def _load_model_if_needed(self):
-        if self.model is None:
-            self.model = AutoModelForCausalLM.from_pretrained(
                 self.name,
                 torch_dtype=torch.bfloat16,
-                device_map=self.device,
-                token=self.hf_token
             )
-        return self.model
     def query(self, msg, max_tokens=128000):
-        model = self._load_model_if_needed()
         messages = self.messages
         messages[1]["content"] = msg

         ]
     def _load_model_if_needed(self):
+        if self._model is None:
+            model = AutoModelForCausalLM.from_pretrained(
                 self.name,
                 torch_dtype=torch.bfloat16,
+                token=self.hf_token,
+                device_map="auto",  # or omit entirely to default to CPU
             )
+            self._model = model
+        return self._model
     def query(self, msg, max_tokens=128000):
+        model = self._load_model_if_needed().to("cuda")
         messages = self.messages
         messages[1]["content"] = msg