Spaces:

digitaldev2024
/

allma

Sleeping

App Files Files Community

pakito312 commited on Jan 15

Commit

c619745

1 Parent(s): 26cacf3

update

Browse files

Files changed (1) hide show

api.py +46 -18

api.py CHANGED Viewed

@@ -198,37 +198,65 @@ class ModelManager:
             self.loading = False
             return self.llm
-    def generate(self, prompt: str, temperature: float = 0.2, max_tokens: int = 256, top_p: float = 0.95):
-        """Générer du texte"""
         if self.llm is None:
             self.load_model()
-        # Si c'est le DummyLLM, appeler la méthode factice
         if isinstance(self.llm, DummyLLM):
             return self.llm.generate(prompt, temperature, max_tokens, top_p)
-        # Pour Llama réel
         try:
-            response = self.llm.generate(
-                prompt=prompt,
                 max_tokens=max_tokens,
                 temperature=temperature,
                 top_p=top_p,
-                stop=None,  # ou ['\n\n'] selon ton usage
                 echo=False
             )
-            # Extraire le texte généré
-            return response['choices'][0]['text']
         except Exception as e:
-            # Fallback en cas d'erreur
-            return f"# Fallback response\n\nPrompt: {prompt}\n\nError: {str(e)[:100]}"
-    def chat(self, messages: List[dict], temperature: float = 0.2, max_tokens: int = 256):
-        """Chat conversationnel"""
         if self.llm is None:
             self.load_model()
-        return self.llm.chat(messages, temperature, max_tokens)
 # ========== MODÈLE FACTICE POUR TEST ==========
 class DummyLLM:

             self.loading = False
             return self.llm
+    def generate(
+        self,
+        prompt: str,
+        temperature: float = 0.2,
+        max_tokens: int = 256,
+        top_p: float = 0.95
+    ):
+        """Générer du texte avec llama_cpp"""
         if self.llm is None:
             self.load_model()
         if isinstance(self.llm, DummyLLM):
             return self.llm.generate(prompt, temperature, max_tokens, top_p)
         try:
+            response = self.llm(
+                prompt,
                 max_tokens=max_tokens,
                 temperature=temperature,
                 top_p=top_p,
                 echo=False
             )
+            return response["choices"][0]["text"]
         except Exception as e:
+            return (
+                "# Fallback response\n\n"
+                f"Prompt: {prompt}\n\n"
+                f"Error: {str(e)[:200]}"
+            )
+    def chat(
+        self,
+        messages: List[dict],
+        temperature: float = 0.2,
+        max_tokens: int = 256
+    ):
         if self.llm is None:
             self.load_model()
+        if isinstance(self.llm, DummyLLM):
+            return self.llm.chat(messages, temperature, max_tokens)
+        prompt = ""
+        for msg in messages:
+            role = msg["role"]
+            content = msg["content"]
+            prompt += f"{role.upper()}: {content}\n"
+        prompt += "ASSISTANT:"
+        response = self.llm(
+            prompt,
+            max_tokens=max_tokens,
+            temperature=temperature
+        )
+        return response["choices"][0]["text"]
 # ========== MODÈLE FACTICE POUR TEST ==========
 class DummyLLM: