Spaces:

akra35567
/

akira

Running

App Files Files Community

akra35567 commited on Mar 17

Commit

2ed1b2f

verified ·

1 Parent(s): f2ed57f

Upload 2 files

Browse files

Files changed (2) hide show

config.py +19 -0
local_llm.py +35 -17

config.py CHANGED Viewed

@@ -132,6 +132,8 @@ GROQ_MODEL: str = "llama-3.3-70b-versatile"
 GROK_MODEL: str = "grok-beta"
 COHERE_MODEL: str = "command-r-plus-08-2024"
 TOGETHER_MODEL: str = "meta-llama/Llama-3.3-70B-Instruct-Turbo"
 # Modelo de embeddings (SentenceTransformers)
 EMBEDDING_MODEL: str = "paraphrase-multilingual-MiniLM-L12-v2"
@@ -183,6 +185,23 @@ MODEL_PARAMETERS: Dict[str, Dict[str, Any]] = {
         "frequency_penalty": 0.1,
         "max_tokens": 4096
     },
     # 🧠 MISTRAL LUANA 8x7B (Especialista PT-AO)
     # Arquitetura MoE (Mixture of Experts). Precisa de top_p alto.

 GROK_MODEL: str = "grok-beta"
 COHERE_MODEL: str = "command-r-plus-08-2024"
 TOGETHER_MODEL: str = "meta-llama/Llama-3.3-70B-Instruct-Turbo"
+DEEPSEEK_MODEL: str = "deepseek-ai/DeepSeek-V3"
+MISTRAL_MODEL_HF: str = "mistralai/Mistral-7B-Instruct-v0.3"
 # Modelo de embeddings (SentenceTransformers)
 EMBEDDING_MODEL: str = "paraphrase-multilingual-MiniLM-L12-v2"
         "frequency_penalty": 0.1,
         "max_tokens": 4096
     },
+    "deepseek-ai/DeepSeek-V3": {
+        "temperature": 0.6,
+        "top_p": 0.95,
+        "max_tokens": 4096,
+        "repetition_penalty": 1.1,
+        "presence_penalty": 0.0,
+        "frequency_penalty": 0.0
+    },
+    # 🌬️ MISTRAL 7B INSTRUCT V0.3 (Human / Fluid)
+    "mistralai/Mistral-7B-Instruct-v0.3": {
+        "temperature": 0.7,
+        "top_p": 0.9,
+        "repetition_penalty": 1.1,
+        "max_tokens": 4096
+    },
     # 🧠 MISTRAL LUANA 8x7B (Especialista PT-AO)
     # Arquitetura MoE (Mixture of Experts). Precisa de top_p alto.

local_llm.py CHANGED Viewed

@@ -149,8 +149,10 @@ class LocalLLMFallback:
         # Componentes do modelo
         self._model = None  # type: ignore
         self._model_path: Optional[str] = None
-        self._heavy_model: Optional[str] = None
-        self._portuguese_model: Optional[str] = None
         self._multilingual_beast: Optional[str] = None
         self._is_loaded = False
         self._tokenizer = None # type: ignore
@@ -195,11 +197,20 @@ class LocalLLMFallback:
         if hf_token:
             self._is_hf_inference_mode = True
             self._is_loaded = True
-            # Prioridade absoluta: Modelo sem censura (Leve e Pesado)
-            self._model_path = "Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2"
-            self._heavy_model = "huihui-ai/Qwen2.5-72B-Instruct-abliterated"
-            self._portuguese_model = "rhaymison/Mistral-8x7b-Quantized-portuguese-luana"
             self._multilingual_beast = "Qwen/Qwen2.5-72B-Instruct"
             self._stats["model_loaded"] = True
             # Inicializa o cliente se possível
@@ -328,19 +339,25 @@ class LocalLLMFallback:
                 palavras = len(prompt.split())
                 is_very_short = palavras <= 5 and not needs_heavy
                 if needs_heavy and not is_very_short:
-                    # MENSAGEM COMPLEXA/SEM CENSURA/DEBATE: Qwen -> Luna -> Lexi
-                    candidate_models.extend([self._heavy_model, self._portuguese_model, base_model])
                 elif needs_luna and not is_very_short:
-                    # MENSAGEM CULTURAL/GÍRIA EM PT: Luna -> Lexi -> Qwen
-                    candidate_models.extend([self._portuguese_model, base_model, self._heavy_model])
                 else:
-                    # MENSAGEM SIMPLES OU MUITO CURTA:
-                    if prefer_heavy and not is_very_short:
-                        candidate_models.extend([self._heavy_model, base_model, self._portuguese_model])
                     else:
-                        # Força Lexi (leve) para "oi", "tudo bem"
-                        candidate_models.extend([base_model, self._portuguese_model, self._heavy_model])
                 # Garantir apenas modelos únicos mantendo a ordem
                 seen = set()
@@ -400,8 +417,9 @@ class LocalLLMFallback:
                                     err_json = resp.json()
                                     if "not supported" in str(err_json).lower():
                                         continue
-                                except: pass
-                                logger.error(f"⚠️ Router '{provider}': HTTP {resp.status_code}")
                         except Exception:
                             continue

         # Componentes do modelo
         self._model = None  # type: ignore
         self._model_path: Optional[str] = None
+        self._deepseek_model: Optional[str] = None
+        self._mistral_model: Optional[str] = None
+        self._lexi_model: Optional[str] = None
+        self._luna_model: Optional[str] = None
         self._multilingual_beast: Optional[str] = None
         self._is_loaded = False
         self._tokenizer = None # type: ignore
         if hf_token:
             self._is_hf_inference_mode = True
             self._is_loaded = True
+            # Nova Hierarquia AKIRA V21 - Usando config se disponível
+            try:
+                self._deepseek_model = getattr(_cfgloc, 'DEEPSEEK_MODEL', "deepseek-ai/DeepSeek-V3")
+                self._mistral_model = getattr(_cfgloc, 'MISTRAL_MODEL_HF', "mistralai/Mistral-7B-Instruct-v0.3")
+            except:
+                self._deepseek_model = "deepseek-ai/DeepSeek-V3"
+                self._mistral_model = "mistralai/Mistral-7B-Instruct-v0.3"
+            self._lexi_model = "Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2"
+            self._luna_model = "rhaymison/Mistral-8x7b-Quantized-portuguese-luana"
             self._multilingual_beast = "Qwen/Qwen2.5-72B-Instruct"
+            self._model_path = self._deepseek_model  # Default principal
             self._stats["model_loaded"] = True
             # Inicializa o cliente se possível
                 palavras = len(prompt.split())
                 is_very_short = palavras <= 5 and not needs_heavy
+                # 0. DEFINIR HIERARQUIA ESTRETA
+                # 1. DeepSeek (Pesado/Padrão) -> 2. Mistral (Humano) -> 3. Lexi (Sem Censura) -> 4. Luna (Cultura)
                 if needs_heavy and not is_very_short:
+                    # MENSAGEM COMPLEXA/LÓGICA: DeepSeek -> Mistral -> Lexi
+                    candidate_models.extend([self._deepseek_model, self._mistral_model, self._lexi_model])
                 elif needs_luna and not is_very_short:
+                    # MENSAGEM CULTURAL: Luna -> Mistral -> Lexi
+                    candidate_models.extend([self._luna_model, self._mistral_model, self._lexi_model])
+                elif "humano" in prompt_lower or "conversa" in prompt_lower:
+                    # MENSAGEM HUMANA: Mistral -> DeepSeek -> Lexi
+                    candidate_models.extend([self._mistral_model, self._deepseek_model, self._lexi_model])
                 else:
+                    # PADRÃO: DeepSeek como base se não for curto
+                    if is_very_short:
+                        candidate_models.extend([self._lexi_model, self._mistral_model])
                     else:
+                        # Hierarquia padrão solicitada: DeepSeek > Mistral > Lexi > Luna
+                        candidate_models.extend([self._deepseek_model, self._mistral_model, self._lexi_model, self._luna_model])
                 # Garantir apenas modelos únicos mantendo a ordem
                 seen = set()
                                     err_json = resp.json()
                                     if "not supported" in str(err_json).lower():
                                         continue
+                                    logger.error(f"⚠️ Router '{provider}' HTTP 400: {err_json}")
+                                except:
+                                    logger.error(f"⚠️ Router '{provider}' HTTP 400: {resp.text[:200]}")
                         except Exception:
                             continue