Spaces:

Madras1
/

AetherMap

Sleeping

App Files Files Community

Madras1 commited on 11 days ago

Commit

9c60a4a

verified ·

1 Parent(s): 3b0df15

Upload 2 files

Browse files

Files changed (2) hide show

app.py +33 -28
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -103,8 +103,8 @@ from langdetect import detect, LangDetectException
 from prometheus_fastapi_instrumentator import Instrumentator
 from prometheus_client import Histogram
-# A Conexão com o Oráculo
-from groq import Groq
 # ==============================================================================
 # CONFIGURAÇÕES GERAIS E LOGGING
@@ -123,25 +123,30 @@ UMAP_N_NEIGHBORS = 30
 cache: Dict[str, Any] = {}
 # Definição de Métricas Customizadas do Prometheus
-# Isso permite separar a latência da sua lógica vs a latência da API externa
-GROQ_LATENCY = Histogram(
-    "groq_api_latency_seconds",
-    "Tempo de resposta da API externa Groq (LLM Generation)",
     buckets=[0.1, 0.5, 1.0, 2.0, 5.0, 10.0, 20.0]
 )
-# Inicialização do Cliente Groq
-GROQ_API_KEY = os.environ.get("GROQ_API_KEY")
 try:
-    if not GROQ_API_KEY:
-        logging.warning("GROQ_API_KEY não encontrada. Funcionalidades de LLM estarão indisponíveis.")
-        groq_client = None
     else:
-        groq_client = Groq(api_key=GROQ_API_KEY)
-        logging.info("Cliente Groq inicializado com sucesso.")
 except Exception as e:
-    logging.error(f"FALHA AO INICIALIZAR GROQ: {e}")
-    groq_client = None
 # Inicialização do Cliente Tavily (Web Search)
 TAVILY_API_KEY = os.environ.get("TAVILY_API_KEY")
@@ -935,9 +940,9 @@ async def search_api(query: str = Form(...), job_id: str = Form(...)):
                 "citation_id": rank + 1
             })
-        # FASE 3: Geração (Groq) com TELEMETRIA
         summary = ""
-        if groq_client:
             context_str = "\n".join(context_parts)
             rag_prompt = (
                 "INSTRUÇÃO DE SISTEMA:\n"
@@ -954,18 +959,18 @@ async def search_api(query: str = Form(...), job_id: str = Form(...)):
             try:
                 # --- INÍCIO DA MEDIÇÃO DA API EXTERNA ---
-                start_time_groq = time.time()
-                chat_completion = groq_client.chat.completions.create(
                     messages=[{"role": "user", "content": rag_prompt}],
-                    model="moonshotai/kimi-k2-instruct-0905",
                     temperature=0.1,
                     max_tokens=1024
                 )
                 # Registra o tempo gasto apenas na chamada da API
-                duration = time.time() - start_time_groq
-                GROQ_LATENCY.observe(duration)
                 # --- FIM DA MEDIÇÃO ---
                 summary = chat_completion.choices[0].message.content.strip()
@@ -983,7 +988,7 @@ async def search_api(query: str = Form(...), job_id: str = Form(...)):
 @app.post("/describe_clusters/")
 async def describe_clusters_api(job_id: str = Form(...)):
     logging.info(f"Descrevendo clusters para Job: {job_id}")
-    if not groq_client: raise HTTPException(status_code=503, detail="Groq indisponível.")
     if job_id not in cache: raise HTTPException(status_code=404, detail="Job não encontrado.")
     try:
@@ -1018,17 +1023,17 @@ async def describe_clusters_api(job_id: str = Form(...)):
         )
         # --- INÍCIO DA MEDIÇÃO DA API EXTERNA ---
-        start_time_groq = time.time()
-        chat_completion = groq_client.chat.completions.create(
             messages=[
                 {"role": "system", "content": "JSON Output Only."},
                 {"role": "user", "content": master_prompt},
-            ], model="meta-llama/llama-4-maverick-17b-128e-instruct", temperature=0.2,
         )
-        duration = time.time() - start_time_groq
-        GROQ_LATENCY.observe(duration)
         # --- FIM DA MEDIÇÃO ---
         response_content = chat_completion.choices[0].message.content

 from prometheus_fastapi_instrumentator import Instrumentator
 from prometheus_client import Histogram
+# A Conexão com o Oráculo (OpenRouter - OpenAI Compatible)
+from openai import OpenAI
 # ==============================================================================
 # CONFIGURAÇÕES GERAIS E LOGGING
 cache: Dict[str, Any] = {}
 # Definição de Métricas Customizadas do Prometheus
+LLM_LATENCY = Histogram(
+    "llm_api_latency_seconds",
+    "Tempo de resposta da API externa LLM (OpenRouter)",
     buckets=[0.1, 0.5, 1.0, 2.0, 5.0, 10.0, 20.0]
 )
+# Modelo LLM (OpenRouter)
+LLM_MODEL = os.environ.get("LLM_MODEL", "google/gemini-2.0-flash-exp:free")
+# Inicialização do Cliente OpenRouter (OpenAI Compatible)
+OPENROUTER_API_KEY = os.environ.get("OPENROUTER_API_KEY")
 try:
+    if not OPENROUTER_API_KEY:
+        logging.warning("OPENROUTER_API_KEY não encontrada. Funcionalidades de LLM estarão indisponíveis.")
+        llm_client = None
     else:
+        llm_client = OpenAI(
+            base_url="https://openrouter.ai/api/v1",
+            api_key=OPENROUTER_API_KEY
+        )
+        logging.info(f"Cliente OpenRouter inicializado com modelo: {LLM_MODEL}")
 except Exception as e:
+    logging.error(f"FALHA AO INICIALIZAR OPENROUTER: {e}")
+    llm_client = None
 # Inicialização do Cliente Tavily (Web Search)
 TAVILY_API_KEY = os.environ.get("TAVILY_API_KEY")
                 "citation_id": rank + 1
             })
+        # FASE 3: Geração (OpenRouter) com TELEMETRIA
         summary = ""
+        if llm_client:
             context_str = "\n".join(context_parts)
             rag_prompt = (
                 "INSTRUÇÃO DE SISTEMA:\n"
             try:
                 # --- INÍCIO DA MEDIÇÃO DA API EXTERNA ---
+                start_time_llm = time.time()
+                chat_completion = llm_client.chat.completions.create(
                     messages=[{"role": "user", "content": rag_prompt}],
+                    model=LLM_MODEL,
                     temperature=0.1,
                     max_tokens=1024
                 )
                 # Registra o tempo gasto apenas na chamada da API
+                duration = time.time() - start_time_llm
+                LLM_LATENCY.observe(duration)
                 # --- FIM DA MEDIÇÃO ---
                 summary = chat_completion.choices[0].message.content.strip()
 @app.post("/describe_clusters/")
 async def describe_clusters_api(job_id: str = Form(...)):
     logging.info(f"Descrevendo clusters para Job: {job_id}")
+    if not llm_client: raise HTTPException(status_code=503, detail="LLM indisponível.")
     if job_id not in cache: raise HTTPException(status_code=404, detail="Job não encontrado.")
     try:
         )
         # --- INÍCIO DA MEDIÇÃO DA API EXTERNA ---
+        start_time_llm = time.time()
+        chat_completion = llm_client.chat.completions.create(
             messages=[
                 {"role": "system", "content": "JSON Output Only."},
                 {"role": "user", "content": master_prompt},
+            ], model=LLM_MODEL, temperature=0.2,
         )
+        duration = time.time() - start_time_llm
+        LLM_LATENCY.observe(duration)
         # --- FIM DA MEDIÇÃO ---
         response_content = chat_completion.choices[0].message.content

requirements.txt CHANGED Viewed

@@ -2,7 +2,7 @@
 fastapi
 uvicorn[standard]
 python-multipart
-groq
 prometheus-fastapi-instrumentator
 prometheus-client
 tavily-python

 fastapi
 uvicorn[standard]
 python-multipart
+openai
 prometheus-fastapi-instrumentator
 prometheus-client
 tavily-python