Spaces:

Madras1
/

StrandDemo

Sleeping

App Files Files Community

Madras1 commited on Jan 5

Commit

cf48579

verified ·

1 Parent(s): 3fe423f

Upload app.py

Browse files

Files changed (1) hide show

app.py +375 -407

app.py CHANGED Viewed

@@ -1,407 +1,375 @@
-"""
-Strand Data - Demo Backend
-Deploy em HuggingFace Spaces
-Modelo: Madras1/sbert_cosine_filter_v3
-Sistema de Âncora: Centróide de exemplos de alta qualidade
-Endpoints:
-- POST /classify-quality: Classifica qualidade com sBERT + âncora
-- POST /similarity: Retorna score de similaridade com âncora
-- POST /qa: Q&A sobre texto usando LLM
-- POST /caption: Gera descrição de imagem
-"""
-import os
-import base64
-import httpx
-from fastapi import FastAPI, HTTPException
-from fastapi.middleware.cors import CORSMiddleware
-from pydantic import BaseModel
-from sentence_transformers import SentenceTransformer, util
-import torch
-import numpy as np
-from typing import Optional
-app = FastAPI(title="Strand Data Demo API")
-# CORS para permitir requests do frontend
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"],
-    allow_credentials=True,
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
-# ================================
-# Configuração
-# ================================
-# API Keys (usar secrets do HuggingFace)
-CHUTES_API_KEY = os.getenv("CHUTES_API_KEY", "")
-OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY", "")
-# Modelo sBERT - SEU MODELO FINE-TUNED
-SBERT_MODEL_NAME = "Madras1/sbert_cosine_filter_v3"
-# Threshold de qualidade (baseado no seu pipeline)
-QUALITY_THRESHOLD = 0.65
-print(f"🧠 Carregando modelo sBERT: {SBERT_MODEL_NAME}")
-device = "cuda" if torch.cuda.is_available() else "cpu"
-print(f"📱 Device: {device}")
-sbert_model = SentenceTransformer(SBERT_MODEL_NAME)
-sbert_model.to(device)
-sbert_model.eval()
-# ================================
-# Sistema de Âncora de Qualidade
-# ================================
-# Possíveis caminhos do arquivo de âncora (HuggingFace Spaces pode variar)
-POSSIBLE_ANCHOR_PATHS = [
-    "anchor_gold_vector.pt",  # Mesmo diretório
-    "/app/anchor_gold_vector.pt",  # Docker padrão
-    "/home/user/app/anchor_gold_vector.pt",  # HF Spaces path
-    "../anchor_gold_vector.pt",  # Um nível acima
-]
-ANCHOR_FILE_PATH = None
-for path in POSSIBLE_ANCHOR_PATHS:
-    if os.path.exists(path):
-        ANCHOR_FILE_PATH = path
-        break
-print(f"⚓ Procurando vetor âncora...")
-if ANCHOR_FILE_PATH and os.path.exists(ANCHOR_FILE_PATH):
-    # Carregar o centróide pré-calculado do seu dataset de ouro
-    ANCHOR_EMBEDDING = torch.load(ANCHOR_FILE_PATH, map_location=device)
-    print(f"✅ Vetor âncora carregado de: {ANCHOR_FILE_PATH}")
-    print(f"   Shape: {ANCHOR_EMBEDDING.shape}")
-else:
-    # Fallback: calcular de exemplos hardcoded se arquivo não existir
-    print("⚠️ Arquivo de âncora não encontrado em nenhum caminho.")
-    print(f"   Caminhos testados: {POSSIBLE_ANCHOR_PATHS}")
-    print("   Usando exemplos de fallback...")
-    FALLBACK_EXAMPLES = [
-        "Este artigo apresenta uma análise detalhada dos métodos de aprendizado de máquina aplicados à visão computacional, com resultados quantitativos robustos.",
-        "O estudo demonstra correlação significativa entre as variáveis analisadas, utilizando metodologia rigorosa e amostra representativa.",
-        "A implementação do algoritmo proposto apresenta complexidade O(n log n), com benchmarks comparativos contra soluções estado-da-arte.",
-    ]
-    with torch.no_grad():
-        fallback_embeddings = sbert_model.encode(FALLBACK_EXAMPLES, convert_to_tensor=True)
-        ANCHOR_EMBEDDING = torch.mean(fallback_embeddings, dim=0)
-    print("   Âncora de fallback calculada.")
-print(f"   Threshold de qualidade: {QUALITY_THRESHOLD}")
-# ================================
-# Modelos de Request/Response
-# ================================
-class QualityRequest(BaseModel):
-    text: str
-class QualityResponse(BaseModel):
-    quality: str  # "high", "medium", "low"
-    similarity_score: float  # Similaridade com âncora (0-1)
-    score_percent: float  # Score em porcentagem (0-100)
-    threshold: float  # Threshold usado
-    verdict: str  # Descrição legível
-class SimilarityRequest(BaseModel):
-    text: str
-class SimilarityResponse(BaseModel):
-    similarity: float
-    is_high_quality: bool
-class QARequest(BaseModel):
-    context: str
-    question: str
-class QAResponse(BaseModel):
-    answer: str
-class CaptionRequest(BaseModel):
-    image_base64: str
-class CaptionResponse(BaseModel):
-    caption: str
-# ================================
-# Funções de Classificação
-# ================================
-def compute_quality_score(text: str) -> tuple[float, str, str]:
-    """
-    Calcula score de qualidade usando similaridade de cosseno com âncora.
-    Retorna: (similarity_score, quality_label, verdict)
-    """
-    with torch.no_grad():
-        # Encode com normalização para garantir cálculo correto de cosseno
-        text_embedding = sbert_model.encode(text, convert_to_tensor=True, normalize_embeddings=True)
-        # Normalizar o anchor também (se não estiver normalizado)
-        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
-        # Debug
-        text_norm = torch.norm(text_embedding).item()
-        anchor_norm = torch.norm(anchor_normalized).item()
-        print(f"📊 DEBUG - Text embedding norm (deve ser ~1.0): {text_norm:.4f}")
-        print(f"📊 DEBUG - Anchor norm (deve ser ~1.0): {anchor_norm:.4f}")
-        print(f"📊 DEBUG - Text[:50]: {text[:50]}...")
-        # Similaridade de cosseno (com vetores normalizados = dot product)
-        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
-        print(f"📊 DEBUG - Similaridade calculada: {similarity:.4f}")
-    # Classificação baseada no threshold
-    if similarity >= QUALITY_THRESHOLD:
-        quality = "high"
-        verdict = "✨ Texto de ALTA qualidade! Estrutura e conteúdo técnico excelentes."
-    elif similarity >= 0.45:
-        quality = "medium"
-        verdict = "📝 Qualidade MÉDIA. Tem potencial, mas pode ser aprimorado."
-    else:
-        quality = "low"
-        verdict = "⚠️ Qualidade BAIXA. Requer revisão significativa."
-    return similarity, quality, verdict
-# ================================
-# LLM Helpers
-# ================================
-async def call_llm(prompt: str, system: str = "", max_tokens: int = 500) -> str:
-    """Chama LLM via Chutes ou OpenRouter."""
-    messages = []
-    if system:
-        messages.append({"role": "system", "content": system})
-    messages.append({"role": "user", "content": prompt})
-    # Tentar Chutes primeiro
-    if CHUTES_API_KEY:
-        try:
-            async with httpx.AsyncClient(timeout=30) as client:
-                response = await client.post(
-                    "https://llm.chutes.ai/v1/chat/completions",
-                    headers={
-                        "Authorization": f"Bearer {CHUTES_API_KEY}",
-                        "Content-Type": "application/json"
-                    },
-                    json={
-                        "model": "deepseek-ai/DeepSeek-V3-0324",
-                        "messages": messages,
-                        "max_tokens": max_tokens,
-                        "temperature": 0.7
-                    }
-                )
-                if response.status_code == 200:
-                    return response.json()["choices"][0]["message"]["content"]
-        except Exception as e:
-            print(f"Erro Chutes: {e}")
-    # Fallback para OpenRouter
-    if OPENROUTER_API_KEY:
-        try:
-            async with httpx.AsyncClient(timeout=30) as client:
-                response = await client.post(
-                    "https://openrouter.ai/api/v1/chat/completions",
-                    headers={
-                        "Authorization": f"Bearer {OPENROUTER_API_KEY}",
-                        "Content-Type": "application/json"
-                    },
-                    json={
-                        "model": "meta-llama/llama-3.3-70b-instruct",
-                        "messages": messages,
-                        "max_tokens": max_tokens
-                    }
-                )
-                if response.status_code == 200:
-                    return response.json()["choices"][0]["message"]["content"]
-        except Exception as e:
-            print(f"Erro OpenRouter: {e}")
-    raise HTTPException(status_code=503, detail="Nenhuma API de LLM disponível")
-async def call_vision_llm(image_base64: str, prompt: str) -> str:
-    """Chama LLM multimodal para image captioning."""
-    # Modelos de visão para tentar (em ordem de preferência)
-    vision_models = [
-        "Qwen/Qwen2.5-VL-72B-Instruct-TEE",  # Modelo menor, mais disponível
-        "Qwen/Qwen2-VL-7B-Instruct",
-    ]
-    if CHUTES_API_KEY:
-        for model_name in vision_models:
-            try:
-                print(f"🖼️ Tentando modelo de visão: {model_name}")
-                async with httpx.AsyncClient(timeout=60) as client:
-                    response = await client.post(
-                        "https://llm.chutes.ai/v1/chat/completions",
-                        headers={
-                            "Authorization": f"Bearer {CHUTES_API_KEY}",
-                            "Content-Type": "application/json"
-                        },
-                        json={
-                            "model": model_name,
-                            "messages": [
-                                {
-                                    "role": "user",
-                                    "content": [
-                                        {"type": "text", "text": prompt},
-                                        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
-                                    ]
-                                }
-                            ],
-                            "max_tokens": 300
-                        }
-                    )
-                    print(f"   Status: {response.status_code}")
-                    if response.status_code == 200:
-                        result = response.json()["choices"][0]["message"]["content"]
-                        print(f"   ✅ Sucesso com {model_name}")
-                        return result
-                    else:
-                        print(f"   ❌ Erro: {response.text[:200]}")
-            except Exception as e:
-                print(f"   ❌ Exceção: {e}")
-    # Fallback: OpenRouter com modelo de visão
-    if OPENROUTER_API_KEY:
-        try:
-            print("🖼️ Tentando OpenRouter para visão...")
-            async with httpx.AsyncClient(timeout=60) as client:
-                response = await client.post(
-                    "https://openrouter.ai/api/v1/chat/completions",
-                    headers={
-                        "Authorization": f"Bearer {OPENROUTER_API_KEY}",
-                        "Content-Type": "application/json"
-                    },
-                    json={
-                        "model": "qwen/qwen-2-vl-7b-instruct",
-                        "messages": [
-                            {
-                                "role": "user",
-                                "content": [
-                                    {"type": "text", "text": prompt},
-                                    {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
-                                ]
-                            }
-                        ],
-                        "max_tokens": 300
-                    }
-                )
-                if response.status_code == 200:
-                    return response.json()["choices"][0]["message"]["content"]
-                else:
-                    print(f"   ❌ OpenRouter erro: {response.text[:200]}")
-        except Exception as e:
-            print(f"   ❌ OpenRouter exceção: {e}")
-    raise HTTPException(status_code=503, detail="API de visão não disponível. Verifique os logs.")
-# ================================
-# Endpoints
-# ================================
-@app.get("/")
-async def root():
-    return {
-        "message": "Strand Data Demo API",
-        "status": "online",
-        "model": SBERT_MODEL_NAME,
-        "threshold": QUALITY_THRESHOLD
-    }
-@app.get("/health")
-async def health():
-    return {
-        "status": "healthy",
-        "model_loaded": sbert_model is not None,
-        "device": device,
-        "anchor_calibrated": ANCHOR_EMBEDDING is not None
-    }
-@app.post("/classify-quality", response_model=QualityResponse)
-async def classify_quality(request: QualityRequest):
-    """
-    Classifica a qualidade de um texto usando sBERT + sistema de âncora.
-    Usa similaridade de cosseno com centróide de exemplos de alta qualidade.
-    """
-    if not request.text.strip():
-        raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
-    similarity, quality, verdict = compute_quality_score(request.text)
-    return QualityResponse(
-        quality=quality,
-        similarity_score=round(similarity, 4),
-        score_percent=round(similarity * 100, 2),
-        threshold=QUALITY_THRESHOLD,
-        verdict=verdict
-    )
-@app.post("/similarity", response_model=SimilarityResponse)
-async def compute_similarity(request: SimilarityRequest):
-    """
-    Endpoint simples: retorna apenas a similaridade com a âncora.
-    Útil para filtragem em batch.
-    """
-    if not request.text.strip():
-        raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
-    with torch.no_grad():
-        text_embedding = sbert_model.encode(request.text, convert_to_tensor=True, normalize_embeddings=True)
-        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
-        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
-    return SimilarityResponse(
-        similarity=round(similarity, 4),
-        is_high_quality=similarity >= QUALITY_THRESHOLD
-    )
-@app.post("/qa", response_model=QAResponse)
-async def question_answering(request: QARequest):
-    """Responde perguntas sobre um texto usando LLM."""
-    system_prompt = """Você é um assistente especializado em responder perguntas sobre textos.
-Responda de forma precisa e concisa, baseando-se APENAS no contexto fornecido.
-Se a resposta não estiver no contexto, diga "Não encontrei essa informação no texto."
-Responda em português."""
-    prompt = f"""CONTEXTO:
-{request.context}
-PERGUNTA:
-{request.question}
-RESPOSTA:"""
-    answer = await call_llm(prompt, system_prompt, max_tokens=300)
-    return QAResponse(answer=answer.strip())
-@app.post("/caption", response_model=CaptionResponse)
-async def generate_caption(request: CaptionRequest):
-    """Gera uma descrição/legenda para uma imagem."""
-    prompt = """Descreva esta imagem em detalhes.
-Inclua: objetos principais, cores, ações, ambiente/cenário.
-Responda em português, em 2-3 frases."""
-    caption = await call_vision_llm(request.image_base64, prompt)
-    return CaptionResponse(caption=caption.strip())
-# ================================
-# Para rodar localmente
-# ================================
-if __name__ == "__main__":
-    import uvicorn
-    uvicorn.run(app, host="0.0.0.0", port=7860)

+"""
+Strand Data - Demo Backend
+Deploy em HuggingFace Spaces
+Modelo: Madras1/sbert_cosine_filter_v3
+Sistema de Âncora: Centróide de exemplos de alta qualidade
+Endpoints:
+- POST /classify-quality: Classifica qualidade com sBERT + âncora
+- POST /similarity: Retorna score de similaridade com âncora
+- POST /qa: Q&A sobre texto usando LLM
+- POST /caption: Gera descrição de imagem
+"""
+import os
+import base64
+import httpx
+from fastapi import FastAPI, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel
+from sentence_transformers import SentenceTransformer, util
+import torch
+import numpy as np
+from typing import Optional
+app = FastAPI(title="Strand Data Demo API")
+# CORS para permitir requests do frontend
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# ================================
+# Configuração
+# ================================
+# API Keys (usar secrets do HuggingFace)
+CHUTES_API_KEY = os.getenv("CHUTES_API_KEY", "")
+OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY", "")
+# Modelo sBERT - SEU MODELO FINE-TUNED
+SBERT_MODEL_NAME = "Madras1/sbert_cosine_filter_v3"
+# Threshold de qualidade (baseado no seu pipeline)
+QUALITY_THRESHOLD = 0.65
+print(f"🧠 Carregando modelo sBERT: {SBERT_MODEL_NAME}")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"📱 Device: {device}")
+sbert_model = SentenceTransformer(SBERT_MODEL_NAME)
+sbert_model.to(device)
+sbert_model.eval()
+# ================================
+# Sistema de Âncora de Qualidade
+# ================================
+# Possíveis caminhos do arquivo de âncora (HuggingFace Spaces pode variar)
+POSSIBLE_ANCHOR_PATHS = [
+    "anchor_gold_vector.pt",  # Mesmo diretório
+    "/app/anchor_gold_vector.pt",  # Docker padrão
+    "/home/user/app/anchor_gold_vector.pt",  # HF Spaces path
+    "../anchor_gold_vector.pt",  # Um nível acima
+]
+ANCHOR_FILE_PATH = None
+for path in POSSIBLE_ANCHOR_PATHS:
+    if os.path.exists(path):
+        ANCHOR_FILE_PATH = path
+        break
+print(f"⚓ Procurando vetor âncora...")
+if ANCHOR_FILE_PATH and os.path.exists(ANCHOR_FILE_PATH):
+    # Carregar o centróide pré-calculado do seu dataset de ouro
+    ANCHOR_EMBEDDING = torch.load(ANCHOR_FILE_PATH, map_location=device)
+    print(f"✅ Vetor âncora carregado de: {ANCHOR_FILE_PATH}")
+    print(f"   Shape: {ANCHOR_EMBEDDING.shape}")
+else:
+    # Fallback: calcular de exemplos hardcoded se arquivo não existir
+    print("⚠️ Arquivo de âncora não encontrado em nenhum caminho.")
+    print(f"   Caminhos testados: {POSSIBLE_ANCHOR_PATHS}")
+    print("   Usando exemplos de fallback...")
+    FALLBACK_EXAMPLES = [
+        "Este artigo apresenta uma análise detalhada dos métodos de aprendizado de máquina aplicados à visão computacional, com resultados quantitativos robustos.",
+        "O estudo demonstra correlação significativa entre as variáveis analisadas, utilizando metodologia rigorosa e amostra representativa.",
+        "A implementação do algoritmo proposto apresenta complexidade O(n log n), com benchmarks comparativos contra soluções estado-da-arte.",
+    ]
+    with torch.no_grad():
+        fallback_embeddings = sbert_model.encode(FALLBACK_EXAMPLES, convert_to_tensor=True)
+        ANCHOR_EMBEDDING = torch.mean(fallback_embeddings, dim=0)
+    print("   Âncora de fallback calculada.")
+print(f"   Threshold de qualidade: {QUALITY_THRESHOLD}")
+# ================================
+# Modelos de Request/Response
+# ================================
+class QualityRequest(BaseModel):
+    text: str
+class QualityResponse(BaseModel):
+    quality: str  # "high", "medium", "low"
+    similarity_score: float  # Similaridade com âncora (0-1)
+    score_percent: float  # Score em porcentagem (0-100)
+    threshold: float  # Threshold usado
+    verdict: str  # Descrição legível
+class SimilarityRequest(BaseModel):
+    text: str
+class SimilarityResponse(BaseModel):
+    similarity: float
+    is_high_quality: bool
+class QARequest(BaseModel):
+    context: str
+    question: str
+class QAResponse(BaseModel):
+    answer: str
+class CaptionRequest(BaseModel):
+    image_base64: str
+class CaptionResponse(BaseModel):
+    caption: str
+# ================================
+# Funções de Classificação
+# ================================
+def compute_quality_score(text: str) -> tuple[float, str, str]:
+    """
+    Calcula score de qualidade usando similaridade de cosseno com âncora.
+    Retorna: (similarity_score, quality_label, verdict)
+    """
+    with torch.no_grad():
+        # Encode com normalização para garantir cálculo correto de cosseno
+        text_embedding = sbert_model.encode(text, convert_to_tensor=True, normalize_embeddings=True)
+        # Normalizar o anchor também (se não estiver normalizado)
+        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
+        # Debug
+        text_norm = torch.norm(text_embedding).item()
+        anchor_norm = torch.norm(anchor_normalized).item()
+        print(f"📊 DEBUG - Text embedding norm (deve ser ~1.0): {text_norm:.4f}")
+        print(f"📊 DEBUG - Anchor norm (deve ser ~1.0): {anchor_norm:.4f}")
+        print(f"📊 DEBUG - Text[:50]: {text[:50]}...")
+        # Similaridade de cosseno (com vetores normalizados = dot product)
+        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
+        print(f"📊 DEBUG - Similaridade calculada: {similarity:.4f}")
+    # Classificação baseada no threshold
+    if similarity >= QUALITY_THRESHOLD:
+        quality = "high"
+        verdict = "✨ Texto de ALTA qualidade! Estrutura e conteúdo técnico excelentes."
+    elif similarity >= 0.45:
+        quality = "medium"
+        verdict = "📝 Qualidade MÉDIA. Tem potencial, mas pode ser aprimorado."
+    else:
+        quality = "low"
+        verdict = "⚠️ Qualidade BAIXA. Requer revisão significativa."
+    return similarity, quality, verdict
+# ================================
+# LLM Helpers
+# ================================
+async def call_llm(prompt: str, system: str = "", max_tokens: int = 500) -> str:
+    """Chama LLM via Chutes ou OpenRouter."""
+    messages = []
+    if system:
+        messages.append({"role": "system", "content": system})
+    messages.append({"role": "user", "content": prompt})
+    # Tentar Chutes primeiro
+    if CHUTES_API_KEY:
+        try:
+            async with httpx.AsyncClient(timeout=30) as client:
+                response = await client.post(
+                    "https://llm.chutes.ai/v1/chat/completions",
+                    headers={
+                        "Authorization": f"Bearer {CHUTES_API_KEY}",
+                        "Content-Type": "application/json"
+                    },
+                    json={
+                        "model": "deepseek-ai/DeepSeek-V3-0324",
+                        "messages": messages,
+                        "max_tokens": max_tokens,
+                        "temperature": 0.7
+                    }
+                )
+                if response.status_code == 200:
+                    return response.json()["choices"][0]["message"]["content"]
+        except Exception as e:
+            print(f"Erro Chutes: {e}")
+    # Fallback para OpenRouter
+    if OPENROUTER_API_KEY:
+        try:
+            async with httpx.AsyncClient(timeout=30) as client:
+                response = await client.post(
+                    "https://openrouter.ai/api/v1/chat/completions",
+                    headers={
+                        "Authorization": f"Bearer {OPENROUTER_API_KEY}",
+                        "Content-Type": "application/json"
+                    },
+                    json={
+                        "model": "nex-agi/deepseek-v3.1-nex-n1:free",
+                        "messages": messages,
+                        "max_tokens": max_tokens
+                    }
+                )
+                if response.status_code == 200:
+                    return response.json()["choices"][0]["message"]["content"]
+        except Exception as e:
+            print(f"Erro OpenRouter: {e}")
+    raise HTTPException(status_code=503, detail="Nenhuma API de LLM disponível")
+async def call_vision_llm(image_base64: str, prompt: str) -> str:
+    """Chama LLM multimodal para image captioning."""
+    # Modelos de visão na Chutes (em ordem de preferência)
+    vision_models = [
+        "Qwen/Qwen2.5-VL-72B-Instruct-TEE",  # TEE
+        "Qwen/Qwen3-VL-235B-A22B-Instruct",   # Qwen3
+    ]
+    if CHUTES_API_KEY:
+        for model_name in vision_models:
+            try:
+                print(f"🖼️ Tentando modelo de visão: {model_name}")
+                async with httpx.AsyncClient(timeout=60) as client:
+                    response = await client.post(
+                        "https://llm.chutes.ai/v1/chat/completions",
+                        headers={
+                            "Authorization": f"Bearer {CHUTES_API_KEY}",
+                            "Content-Type": "application/json"
+                        },
+                        json={
+                            "model": model_name,
+                            "messages": [
+                                {
+                                    "role": "user",
+                                    "content": [
+                                        {"type": "text", "text": prompt},
+                                        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}}
+                                    ]
+                                }
+                            ],
+                            "max_tokens": 300
+                        }
+                    )
+                    print(f"   Status: {response.status_code}")
+                    if response.status_code == 200:
+                        result = response.json()["choices"][0]["message"]["content"]
+                        print(f"   ✅ Sucesso com {model_name}")
+                        return result
+                    else:
+                        print(f"   ❌ Erro: {response.text[:200]}")
+            except Exception as e:
+                print(f"   ❌ Exceção: {e}")
+    raise HTTPException(status_code=503, detail="API de visão não disponível. Verifique os logs do container.")
+# ================================
+# Endpoints
+# ================================
+@app.get("/")
+async def root():
+    return {
+        "message": "Strand Data Demo API",
+        "status": "online",
+        "model": SBERT_MODEL_NAME,
+        "threshold": QUALITY_THRESHOLD
+    }
+@app.get("/health")
+async def health():
+    return {
+        "status": "healthy",
+        "model_loaded": sbert_model is not None,
+        "device": device,
+        "anchor_calibrated": ANCHOR_EMBEDDING is not None
+    }
+@app.post("/classify-quality", response_model=QualityResponse)
+async def classify_quality(request: QualityRequest):
+    """
+    Classifica a qualidade de um texto usando sBERT + sistema de âncora.
+    Usa similaridade de cosseno com centróide de exemplos de alta qualidade.
+    """
+    if not request.text.strip():
+        raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
+    similarity, quality, verdict = compute_quality_score(request.text)
+    return QualityResponse(
+        quality=quality,
+        similarity_score=round(similarity, 4),
+        score_percent=round(similarity * 100, 2),
+        threshold=QUALITY_THRESHOLD,
+        verdict=verdict
+    )
+@app.post("/similarity", response_model=SimilarityResponse)
+async def compute_similarity(request: SimilarityRequest):
+    """
+    Endpoint simples: retorna apenas a similaridade com a âncora.
+    Útil para filtragem em batch.
+    """
+    if not request.text.strip():
+        raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
+    with torch.no_grad():
+        text_embedding = sbert_model.encode(request.text, convert_to_tensor=True, normalize_embeddings=True)
+        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
+        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
+    return SimilarityResponse(
+        similarity=round(similarity, 4),
+        is_high_quality=similarity >= QUALITY_THRESHOLD
+    )
+@app.post("/qa", response_model=QAResponse)
+async def question_answering(request: QARequest):
+    """Responde perguntas sobre um texto usando LLM."""
+    system_prompt = """Você é um assistente especializado em responder perguntas sobre textos.
+Responda de forma precisa e concisa, baseando-se APENAS no contexto fornecido.
+Se a resposta não estiver no contexto, diga "Não encontrei essa informação no texto."
+Responda em português."""
+    prompt = f"""CONTEXTO:
+{request.context}
+PERGUNTA:
+{request.question}
+RESPOSTA:"""
+    answer = await call_llm(prompt, system_prompt, max_tokens=300)
+    return QAResponse(answer=answer.strip())
+@app.post("/caption", response_model=CaptionResponse)
+async def generate_caption(request: CaptionRequest):
+    """Gera uma descrição/legenda para uma imagem."""
+    prompt = """Descreva esta imagem em detalhes.
+Inclua: objetos principais, cores, ações, ambiente/cenário.
+Responda em português, em 2-3 frases."""
+    caption = await call_vision_llm(request.image_base64, prompt)
+    return CaptionResponse(caption=caption.strip())
+# ================================
+# Para rodar localmente
+# ================================
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)