Spaces:

sattoru96
/

artscope

Sleeping

App Files Files Community

sattoru96 commited on 9 days ago

Commit

b14f628

verified ·

1 Parent(s): 9a6ace0

artscope subida archivos

Browse files

Files changed (3) hide show

README.md +33 -8
app.py +153 -0
requirements.txt +10 -0

README.md CHANGED Viewed

@@ -1,14 +1,39 @@
 ---
-title: Artscope
-emoji: 👁
-colorFrom: yellow
-colorTo: red
 sdk: gradio
-sdk_version: 6.14.0
-python_version: '3.13'
 app_file: app.py
 pinned: false
-license: mit
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: ArtScope
+emoji: 🎨
+colorFrom: indigo
+colorTo: pink
 sdk: gradio
+sdk_version: 6.11.0
 app_file: app.py
 pinned: false
 ---
+# 🎨 ArtScope
+Clasificador de movimientos artísticos basado en un ensemble heterogéneo
+**ConvNeXt-tiny + ViT-small**, con mapa **Grad-CAM** y descripción del estilo
+generada por **Claude** (Anthropic).
+Trabajo final de la asignatura de Computer Vision del máster MIOTI.
+## Cómo funciona
+1. Subes una imagen de un cuadro.
+2. Dos modelos (una CNN moderna y un Vision Transformer) predicen el movimiento por
+   separado y sus probabilidades se promedian (ensemble).
+3. Se calcula un mapa Grad-CAM sobre el ConvNeXt para visualizar las regiones más
+   influyentes en la predicción.
+4. Se envía el top-1 y top-2 a Claude, que devuelve una descripción contextual del
+   estilo.
+## Movimientos soportados
+Impressionism · Post-Impressionism · Realism · Romanticism · Expressionism · Cubism ·
+Surrealism · Abstract Expressionism · Baroque · Northern Renaissance
+## Configuración
+La descripción generativa requiere una variable de entorno `ANTHROPIC_API_KEY`
+(Settings → Variables and secrets). Si no se proporciona, la app sigue funcionando
+y muestra un mensaje en su lugar.

app.py ADDED Viewed

	@@ -0,0 +1,153 @@

+"""ArtScope — app de Gradio para HuggingFace Space.
+Pipeline:
+  imagen del cuadro
+    -> predicción con ConvNeXt + ViT en ensemble (promedio de probas)
+    -> Grad-CAM sobre el ConvNeXt
+    -> descripción del estilo predicho con Claude (opcional)
+Pasos para desplegar:
+  1. Crea un Space (Gradio) en HuggingFace.
+  2. Sube este archivo + requirements.txt + README.md.
+  3. En Settings -> Variables and secrets, añade ANTHROPIC_API_KEY (opcional).
+  4. Sustituye HF_USER por tu usuario antes de subir.
+"""
+import os
+import gradio as gr
+import torch
+import numpy as np
+from PIL import Image
+from torchvision import transforms as T
+from huggingface_hub import from_pretrained_fastai
+from fastai.vision.all import PILImage
+from pytorch_grad_cam import GradCAM
+from pytorch_grad_cam.utils.image import show_cam_on_image
+# ---------------------------------------------------------------
+# Configuración
+# ---------------------------------------------------------------
+HF_USER = "tu_usuario"  # <-- sustitúyelo por tu usuario de HF antes de subir
+REPO_CNN = f"{HF_USER}/artscope-convnext"
+REPO_VIT = f"{HF_USER}/artscope-vit"
+# ---------------------------------------------------------------
+# Carga de modelos (al iniciar el Space, una sola vez)
+# ---------------------------------------------------------------
+print("Descargando modelos del Hub...")
+learn_cnn = from_pretrained_fastai(REPO_CNN)
+learn_vit = from_pretrained_fastai(REPO_VIT)
+LABELS = list(learn_cnn.dls.vocab)
+print(f"Modelos listos. {len(LABELS)} clases: {LABELS}")
+# Grad-CAM lo montamos solo sobre el ConvNeXt: es más rápido y la visualización
+# es más interpretable en este tipo de arquitectura.
+learn_cnn.model.eval()
+_target_layer = learn_cnn.model[0].stages[-1].blocks[-1]
+cam = GradCAM(model=learn_cnn.model, target_layers=[_target_layer])
+# ---------------------------------------------------------------
+# Cliente Claude (opcional — la app funciona sin él)
+# ---------------------------------------------------------------
+ANTHROPIC_KEY = os.environ.get("ANTHROPIC_API_KEY")
+anthropic_client = None
+if ANTHROPIC_KEY:
+    try:
+        from anthropic import Anthropic
+        anthropic_client = Anthropic(api_key=ANTHROPIC_KEY)
+        print("Cliente Anthropic inicializado.")
+    except Exception as e:
+        print(f"Aviso: no se pudo inicializar Anthropic ({e}).")
+def llm_describe(top_style: str, second_style: str) -> str:
+    """Genera una descripción del movimiento detectado usando Claude."""
+    if anthropic_client is None:
+        return (
+            "_(Descripción LLM desactivada. Para activarla, añade "
+            "`ANTHROPIC_API_KEY` en los Secrets del Space.)_"
+        )
+    prompt = (
+        f"Eres un guía de museo experto. Acabo de mostrar un cuadro a un clasificador "
+        f"y dice que es {top_style.replace('_', ' ')}, con {second_style.replace('_', ' ')} "
+        f"como segunda opción. En 4-5 frases en español, explica qué rasgos visuales "
+        f"definen al {top_style.replace('_', ' ')} y por qué podría confundirse con "
+        f"{second_style.replace('_', ' ')}. Tono divulgativo, sin tecnicismos innecesarios."
+    )
+    try:
+        msg = anthropic_client.messages.create(
+            model="claude-haiku-4-5",
+            max_tokens=400,
+            messages=[{"role": "user", "content": prompt}],
+        )
+        return msg.content[0].text
+    except Exception as e:
+        return f"_(Error llamando a Claude: {e})_"
+# ---------------------------------------------------------------
+# Función principal
+# ---------------------------------------------------------------
+def predict(img):
+    if img is None:
+        return None, None, ""
+    # Preparación
+    pil_img = Image.fromarray(np.array(img)).convert("RGB")
+    fastai_img = PILImage.create(pil_img)
+    # Ensemble: promedio de probabilidades de ambos modelos
+    _, _, probs_cnn = learn_cnn.predict(fastai_img)
+    _, _, probs_vit = learn_vit.predict(fastai_img)
+    probs = ((probs_cnn + probs_vit) / 2).numpy()
+    # Top-3
+    order = sorted(range(len(LABELS)), key=lambda i: -probs[i])[:3]
+    label_dict = {LABELS[i]: float(probs[i]) for i in order}
+    # Grad-CAM
+    preprocess = T.Compose([T.Resize((224, 224)), T.ToTensor()])
+    tensor = preprocess(pil_img).unsqueeze(0)
+    if torch.cuda.is_available():
+        tensor = tensor.cuda()
+    grayscale = cam(input_tensor=tensor)[0]
+    rgb = np.array(preprocess(pil_img).permute(1, 2, 0))
+    cam_img = show_cam_on_image(rgb, grayscale, use_rgb=True)
+    # Descripción
+    description = llm_describe(LABELS[order[0]], LABELS[order[1]])
+    return label_dict, cam_img, description
+# ---------------------------------------------------------------
+# UI
+# ---------------------------------------------------------------
+DESCRIPTION = (
+    "# 🎨 ArtScope\n"
+    "Sube un cuadro y descubre a qué **movimiento artístico** pertenece, dónde "
+    "está mirando el modelo (mapa Grad-CAM) y qué hace especial a ese estilo "
+    "(descripción generada por Claude).\n\n"
+    "*Modelo: ensemble ConvNeXt-tiny + ViT-small, fine-tuned sobre un subset de "
+    "WikiArt con 10 movimientos.*"
+)
+with gr.Blocks(title="ArtScope", theme=gr.themes.Soft()) as demo:
+    gr.Markdown(DESCRIPTION)
+    with gr.Row():
+        with gr.Column(scale=1):
+            inp = gr.Image(type="numpy", label="Sube un cuadro")
+            btn = gr.Button("Analizar", variant="primary")
+            gr.Markdown(
+                "**Estilos soportados**: "
+                + ", ".join(s.replace("_", " ") for s in LABELS)
+            )
+        with gr.Column(scale=1):
+            out_label = gr.Label(num_top_classes=3, label="Top movimientos")
+            out_cam = gr.Image(label="Dónde mira el modelo (Grad-CAM)")
+            out_desc = gr.Markdown(label="Descripción del estilo")
+    btn.click(predict, inputs=inp, outputs=[out_label, out_cam, out_desc])
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+fastai==2.8.7
+timm==1.0.26
+huggingface_hub[fastai]==1.8.0
+gradio==6.11.0
+grad-cam==1.5.4
+anthropic==0.45.0
+torch
+torchvision
+Pillow
+numpy