metadata
title: Salamandra-Vision 7B · ZeroGPU
emoji: 🦎
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
🦎 Salamandra-Vision 7B · ZeroGPU
Este Space despliega el modelo BSC-LT/salamandra-7b-vision —una variante de LLaVA-OneVision entrenada por el Barcelona Supercomputing Center— utilizando máquinas ZeroGPU.
Permite enviar una imagen y un texto (prompt) para recibir una descripción generada automáticamente.
Funciona tanto desde la interfaz web (Gradio) como desde clientes externos (por ejemplo, otro Space con Streamlit o una app Python local).
🚀 Características
- ZeroGPU: utiliza GPU bajo demanda, sin necesidad de hardware dedicado.
- Entrada multimodal: imagen + texto.
- Salida: texto descriptivo (en catalán o español).
- API REST directa (
/api/describe_raw) + API Gradio (/api/predict/describe). - Compatible con clientes HTTP (
requests) ogradio_client.
🧠 Modelo
- Modelo:
BSC-LT/salamandra-7b-vision - Arquitectura: LLaVA-OneVision 7B
- Framework: PyTorch + Transformers
- Capa de entrada:
AutoProcessor - Generación:
LlavaOnevisionForConditionalGeneration
El modelo combina visión y lenguaje para generar texto a partir de imágenes, siguiendo el esquema de conversación (“chat template”) oficial de OneVision.
⚙️ Configuración del Space
Hardware: ZeroGPU
SDK: Gradio
Archivo principal: app.py
Requisitos: requirements.txt
Ejemplo del bloque de configuración YAML (este ya está en la cabecera del README):
---
title: Salamandra-Vision 7B · ZeroGPU
emoji: 🦎
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: "4.44.0"
app_file: app.py
pinned: false
---