svision / README.md
VeuReu's picture
Upload README.md
1f62ddb verified
|
raw
history blame
1.96 kB
metadata
title: Salamandra-Vision 7B · ZeroGPU
emoji: 🦎
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false

🦎 Salamandra-Vision 7B · ZeroGPU

Este Space despliega el modelo BSC-LT/salamandra-7b-vision —una variante de LLaVA-OneVision entrenada por el Barcelona Supercomputing Center— utilizando máquinas ZeroGPU.

Permite enviar una imagen y un texto (prompt) para recibir una descripción generada automáticamente.
Funciona tanto desde la interfaz web (Gradio) como desde clientes externos (por ejemplo, otro Space con Streamlit o una app Python local).


🚀 Características

  • ZeroGPU: utiliza GPU bajo demanda, sin necesidad de hardware dedicado.
  • Entrada multimodal: imagen + texto.
  • Salida: texto descriptivo (en catalán o español).
  • API REST directa (/api/describe_raw) + API Gradio (/api/predict/describe).
  • Compatible con clientes HTTP (requests) o gradio_client.

🧠 Modelo

  • Modelo: BSC-LT/salamandra-7b-vision
  • Arquitectura: LLaVA-OneVision 7B
  • Framework: PyTorch + Transformers
  • Capa de entrada: AutoProcessor
  • Generación: LlavaOnevisionForConditionalGeneration

El modelo combina visión y lenguaje para generar texto a partir de imágenes, siguiendo el esquema de conversación (“chat template”) oficial de OneVision.


⚙️ Configuración del Space

Hardware: ZeroGPU
SDK: Gradio
Archivo principal: app.py
Requisitos: requirements.txt

Ejemplo del bloque de configuración YAML (este ya está en la cabecera del README):

---
title: Salamandra-Vision 7B · ZeroGPU
emoji: 🦎
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: "4.44.0"
app_file: app.py
pinned: false
---