Upload README.md
Browse files
README.md
CHANGED
|
@@ -1,21 +1,62 @@
|
|
| 1 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
|
| 3 |
-
|
| 4 |
-
Clientes incluidos: `clients/client_requests.py` (local/CLI) y `clients/streamlit_client_app.py` (Space Streamlit).
|
| 5 |
|
| 6 |
-
|
| 7 |
-
1. Crea Space → SDK **Gradio**, Hardware **ZeroGPU**.
|
| 8 |
-
2. Sube `app.py`, `requirements.txt`, `README.md`, carpeta `examples`.
|
| 9 |
-
3. Opcional: `MODEL_ID=BSC-LT/salamandra-7b-vision`.
|
| 10 |
|
| 11 |
-
|
| 12 |
-
|
| 13 |
-
- **REST puro**: `POST /api/describe_raw` (multipart: `image`, `text`, `max_new_tokens`, `temperature`).
|
| 14 |
-
- Gradio clásico: `POST /api/predict/describe` (recomendado con `gradio_client`).
|
| 15 |
|
| 16 |
-
|
| 17 |
|
| 18 |
-
##
|
| 19 |
-
|
| 20 |
-
|
| 21 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
title: Salamandra-Vision 7B · ZeroGPU
|
| 3 |
+
emoji: 🦎
|
| 4 |
+
colorFrom: purple
|
| 5 |
+
colorTo: indigo
|
| 6 |
+
sdk: gradio
|
| 7 |
+
sdk_version: "4.44.0"
|
| 8 |
+
app_file: app.py
|
| 9 |
+
pinned: false
|
| 10 |
+
---
|
| 11 |
|
| 12 |
+
# 🦎 Salamandra-Vision 7B · ZeroGPU
|
|
|
|
| 13 |
|
| 14 |
+
Este Space despliega el modelo **[BSC-LT/salamandra-7b-vision](https://huggingface.co/BSC-LT/salamandra-7b-vision)** —una variante de **LLaVA-OneVision** entrenada por el *Barcelona Supercomputing Center*— utilizando **máquinas ZeroGPU**.
|
|
|
|
|
|
|
|
|
|
| 15 |
|
| 16 |
+
Permite enviar una **imagen y un texto (prompt)** para recibir una **descripción generada automáticamente**.
|
| 17 |
+
Funciona tanto desde la **interfaz web (Gradio)** como desde **clientes externos** (por ejemplo, otro Space con Streamlit o una app Python local).
|
|
|
|
|
|
|
| 18 |
|
| 19 |
+
---
|
| 20 |
|
| 21 |
+
## 🚀 Características
|
| 22 |
+
|
| 23 |
+
- **ZeroGPU**: utiliza GPU bajo demanda, sin necesidad de hardware dedicado.
|
| 24 |
+
- **Entrada multimodal**: imagen + texto.
|
| 25 |
+
- **Salida**: texto descriptivo (en catalán o español).
|
| 26 |
+
- **API REST directa** (`/api/describe_raw`) + **API Gradio** (`/api/predict/describe`).
|
| 27 |
+
- Compatible con clientes HTTP (`requests`) o `gradio_client`.
|
| 28 |
+
|
| 29 |
+
---
|
| 30 |
+
|
| 31 |
+
## 🧠 Modelo
|
| 32 |
+
|
| 33 |
+
- **Modelo:** `BSC-LT/salamandra-7b-vision`
|
| 34 |
+
- **Arquitectura:** LLaVA-OneVision 7B
|
| 35 |
+
- **Framework:** PyTorch + Transformers
|
| 36 |
+
- **Capa de entrada:** `AutoProcessor`
|
| 37 |
+
- **Generación:** `LlavaOnevisionForConditionalGeneration`
|
| 38 |
+
|
| 39 |
+
El modelo combina visión y lenguaje para generar texto a partir de imágenes, siguiendo el esquema de conversación (“chat template”) oficial de OneVision.
|
| 40 |
+
|
| 41 |
+
---
|
| 42 |
+
|
| 43 |
+
## ⚙️ Configuración del Space
|
| 44 |
+
|
| 45 |
+
**Hardware:** ZeroGPU
|
| 46 |
+
**SDK:** Gradio
|
| 47 |
+
**Archivo principal:** `app.py`
|
| 48 |
+
**Requisitos:** `requirements.txt`
|
| 49 |
+
|
| 50 |
+
Ejemplo del bloque de configuración YAML (este ya está en la cabecera del README):
|
| 51 |
+
|
| 52 |
+
```yaml
|
| 53 |
+
---
|
| 54 |
+
title: Salamandra-Vision 7B · ZeroGPU
|
| 55 |
+
emoji: 🦎
|
| 56 |
+
colorFrom: purple
|
| 57 |
+
colorTo: indigo
|
| 58 |
+
sdk: gradio
|
| 59 |
+
sdk_version: "4.44.0"
|
| 60 |
+
app_file: app.py
|
| 61 |
+
pinned: false
|
| 62 |
+
---
|