Spaces:
Running on Zero
Running on Zero
File size: 11,834 Bytes
bad5d84 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 | # Plan ganador — "Cocina Conmigo"
> Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas.
>
> Hackathon "Small models / Big adventures" — junio 2026.
---
## TL;DR
**Idea elegida:** **Cocina Conmigo** — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde *"¿qué cocino con esto?"* hasta *"¿voy bien?"*.
**Por qué esta y no otra:** es la única idea que **(1) está fuera de las 11 ideas pre-cocinadas por OpenBMB**, **(2) usa Flux.2 + voces + Workflows como núcleo**, y **(3) tiene utilidad real, diaria y universal**. Nadie cocina como hobby; todos cocinan por necesidad.
---
## Por qué cambió el plan respecto a iteraciones anteriores
| Iteración | Idea | Por qué se descartó |
|---|---|---|
| v1 | Abuelita (parent phone helper) | **Está en la lista pre-cocinada de OpenBMB para Backyard AI.** 5-15 equipos van a hacer la misma cosa. |
| v2 | Cuentacuentos (storyteller ilustrado) | **Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller").** Mismo problema de saturación. |
| v3 (ésta) | **Cocina Conmigo** | Refinamiento de **tu propia idea #1**, ahora viable de verdad gracias a Flux.2. **No está en ninguna lista pre-cocinada.** |
La regla estratégica: **usar los modelos de los sponsors, no copiar sus templates de proyecto.**
---
## Las 12 ideas en zona prohibida (clúster OpenBMB)
| Backyard AI | Thousand Token Wood |
|---|---|
| Parent phone helper | Voice storyteller |
| Receipt / bill explainer | Visual mystery box |
| Shop menu / repair manual | AI museum |
| Offline personal assistant / voice companion | Doodle creature |
| | Dream postcard gen |
| | Omni-modal adventure |
| | Tiny local NPC / character agent |
Y de tus 5 ideas originales, también caen:
- #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado")
- #4 museum Q&A (choca con "AI museum")
**Quedan vivas, fuera de zona prohibida:**
- #1 Recetas (→ **Cocina Conmigo**, esta propuesta)
- #2 Detector de intenciones (no usa Flux.2, demo aburrida)
- #5 Outfits con armario (alternativa B, ver final del documento)
---
## El producto en una frase
> *"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."*
---
## Las 4 historias del demo
### 1. *"Tengo esto en el refri"*
```
👩 Mamá toma foto del refri abierto.
🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso."
🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?"
👩 "Tinga."
🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana.
🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?"
```
### 2. *"Cocina paso a paso"* (hands-free)
```
🤖 [Flux.2] muestra: olla con cebolla acitronándose
🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente."
👩 (cocinando, manos sucias)
👩 "¿Cuánto tiempo?"
🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos."
```
### 3. *"¿Voy bien?"* (visión en loop)
```
👩 (toma foto del sartén con cebolla)
🤖 [MiniCPM-V] compara contra imagen objetivo.
🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien."
```
### 4. *"No tengo cilantro"* (replan adaptativo)
```
👩 "No tengo cilantro."
🤖 [LLM] re-planea sobre la marcha.
🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga."
🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro.
```
Las 4 historias usan los **mismos 5 modelos**. Una sola pipeline.
---
## Por qué este plan **gana** este hackathon
### 1. "Build for someone you actually know" → Backyard AI track
La descripción literal del track dice: *"Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner..."*. Tu mamá. Tu hermana. Tu hermano que vive solo. **Todos** cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente.
### 2. Aprovecha **todos** los assets sponsor sin copiar templates
| Asset | Cómo se usa |
|---|---|
| **Flux.2 Klein 9B** (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes |
| **MiniCPM-V** (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") |
| **MiniCPM razonamiento** (OpenBMB) | Recipe Planner: arma receta + replan adaptativo |
| **OpenBMB voice / TTS** | Voz principal del sous-chef (cálida, paciente) |
| **Cohere Labs voice** (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") |
| **Whisper-tiny** | STT: preguntas hands-free mientras cocinas |
| **Gradio Workflows** | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator |
| **Modal $250** | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune |
| **OpenAI Codex $100** | Pair-programmer y generador de dataset de recetas |
Todos los sponsors tocados. Cero ideas copiadas.
### 3. **Innovación técnica concreta**: el bucle visual cerrado
La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un **closed-loop visual**:
```
[Flux.2 muestra paso ideal] ──▶ [Usuario cocina]
▲ │
│ ▼
[LLM ajusta plan] ◀── [MiniCPM-V valida foto del usuario]
```
Esto es un agente real, no un wrapper. Best Agent badge en juego.
### 4. Demo apetitoso = video viral
Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. **Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.**
### 5. Diferenciación cultural sostenible
- **Español-mexicano-first** — diferenciador en hackathon US-céntrico.
- **Cocina mexicana** como dataset de fine-tune — territorio que pocos van a tocar.
- "Para mi mamá" como historia: emocional + universal.
---
## Arquitectura (resumen — ver `arquitectura.html`)
5 nodos en un Gradio Workflow visible:
```
[📸/🎙️ Input] ──▶ [👁️ Vision MiniCPM-V] ──▶ [🧠 Recipe Planner] ──▶ [🎨 Step Illustrator Flux.2]
│
▼
[🔊 Sous-Chef Narrator OpenBMB] + [🎭 Tip-Giver Cohere]
│
▼
[✅ Progress Validator] ──▶ loop al usuario
```
| Nodo | Modelo | Tamaño | Rol |
|---|---|---|---|
| Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso |
| Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan |
| Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia |
| Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones |
| Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement |
| STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" |
**Total: ~17B parámetros** (cap 32B ✓)
**Donde corre:**
- Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros)
- **Flux.2 → endpoint Modal con GPU L4** (no aguanta CPU del Space)
> Mismo tradeoff que los planes anteriores: **rompemos Off the Grid** intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards.
---
## Badges objetivo (5/6)
| Badge | Cómo |
|---|---|
| ✓ **Llama Champion** | Vision + Planner via `llama-cpp-python` con GGUF Q4 |
| ✓ **Well-Tuned** | LoRA del Planner en dataset de cocina mexicana, publicado en HF |
| ✓ **Off-Brand** | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default |
| ✓ **Sharing is Caring** | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub |
| ✓ **Field Notes** | Blog: "Le construí un sous-chef a mi mamá" |
| ✗ **Off the Grid** | Sacrificio consciente: Flux.2 corre en Modal |
5 badges + Modal-powered fuerte = competitivo para **Bonus Quest Champion ($2K)**.
---
## Premios objetivo (proyección)
| Premio | Probabilidad | Por qué |
|---|---|---|
| **Backyard AI Track** ($1K–$4K) | **Alta** | Idea es texto literal del track. Demo emocional. |
| **Modal Awards** ($3K–$10K credits) | **Alta** | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. |
| **OpenBMB Award** ($1K–$2.5K) | **Alta** | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template |
| **Best Demo** ($1K) | **Alta** | Persona cocinando + comida final + voz = video apetitoso |
| **Community Choice** ($2K) | **Alta** | Apela a memoria emocional universal (tu mamá cocinando) |
| **Bonus Quest Champion** ($2K) | Media-alta | 5/6 badges es competitivo |
| **Best Agent** ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) |
| **Off-Brand** ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances |
| **Tiny Titan** ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B |
**Cota razonable acumulada:** $5K–$12K cash + $3K–$10K Modal credits.
---
## Las 3 condiciones que pone Idea.md
| Condición | Cómo se cumple |
|---|---|
| **Innovador** | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta |
| **Fresco** | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. |
| **Útil** | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. |
---
## Decisiones que tienes que tomar tú
| Decisión | Recomendación |
|---|---|
| ¿Cocina Conmigo o Mi Espejo (outfits)? | **Cocina.** Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. |
| ¿Cocina mexicana o cocina general? | **Mexicana.** Diferenciador + fine-tune en dataset acotado y rico. |
| ¿Persona real para el demo? | **Sí, no negociable.** Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. |
| ¿Empiezas con texto o con voz/foto? | **Empieza con foto del refri + texto.** Voz se agrega en Día 7-9. |
| ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. |
---
## Plan B — alternativa "Mi Espejo"
Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a **"Mi Espejo"** (refinamiento de tu idea #5):
- 📸 Subes foto tuya + fotos del armario.
- 🧠 Stylist LLM combina outfits según ocasión + tendencia.
- 🎨 **Flux.2 i2i te genera vistiendo cada combinación.**
- 🔊 Voz comenta el look.
Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). **Es plan B**, no plan A.
---
## Siguiente paso
Lee **`estrategia.md`** (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y **`arquitectura.html`** (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta.
> *"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."*
|