FredinVázquez
add strategy plan
bad5d84
# Plan ganador — "Cocina Conmigo"
> Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas.
>
> Hackathon "Small models / Big adventures" — junio 2026.
---
## TL;DR
**Idea elegida:** **Cocina Conmigo** — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde *"¿qué cocino con esto?"* hasta *"¿voy bien?"*.
**Por qué esta y no otra:** es la única idea que **(1) está fuera de las 11 ideas pre-cocinadas por OpenBMB**, **(2) usa Flux.2 + voces + Workflows como núcleo**, y **(3) tiene utilidad real, diaria y universal**. Nadie cocina como hobby; todos cocinan por necesidad.
---
## Por qué cambió el plan respecto a iteraciones anteriores
| Iteración | Idea | Por qué se descartó |
|---|---|---|
| v1 | Abuelita (parent phone helper) | **Está en la lista pre-cocinada de OpenBMB para Backyard AI.** 5-15 equipos van a hacer la misma cosa. |
| v2 | Cuentacuentos (storyteller ilustrado) | **Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller").** Mismo problema de saturación. |
| v3 (ésta) | **Cocina Conmigo** | Refinamiento de **tu propia idea #1**, ahora viable de verdad gracias a Flux.2. **No está en ninguna lista pre-cocinada.** |
La regla estratégica: **usar los modelos de los sponsors, no copiar sus templates de proyecto.**
---
## Las 12 ideas en zona prohibida (clúster OpenBMB)
| Backyard AI | Thousand Token Wood |
|---|---|
| Parent phone helper | Voice storyteller |
| Receipt / bill explainer | Visual mystery box |
| Shop menu / repair manual | AI museum |
| Offline personal assistant / voice companion | Doodle creature |
| | Dream postcard gen |
| | Omni-modal adventure |
| | Tiny local NPC / character agent |
Y de tus 5 ideas originales, también caen:
- #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado")
- #4 museum Q&A (choca con "AI museum")
**Quedan vivas, fuera de zona prohibida:**
- #1 Recetas (→ **Cocina Conmigo**, esta propuesta)
- #2 Detector de intenciones (no usa Flux.2, demo aburrida)
- #5 Outfits con armario (alternativa B, ver final del documento)
---
## El producto en una frase
> *"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."*
---
## Las 4 historias del demo
### 1. *"Tengo esto en el refri"*
```
👩 Mamá toma foto del refri abierto.
🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso."
🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?"
👩 "Tinga."
🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana.
🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?"
```
### 2. *"Cocina paso a paso"* (hands-free)
```
🤖 [Flux.2] muestra: olla con cebolla acitronándose
🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente."
👩 (cocinando, manos sucias)
👩 "¿Cuánto tiempo?"
🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos."
```
### 3. *"¿Voy bien?"* (visión en loop)
```
👩 (toma foto del sartén con cebolla)
🤖 [MiniCPM-V] compara contra imagen objetivo.
🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien."
```
### 4. *"No tengo cilantro"* (replan adaptativo)
```
👩 "No tengo cilantro."
🤖 [LLM] re-planea sobre la marcha.
🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga."
🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro.
```
Las 4 historias usan los **mismos 5 modelos**. Una sola pipeline.
---
## Por qué este plan **gana** este hackathon
### 1. "Build for someone you actually know" → Backyard AI track
La descripción literal del track dice: *"Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner..."*. Tu mamá. Tu hermana. Tu hermano que vive solo. **Todos** cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente.
### 2. Aprovecha **todos** los assets sponsor sin copiar templates
| Asset | Cómo se usa |
|---|---|
| **Flux.2 Klein 9B** (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes |
| **MiniCPM-V** (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") |
| **MiniCPM razonamiento** (OpenBMB) | Recipe Planner: arma receta + replan adaptativo |
| **OpenBMB voice / TTS** | Voz principal del sous-chef (cálida, paciente) |
| **Cohere Labs voice** (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") |
| **Whisper-tiny** | STT: preguntas hands-free mientras cocinas |
| **Gradio Workflows** | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator |
| **Modal $250** | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune |
| **OpenAI Codex $100** | Pair-programmer y generador de dataset de recetas |
Todos los sponsors tocados. Cero ideas copiadas.
### 3. **Innovación técnica concreta**: el bucle visual cerrado
La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un **closed-loop visual**:
```
[Flux.2 muestra paso ideal] ──▶ [Usuario cocina]
▲ │
│ ▼
[LLM ajusta plan] ◀── [MiniCPM-V valida foto del usuario]
```
Esto es un agente real, no un wrapper. Best Agent badge en juego.
### 4. Demo apetitoso = video viral
Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. **Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.**
### 5. Diferenciación cultural sostenible
- **Español-mexicano-first** — diferenciador en hackathon US-céntrico.
- **Cocina mexicana** como dataset de fine-tune — territorio que pocos van a tocar.
- "Para mi mamá" como historia: emocional + universal.
---
## Arquitectura (resumen — ver `arquitectura.html`)
5 nodos en un Gradio Workflow visible:
```
[📸/🎙️ Input] ──▶ [👁️ Vision MiniCPM-V] ──▶ [🧠 Recipe Planner] ──▶ [🎨 Step Illustrator Flux.2]
[🔊 Sous-Chef Narrator OpenBMB] + [🎭 Tip-Giver Cohere]
[✅ Progress Validator] ──▶ loop al usuario
```
| Nodo | Modelo | Tamaño | Rol |
|---|---|---|---|
| Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso |
| Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan |
| Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia |
| Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones |
| Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement |
| STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" |
**Total: ~17B parámetros** (cap 32B ✓)
**Donde corre:**
- Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros)
- **Flux.2 → endpoint Modal con GPU L4** (no aguanta CPU del Space)
> Mismo tradeoff que los planes anteriores: **rompemos Off the Grid** intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards.
---
## Badges objetivo (5/6)
| Badge | Cómo |
|---|---|
| ✓ **Llama Champion** | Vision + Planner via `llama-cpp-python` con GGUF Q4 |
| ✓ **Well-Tuned** | LoRA del Planner en dataset de cocina mexicana, publicado en HF |
| ✓ **Off-Brand** | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default |
| ✓ **Sharing is Caring** | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub |
| ✓ **Field Notes** | Blog: "Le construí un sous-chef a mi mamá" |
| ✗ **Off the Grid** | Sacrificio consciente: Flux.2 corre en Modal |
5 badges + Modal-powered fuerte = competitivo para **Bonus Quest Champion ($2K)**.
---
## Premios objetivo (proyección)
| Premio | Probabilidad | Por qué |
|---|---|---|
| **Backyard AI Track** ($1K–$4K) | **Alta** | Idea es texto literal del track. Demo emocional. |
| **Modal Awards** ($3K–$10K credits) | **Alta** | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. |
| **OpenBMB Award** ($1K–$2.5K) | **Alta** | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template |
| **Best Demo** ($1K) | **Alta** | Persona cocinando + comida final + voz = video apetitoso |
| **Community Choice** ($2K) | **Alta** | Apela a memoria emocional universal (tu mamá cocinando) |
| **Bonus Quest Champion** ($2K) | Media-alta | 5/6 badges es competitivo |
| **Best Agent** ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) |
| **Off-Brand** ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances |
| **Tiny Titan** ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B |
**Cota razonable acumulada:** $5K–$12K cash + $3K–$10K Modal credits.
---
## Las 3 condiciones que pone Idea.md
| Condición | Cómo se cumple |
|---|---|
| **Innovador** | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta |
| **Fresco** | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. |
| **Útil** | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. |
---
## Decisiones que tienes que tomar tú
| Decisión | Recomendación |
|---|---|
| ¿Cocina Conmigo o Mi Espejo (outfits)? | **Cocina.** Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. |
| ¿Cocina mexicana o cocina general? | **Mexicana.** Diferenciador + fine-tune en dataset acotado y rico. |
| ¿Persona real para el demo? | **Sí, no negociable.** Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. |
| ¿Empiezas con texto o con voz/foto? | **Empieza con foto del refri + texto.** Voz se agrega en Día 7-9. |
| ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. |
---
## Plan B — alternativa "Mi Espejo"
Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a **"Mi Espejo"** (refinamiento de tu idea #5):
- 📸 Subes foto tuya + fotos del armario.
- 🧠 Stylist LLM combina outfits según ocasión + tendencia.
- 🎨 **Flux.2 i2i te genera vistiendo cada combinación.**
- 🔊 Voz comenta el look.
Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). **Es plan B**, no plan A.
---
## Siguiente paso
Lee **`estrategia.md`** (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y **`arquitectura.html`** (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta.
> *"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."*