File size: 11,834 Bytes
bad5d84
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
# Plan ganador — "Cocina Conmigo"

> Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas.
>
> Hackathon "Small models / Big adventures" — junio 2026.

---

## TL;DR

**Idea elegida:** **Cocina Conmigo** — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde *"¿qué cocino con esto?"* hasta *"¿voy bien?"*.

**Por qué esta y no otra:** es la única idea que **(1) está fuera de las 11 ideas pre-cocinadas por OpenBMB**, **(2) usa Flux.2 + voces + Workflows como núcleo**, y **(3) tiene utilidad real, diaria y universal**. Nadie cocina como hobby; todos cocinan por necesidad.

---

## Por qué cambió el plan respecto a iteraciones anteriores

| Iteración | Idea | Por qué se descartó |
|---|---|---|
| v1 | Abuelita (parent phone helper) | **Está en la lista pre-cocinada de OpenBMB para Backyard AI.** 5-15 equipos van a hacer la misma cosa. |
| v2 | Cuentacuentos (storyteller ilustrado) | **Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller").** Mismo problema de saturación. |
| v3 (ésta) | **Cocina Conmigo** | Refinamiento de **tu propia idea #1**, ahora viable de verdad gracias a Flux.2. **No está en ninguna lista pre-cocinada.** |

La regla estratégica: **usar los modelos de los sponsors, no copiar sus templates de proyecto.**

---

## Las 12 ideas en zona prohibida (clúster OpenBMB)

| Backyard AI | Thousand Token Wood |
|---|---|
| Parent phone helper | Voice storyteller |
| Receipt / bill explainer | Visual mystery box |
| Shop menu / repair manual | AI museum |
| Offline personal assistant / voice companion | Doodle creature |
| | Dream postcard gen |
| | Omni-modal adventure |
| | Tiny local NPC / character agent |

Y de tus 5 ideas originales, también caen:
- #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado")
- #4 museum Q&A (choca con "AI museum")

**Quedan vivas, fuera de zona prohibida:**
- #1 Recetas (→ **Cocina Conmigo**, esta propuesta)
- #2 Detector de intenciones (no usa Flux.2, demo aburrida)
- #5 Outfits con armario (alternativa B, ver final del documento)

---

## El producto en una frase

> *"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."*

---

## Las 4 historias del demo

### 1. *"Tengo esto en el refri"*
```
👩 Mamá toma foto del refri abierto.
🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso."
🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?"
👩 "Tinga."
🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana.
🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?"
```

### 2. *"Cocina paso a paso"* (hands-free)
```
🤖 [Flux.2] muestra: olla con cebolla acitronándose
🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente."
👩 (cocinando, manos sucias)
👩 "¿Cuánto tiempo?"
🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos."
```

### 3. *"¿Voy bien?"* (visión en loop)
```
👩 (toma foto del sartén con cebolla)
🤖 [MiniCPM-V] compara contra imagen objetivo.
🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien."
```

### 4. *"No tengo cilantro"* (replan adaptativo)
```
👩 "No tengo cilantro."
🤖 [LLM] re-planea sobre la marcha.
🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga."
🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro.
```

Las 4 historias usan los **mismos 5 modelos**. Una sola pipeline.

---

## Por qué este plan **gana** este hackathon

### 1. "Build for someone you actually know" → Backyard AI track
La descripción literal del track dice: *"Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner..."*. Tu mamá. Tu hermana. Tu hermano que vive solo. **Todos** cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente.

### 2. Aprovecha **todos** los assets sponsor sin copiar templates
| Asset | Cómo se usa |
|---|---|
| **Flux.2 Klein 9B** (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes |
| **MiniCPM-V** (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") |
| **MiniCPM razonamiento** (OpenBMB) | Recipe Planner: arma receta + replan adaptativo |
| **OpenBMB voice / TTS** | Voz principal del sous-chef (cálida, paciente) |
| **Cohere Labs voice** (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") |
| **Whisper-tiny** | STT: preguntas hands-free mientras cocinas |
| **Gradio Workflows** | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator |
| **Modal $250** | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune |
| **OpenAI Codex $100** | Pair-programmer y generador de dataset de recetas |

Todos los sponsors tocados. Cero ideas copiadas.

### 3. **Innovación técnica concreta**: el bucle visual cerrado
La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un **closed-loop visual**:

```
[Flux.2 muestra paso ideal]  ──▶  [Usuario cocina]
              ▲                          │
              │                          ▼
[LLM ajusta plan]  ◀──  [MiniCPM-V valida foto del usuario]
```

Esto es un agente real, no un wrapper. Best Agent badge en juego.

### 4. Demo apetitoso = video viral
Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. **Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.**

### 5. Diferenciación cultural sostenible
- **Español-mexicano-first** — diferenciador en hackathon US-céntrico.
- **Cocina mexicana** como dataset de fine-tune — territorio que pocos van a tocar.
- "Para mi mamá" como historia: emocional + universal.

---

## Arquitectura (resumen — ver `arquitectura.html`)

5 nodos en un Gradio Workflow visible:

```
   [📸/🎙️ Input]  ──▶  [👁️ Vision MiniCPM-V]  ──▶  [🧠 Recipe Planner]  ──▶  [🎨 Step Illustrator Flux.2]


                                                   [🔊 Sous-Chef Narrator OpenBMB]  +  [🎭 Tip-Giver Cohere]


                                                  [✅ Progress Validator]  ──▶  loop al usuario
```

| Nodo | Modelo | Tamaño | Rol |
|---|---|---|---|
| Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso |
| Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan |
| Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia |
| Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones |
| Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement |
| STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" |

**Total: ~17B parámetros** (cap 32B ✓)

**Donde corre:**
- Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros)
- **Flux.2 → endpoint Modal con GPU L4** (no aguanta CPU del Space)

> Mismo tradeoff que los planes anteriores: **rompemos Off the Grid** intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards.

---

## Badges objetivo (5/6)

| Badge | Cómo |
|---|---|
| ✓ **Llama Champion** | Vision + Planner via `llama-cpp-python` con GGUF Q4 |
| ✓ **Well-Tuned** | LoRA del Planner en dataset de cocina mexicana, publicado en HF |
| ✓ **Off-Brand** | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default |
| ✓ **Sharing is Caring** | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub |
| ✓ **Field Notes** | Blog: "Le construí un sous-chef a mi mamá" |
| ✗ **Off the Grid** | Sacrificio consciente: Flux.2 corre en Modal |

5 badges + Modal-powered fuerte = competitivo para **Bonus Quest Champion ($2K)**.

---

## Premios objetivo (proyección)

| Premio | Probabilidad | Por qué |
|---|---|---|
| **Backyard AI Track** ($1K–$4K) | **Alta** | Idea es texto literal del track. Demo emocional. |
| **Modal Awards** ($3K–$10K credits) | **Alta** | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. |
| **OpenBMB Award** ($1K–$2.5K) | **Alta** | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template |
| **Best Demo** ($1K) | **Alta** | Persona cocinando + comida final + voz = video apetitoso |
| **Community Choice** ($2K) | **Alta** | Apela a memoria emocional universal (tu mamá cocinando) |
| **Bonus Quest Champion** ($2K) | Media-alta | 5/6 badges es competitivo |
| **Best Agent** ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) |
| **Off-Brand** ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances |
| **Tiny Titan** ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B |

**Cota razonable acumulada:** $5K–$12K cash + $3K–$10K Modal credits.

---

## Las 3 condiciones que pone Idea.md

| Condición | Cómo se cumple |
|---|---|
| **Innovador** | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta |
| **Fresco** | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. |
| **Útil** | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. |

---

## Decisiones que tienes que tomar tú

| Decisión | Recomendación |
|---|---|
| ¿Cocina Conmigo o Mi Espejo (outfits)? | **Cocina.** Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. |
| ¿Cocina mexicana o cocina general? | **Mexicana.** Diferenciador + fine-tune en dataset acotado y rico. |
| ¿Persona real para el demo? | **Sí, no negociable.** Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. |
| ¿Empiezas con texto o con voz/foto? | **Empieza con foto del refri + texto.** Voz se agrega en Día 7-9. |
| ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. |

---

## Plan B — alternativa "Mi Espejo"

Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a **"Mi Espejo"** (refinamiento de tu idea #5):

- 📸 Subes foto tuya + fotos del armario.
- 🧠 Stylist LLM combina outfits según ocasión + tendencia.
- 🎨 **Flux.2 i2i te genera vistiendo cada combinación.**
- 🔊 Voz comenta el look.

Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). **Es plan B**, no plan A.

---

## Siguiente paso

Lee **`estrategia.md`** (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y **`arquitectura.html`** (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta.

> *"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."*