Spaces:
Running on Zero
A newer version of the Gradio SDK is available: 6.18.0
Plan ganador — "Cocina Conmigo"
Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas.
Hackathon "Small models / Big adventures" — junio 2026.
TL;DR
Idea elegida: Cocina Conmigo — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde "¿qué cocino con esto?" hasta "¿voy bien?".
Por qué esta y no otra: es la única idea que (1) está fuera de las 11 ideas pre-cocinadas por OpenBMB, (2) usa Flux.2 + voces + Workflows como núcleo, y (3) tiene utilidad real, diaria y universal. Nadie cocina como hobby; todos cocinan por necesidad.
Por qué cambió el plan respecto a iteraciones anteriores
| Iteración | Idea | Por qué se descartó |
|---|---|---|
| v1 | Abuelita (parent phone helper) | Está en la lista pre-cocinada de OpenBMB para Backyard AI. 5-15 equipos van a hacer la misma cosa. |
| v2 | Cuentacuentos (storyteller ilustrado) | Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller"). Mismo problema de saturación. |
| v3 (ésta) | Cocina Conmigo | Refinamiento de tu propia idea #1, ahora viable de verdad gracias a Flux.2. No está en ninguna lista pre-cocinada. |
La regla estratégica: usar los modelos de los sponsors, no copiar sus templates de proyecto.
Las 12 ideas en zona prohibida (clúster OpenBMB)
| Backyard AI | Thousand Token Wood |
|---|---|
| Parent phone helper | Voice storyteller |
| Receipt / bill explainer | Visual mystery box |
| Shop menu / repair manual | AI museum |
| Offline personal assistant / voice companion | Doodle creature |
| Dream postcard gen | |
| Omni-modal adventure | |
| Tiny local NPC / character agent |
Y de tus 5 ideas originales, también caen:
- #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado")
- #4 museum Q&A (choca con "AI museum")
Quedan vivas, fuera de zona prohibida:
- #1 Recetas (→ Cocina Conmigo, esta propuesta)
- #2 Detector de intenciones (no usa Flux.2, demo aburrida)
- #5 Outfits con armario (alternativa B, ver final del documento)
El producto en una frase
"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."
Las 4 historias del demo
1. "Tengo esto en el refri"
👩 Mamá toma foto del refri abierto.
🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso."
🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?"
👩 "Tinga."
🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana.
🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?"
2. "Cocina paso a paso" (hands-free)
🤖 [Flux.2] muestra: olla con cebolla acitronándose
🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente."
👩 (cocinando, manos sucias)
👩 "¿Cuánto tiempo?"
🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos."
3. "¿Voy bien?" (visión en loop)
👩 (toma foto del sartén con cebolla)
🤖 [MiniCPM-V] compara contra imagen objetivo.
🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien."
4. "No tengo cilantro" (replan adaptativo)
👩 "No tengo cilantro."
🤖 [LLM] re-planea sobre la marcha.
🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga."
🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro.
Las 4 historias usan los mismos 5 modelos. Una sola pipeline.
Por qué este plan gana este hackathon
1. "Build for someone you actually know" → Backyard AI track
La descripción literal del track dice: "Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner...". Tu mamá. Tu hermana. Tu hermano que vive solo. Todos cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente.
2. Aprovecha todos los assets sponsor sin copiar templates
| Asset | Cómo se usa |
|---|---|
| Flux.2 Klein 9B (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes |
| MiniCPM-V (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") |
| MiniCPM razonamiento (OpenBMB) | Recipe Planner: arma receta + replan adaptativo |
| OpenBMB voice / TTS | Voz principal del sous-chef (cálida, paciente) |
| Cohere Labs voice (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") |
| Whisper-tiny | STT: preguntas hands-free mientras cocinas |
| Gradio Workflows | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator |
| Modal $250 | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune |
| OpenAI Codex $100 | Pair-programmer y generador de dataset de recetas |
Todos los sponsors tocados. Cero ideas copiadas.
3. Innovación técnica concreta: el bucle visual cerrado
La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un closed-loop visual:
[Flux.2 muestra paso ideal] ──▶ [Usuario cocina]
▲ │
│ ▼
[LLM ajusta plan] ◀── [MiniCPM-V valida foto del usuario]
Esto es un agente real, no un wrapper. Best Agent badge en juego.
4. Demo apetitoso = video viral
Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.
5. Diferenciación cultural sostenible
- Español-mexicano-first — diferenciador en hackathon US-céntrico.
- Cocina mexicana como dataset de fine-tune — territorio que pocos van a tocar.
- "Para mi mamá" como historia: emocional + universal.
Arquitectura (resumen — ver arquitectura.html)
5 nodos en un Gradio Workflow visible:
[📸/🎙️ Input] ──▶ [👁️ Vision MiniCPM-V] ──▶ [🧠 Recipe Planner] ──▶ [🎨 Step Illustrator Flux.2]
│
▼
[🔊 Sous-Chef Narrator OpenBMB] + [🎭 Tip-Giver Cohere]
│
▼
[✅ Progress Validator] ──▶ loop al usuario
| Nodo | Modelo | Tamaño | Rol |
|---|---|---|---|
| Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso |
| Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan |
| Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia |
| Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones |
| Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement |
| STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" |
Total: ~17B parámetros (cap 32B ✓)
Donde corre:
- Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros)
- Flux.2 → endpoint Modal con GPU L4 (no aguanta CPU del Space)
Mismo tradeoff que los planes anteriores: rompemos Off the Grid intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards.
Badges objetivo (5/6)
| Badge | Cómo |
|---|---|
| ✓ Llama Champion | Vision + Planner via llama-cpp-python con GGUF Q4 |
| ✓ Well-Tuned | LoRA del Planner en dataset de cocina mexicana, publicado en HF |
| ✓ Off-Brand | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default |
| ✓ Sharing is Caring | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub |
| ✓ Field Notes | Blog: "Le construí un sous-chef a mi mamá" |
| ✗ Off the Grid | Sacrificio consciente: Flux.2 corre en Modal |
5 badges + Modal-powered fuerte = competitivo para Bonus Quest Champion ($2K).
Premios objetivo (proyección)
| Premio | Probabilidad | Por qué |
|---|---|---|
| Backyard AI Track ($1K–$4K) | Alta | Idea es texto literal del track. Demo emocional. |
| Modal Awards ($3K–$10K credits) | Alta | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. |
| OpenBMB Award ($1K–$2.5K) | Alta | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template |
| Best Demo ($1K) | Alta | Persona cocinando + comida final + voz = video apetitoso |
| Community Choice ($2K) | Alta | Apela a memoria emocional universal (tu mamá cocinando) |
| Bonus Quest Champion ($2K) | Media-alta | 5/6 badges es competitivo |
| Best Agent ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) |
| Off-Brand ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances |
| Tiny Titan ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B |
Cota razonable acumulada: $5K–$12K cash + $3K–$10K Modal credits.
Las 3 condiciones que pone Idea.md
| Condición | Cómo se cumple |
|---|---|
| Innovador | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta |
| Fresco | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. |
| Útil | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. |
Decisiones que tienes que tomar tú
| Decisión | Recomendación |
|---|---|
| ¿Cocina Conmigo o Mi Espejo (outfits)? | Cocina. Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. |
| ¿Cocina mexicana o cocina general? | Mexicana. Diferenciador + fine-tune en dataset acotado y rico. |
| ¿Persona real para el demo? | Sí, no negociable. Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. |
| ¿Empiezas con texto o con voz/foto? | Empieza con foto del refri + texto. Voz se agrega en Día 7-9. |
| ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. |
Plan B — alternativa "Mi Espejo"
Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a "Mi Espejo" (refinamiento de tu idea #5):
- 📸 Subes foto tuya + fotos del armario.
- 🧠 Stylist LLM combina outfits según ocasión + tendencia.
- 🎨 Flux.2 i2i te genera vistiendo cada combinación.
- 🔊 Voz comenta el look.
Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). Es plan B, no plan A.
Siguiente paso
Lee estrategia.md (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y arquitectura.html (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta.
"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."