# Plan ganador — "Cocina Conmigo" > Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas. > > Hackathon "Small models / Big adventures" — junio 2026. --- ## TL;DR **Idea elegida:** **Cocina Conmigo** — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde *"¿qué cocino con esto?"* hasta *"¿voy bien?"*. **Por qué esta y no otra:** es la única idea que **(1) está fuera de las 11 ideas pre-cocinadas por OpenBMB**, **(2) usa Flux.2 + voces + Workflows como núcleo**, y **(3) tiene utilidad real, diaria y universal**. Nadie cocina como hobby; todos cocinan por necesidad. --- ## Por qué cambió el plan respecto a iteraciones anteriores | Iteración | Idea | Por qué se descartó | |---|---|---| | v1 | Abuelita (parent phone helper) | **Está en la lista pre-cocinada de OpenBMB para Backyard AI.** 5-15 equipos van a hacer la misma cosa. | | v2 | Cuentacuentos (storyteller ilustrado) | **Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller").** Mismo problema de saturación. | | v3 (ésta) | **Cocina Conmigo** | Refinamiento de **tu propia idea #1**, ahora viable de verdad gracias a Flux.2. **No está en ninguna lista pre-cocinada.** | La regla estratégica: **usar los modelos de los sponsors, no copiar sus templates de proyecto.** --- ## Las 12 ideas en zona prohibida (clúster OpenBMB) | Backyard AI | Thousand Token Wood | |---|---| | Parent phone helper | Voice storyteller | | Receipt / bill explainer | Visual mystery box | | Shop menu / repair manual | AI museum | | Offline personal assistant / voice companion | Doodle creature | | | Dream postcard gen | | | Omni-modal adventure | | | Tiny local NPC / character agent | Y de tus 5 ideas originales, también caen: - #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado") - #4 museum Q&A (choca con "AI museum") **Quedan vivas, fuera de zona prohibida:** - #1 Recetas (→ **Cocina Conmigo**, esta propuesta) - #2 Detector de intenciones (no usa Flux.2, demo aburrida) - #5 Outfits con armario (alternativa B, ver final del documento) --- ## El producto en una frase > *"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."* --- ## Las 4 historias del demo ### 1. *"Tengo esto en el refri"* ``` 👩 Mamá toma foto del refri abierto. 🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso." 🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?" 👩 "Tinga." 🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana. 🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?" ``` ### 2. *"Cocina paso a paso"* (hands-free) ``` 🤖 [Flux.2] muestra: olla con cebolla acitronándose 🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente." 👩 (cocinando, manos sucias) 👩 "¿Cuánto tiempo?" 🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos." ``` ### 3. *"¿Voy bien?"* (visión en loop) ``` 👩 (toma foto del sartén con cebolla) 🤖 [MiniCPM-V] compara contra imagen objetivo. 🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien." ``` ### 4. *"No tengo cilantro"* (replan adaptativo) ``` 👩 "No tengo cilantro." 🤖 [LLM] re-planea sobre la marcha. 🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga." 🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro. ``` Las 4 historias usan los **mismos 5 modelos**. Una sola pipeline. --- ## Por qué este plan **gana** este hackathon ### 1. "Build for someone you actually know" → Backyard AI track La descripción literal del track dice: *"Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner..."*. Tu mamá. Tu hermana. Tu hermano que vive solo. **Todos** cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente. ### 2. Aprovecha **todos** los assets sponsor sin copiar templates | Asset | Cómo se usa | |---|---| | **Flux.2 Klein 9B** (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes | | **MiniCPM-V** (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") | | **MiniCPM razonamiento** (OpenBMB) | Recipe Planner: arma receta + replan adaptativo | | **OpenBMB voice / TTS** | Voz principal del sous-chef (cálida, paciente) | | **Cohere Labs voice** (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") | | **Whisper-tiny** | STT: preguntas hands-free mientras cocinas | | **Gradio Workflows** | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator | | **Modal $250** | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune | | **OpenAI Codex $100** | Pair-programmer y generador de dataset de recetas | Todos los sponsors tocados. Cero ideas copiadas. ### 3. **Innovación técnica concreta**: el bucle visual cerrado La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un **closed-loop visual**: ``` [Flux.2 muestra paso ideal] ──▶ [Usuario cocina] ▲ │ │ ▼ [LLM ajusta plan] ◀── [MiniCPM-V valida foto del usuario] ``` Esto es un agente real, no un wrapper. Best Agent badge en juego. ### 4. Demo apetitoso = video viral Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. **Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.** ### 5. Diferenciación cultural sostenible - **Español-mexicano-first** — diferenciador en hackathon US-céntrico. - **Cocina mexicana** como dataset de fine-tune — territorio que pocos van a tocar. - "Para mi mamá" como historia: emocional + universal. --- ## Arquitectura (resumen — ver `arquitectura.html`) 5 nodos en un Gradio Workflow visible: ``` [📸/🎙️ Input] ──▶ [👁️ Vision MiniCPM-V] ──▶ [🧠 Recipe Planner] ──▶ [🎨 Step Illustrator Flux.2] │ ▼ [🔊 Sous-Chef Narrator OpenBMB] + [🎭 Tip-Giver Cohere] │ ▼ [✅ Progress Validator] ──▶ loop al usuario ``` | Nodo | Modelo | Tamaño | Rol | |---|---|---|---| | Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso | | Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan | | Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia | | Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones | | Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement | | STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" | **Total: ~17B parámetros** (cap 32B ✓) **Donde corre:** - Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros) - **Flux.2 → endpoint Modal con GPU L4** (no aguanta CPU del Space) > Mismo tradeoff que los planes anteriores: **rompemos Off the Grid** intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards. --- ## Badges objetivo (5/6) | Badge | Cómo | |---|---| | ✓ **Llama Champion** | Vision + Planner via `llama-cpp-python` con GGUF Q4 | | ✓ **Well-Tuned** | LoRA del Planner en dataset de cocina mexicana, publicado en HF | | ✓ **Off-Brand** | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default | | ✓ **Sharing is Caring** | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub | | ✓ **Field Notes** | Blog: "Le construí un sous-chef a mi mamá" | | ✗ **Off the Grid** | Sacrificio consciente: Flux.2 corre en Modal | 5 badges + Modal-powered fuerte = competitivo para **Bonus Quest Champion ($2K)**. --- ## Premios objetivo (proyección) | Premio | Probabilidad | Por qué | |---|---|---| | **Backyard AI Track** ($1K–$4K) | **Alta** | Idea es texto literal del track. Demo emocional. | | **Modal Awards** ($3K–$10K credits) | **Alta** | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. | | **OpenBMB Award** ($1K–$2.5K) | **Alta** | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template | | **Best Demo** ($1K) | **Alta** | Persona cocinando + comida final + voz = video apetitoso | | **Community Choice** ($2K) | **Alta** | Apela a memoria emocional universal (tu mamá cocinando) | | **Bonus Quest Champion** ($2K) | Media-alta | 5/6 badges es competitivo | | **Best Agent** ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) | | **Off-Brand** ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances | | **Tiny Titan** ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B | **Cota razonable acumulada:** $5K–$12K cash + $3K–$10K Modal credits. --- ## Las 3 condiciones que pone Idea.md | Condición | Cómo se cumple | |---|---| | **Innovador** | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta | | **Fresco** | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. | | **Útil** | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. | --- ## Decisiones que tienes que tomar tú | Decisión | Recomendación | |---|---| | ¿Cocina Conmigo o Mi Espejo (outfits)? | **Cocina.** Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. | | ¿Cocina mexicana o cocina general? | **Mexicana.** Diferenciador + fine-tune en dataset acotado y rico. | | ¿Persona real para el demo? | **Sí, no negociable.** Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. | | ¿Empiezas con texto o con voz/foto? | **Empieza con foto del refri + texto.** Voz se agrega en Día 7-9. | | ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. | --- ## Plan B — alternativa "Mi Espejo" Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a **"Mi Espejo"** (refinamiento de tu idea #5): - 📸 Subes foto tuya + fotos del armario. - 🧠 Stylist LLM combina outfits según ocasión + tendencia. - 🎨 **Flux.2 i2i te genera vistiendo cada combinación.** - 🔊 Voz comenta el look. Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). **Es plan B**, no plan A. --- ## Siguiente paso Lee **`estrategia.md`** (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y **`arquitectura.html`** (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta. > *"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."*