Spaces:
Running on Zero
Running on Zero
| # Plan ganador — "Cocina Conmigo" | |
| > Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas. | |
| > | |
| > Hackathon "Small models / Big adventures" — junio 2026. | |
| --- | |
| ## TL;DR | |
| **Idea elegida:** **Cocina Conmigo** — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde *"¿qué cocino con esto?"* hasta *"¿voy bien?"*. | |
| **Por qué esta y no otra:** es la única idea que **(1) está fuera de las 11 ideas pre-cocinadas por OpenBMB**, **(2) usa Flux.2 + voces + Workflows como núcleo**, y **(3) tiene utilidad real, diaria y universal**. Nadie cocina como hobby; todos cocinan por necesidad. | |
| --- | |
| ## Por qué cambió el plan respecto a iteraciones anteriores | |
| | Iteración | Idea | Por qué se descartó | | |
| |---|---|---| | |
| | v1 | Abuelita (parent phone helper) | **Está en la lista pre-cocinada de OpenBMB para Backyard AI.** 5-15 equipos van a hacer la misma cosa. | | |
| | v2 | Cuentacuentos (storyteller ilustrado) | **Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller").** Mismo problema de saturación. | | |
| | v3 (ésta) | **Cocina Conmigo** | Refinamiento de **tu propia idea #1**, ahora viable de verdad gracias a Flux.2. **No está en ninguna lista pre-cocinada.** | | |
| La regla estratégica: **usar los modelos de los sponsors, no copiar sus templates de proyecto.** | |
| --- | |
| ## Las 12 ideas en zona prohibida (clúster OpenBMB) | |
| | Backyard AI | Thousand Token Wood | | |
| |---|---| | |
| | Parent phone helper | Voice storyteller | | |
| | Receipt / bill explainer | Visual mystery box | | |
| | Shop menu / repair manual | AI museum | | |
| | Offline personal assistant / voice companion | Doodle creature | | |
| | | Dream postcard gen | | |
| | | Omni-modal adventure | | |
| | | Tiny local NPC / character agent | | |
| Y de tus 5 ideas originales, también caen: | |
| - #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado") | |
| - #4 museum Q&A (choca con "AI museum") | |
| **Quedan vivas, fuera de zona prohibida:** | |
| - #1 Recetas (→ **Cocina Conmigo**, esta propuesta) | |
| - #2 Detector de intenciones (no usa Flux.2, demo aburrida) | |
| - #5 Outfits con armario (alternativa B, ver final del documento) | |
| --- | |
| ## El producto en una frase | |
| > *"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."* | |
| --- | |
| ## Las 4 historias del demo | |
| ### 1. *"Tengo esto en el refri"* | |
| ``` | |
| 👩 Mamá toma foto del refri abierto. | |
| 🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso." | |
| 🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?" | |
| 👩 "Tinga." | |
| 🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana. | |
| 🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?" | |
| ``` | |
| ### 2. *"Cocina paso a paso"* (hands-free) | |
| ``` | |
| 🤖 [Flux.2] muestra: olla con cebolla acitronándose | |
| 🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente." | |
| 👩 (cocinando, manos sucias) | |
| 👩 "¿Cuánto tiempo?" | |
| 🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos." | |
| ``` | |
| ### 3. *"¿Voy bien?"* (visión en loop) | |
| ``` | |
| 👩 (toma foto del sartén con cebolla) | |
| 🤖 [MiniCPM-V] compara contra imagen objetivo. | |
| 🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien." | |
| ``` | |
| ### 4. *"No tengo cilantro"* (replan adaptativo) | |
| ``` | |
| 👩 "No tengo cilantro." | |
| 🤖 [LLM] re-planea sobre la marcha. | |
| 🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga." | |
| 🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro. | |
| ``` | |
| Las 4 historias usan los **mismos 5 modelos**. Una sola pipeline. | |
| --- | |
| ## Por qué este plan **gana** este hackathon | |
| ### 1. "Build for someone you actually know" → Backyard AI track | |
| La descripción literal del track dice: *"Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner..."*. Tu mamá. Tu hermana. Tu hermano que vive solo. **Todos** cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente. | |
| ### 2. Aprovecha **todos** los assets sponsor sin copiar templates | |
| | Asset | Cómo se usa | | |
| |---|---| | |
| | **Flux.2 Klein 9B** (sponsor) | Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes | | |
| | **MiniCPM-V** (OpenBMB) | Visión: identifica ingredientes + valida progreso ("¿voy bien?") | | |
| | **MiniCPM razonamiento** (OpenBMB) | Recipe Planner: arma receta + replan adaptativo | | |
| | **OpenBMB voice / TTS** | Voz principal del sous-chef (cálida, paciente) | | |
| | **Cohere Labs voice** (sponsor) | Segunda voz: tips, advertencias ("¡cuidado, se quema!") | | |
| | **Whisper-tiny** | STT: preguntas hands-free mientras cocinas | | |
| | **Gradio Workflows** | UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator | | |
| | **Modal $250** | Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune | | |
| | **OpenAI Codex $100** | Pair-programmer y generador de dataset de recetas | | |
| Todos los sponsors tocados. Cero ideas copiadas. | |
| ### 3. **Innovación técnica concreta**: el bucle visual cerrado | |
| La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un **closed-loop visual**: | |
| ``` | |
| [Flux.2 muestra paso ideal] ──▶ [Usuario cocina] | |
| ▲ │ | |
| │ ▼ | |
| [LLM ajusta plan] ◀── [MiniCPM-V valida foto del usuario] | |
| ``` | |
| Esto es un agente real, no un wrapper. Best Agent badge en juego. | |
| ### 4. Demo apetitoso = video viral | |
| Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. **Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.** | |
| ### 5. Diferenciación cultural sostenible | |
| - **Español-mexicano-first** — diferenciador en hackathon US-céntrico. | |
| - **Cocina mexicana** como dataset de fine-tune — territorio que pocos van a tocar. | |
| - "Para mi mamá" como historia: emocional + universal. | |
| --- | |
| ## Arquitectura (resumen — ver `arquitectura.html`) | |
| 5 nodos en un Gradio Workflow visible: | |
| ``` | |
| [📸/🎙️ Input] ──▶ [👁️ Vision MiniCPM-V] ──▶ [🧠 Recipe Planner] ──▶ [🎨 Step Illustrator Flux.2] | |
| │ | |
| ▼ | |
| [🔊 Sous-Chef Narrator OpenBMB] + [🎭 Tip-Giver Cohere] | |
| │ | |
| ▼ | |
| [✅ Progress Validator] ──▶ loop al usuario | |
| ``` | |
| | Nodo | Modelo | Tamaño | Rol | | |
| |---|---|---|---| | |
| | Vision In | MiniCPM-V 2.6 / 4 (Q4 GGUF) | ~2-4B | Identifica ingredientes + valida progreso | | |
| | Planner | MiniCPM-4 4B (LoRA en cocina mexicana) | ~4B | Genera receta JSON estructurado · replan | | |
| | Illustrator | Flux.2 Klein 9B (Modal GPU) | 9B | Imagen final + paso-a-paso, i2i para consistencia | | |
| | Narrator | OpenBMB voice / Kokoro | ~1B | Voz principal: instrucciones | | |
| | Tip-Giver | Cohere Labs voice | ~1B | Segunda voz: warnings, encouragement | | |
| | STT (opcional) | Whisper-tiny | ~40M | "¿voy bien?" "¿cuánto tiempo?" | | |
| **Total: ~17B parámetros** (cap 32B ✓) | |
| **Donde corre:** | |
| - Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros) | |
| - **Flux.2 → endpoint Modal con GPU L4** (no aguanta CPU del Space) | |
| > Mismo tradeoff que los planes anteriores: **rompemos Off the Grid** intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards. | |
| --- | |
| ## Badges objetivo (5/6) | |
| | Badge | Cómo | | |
| |---|---| | |
| | ✓ **Llama Champion** | Vision + Planner via `llama-cpp-python` con GGUF Q4 | | |
| | ✓ **Well-Tuned** | LoRA del Planner en dataset de cocina mexicana, publicado en HF | | |
| | ✓ **Off-Brand** | UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default | | |
| | ✓ **Sharing is Caring** | Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub | | |
| | ✓ **Field Notes** | Blog: "Le construí un sous-chef a mi mamá" | | |
| | ✗ **Off the Grid** | Sacrificio consciente: Flux.2 corre en Modal | | |
| 5 badges + Modal-powered fuerte = competitivo para **Bonus Quest Champion ($2K)**. | |
| --- | |
| ## Premios objetivo (proyección) | |
| | Premio | Probabilidad | Por qué | | |
| |---|---|---| | |
| | **Backyard AI Track** ($1K–$4K) | **Alta** | Idea es texto literal del track. Demo emocional. | | |
| | **Modal Awards** ($3K–$10K credits) | **Alta** | Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual. | | |
| | **OpenBMB Award** ($1K–$2.5K) | **Alta** | Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template | | |
| | **Best Demo** ($1K) | **Alta** | Persona cocinando + comida final + voz = video apetitoso | | |
| | **Community Choice** ($2K) | **Alta** | Apela a memoria emocional universal (tu mamá cocinando) | | |
| | **Bonus Quest Champion** ($2K) | Media-alta | 5/6 badges es competitivo | | |
| | **Best Agent** ($1K) | Media-alta | Closed-loop multi-agent real (5 agentes) | | |
| | **Off-Brand** ($1.5K) | Media | UI tarjeta-de-receta tiene buenas chances | | |
| | **Tiny Titan** ($1.5K) | Baja | Flux.2 9B nos saca del rango ≤4B | | |
| **Cota razonable acumulada:** $5K–$12K cash + $3K–$10K Modal credits. | |
| --- | |
| ## Las 3 condiciones que pone Idea.md | |
| | Condición | Cómo se cumple | | |
| |---|---| | |
| | **Innovador** | Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta | | |
| | **Fresco** | Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación. | | |
| | **Útil** | Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar. | | |
| --- | |
| ## Decisiones que tienes que tomar tú | |
| | Decisión | Recomendación | | |
| |---|---| | |
| | ¿Cocina Conmigo o Mi Espejo (outfits)? | **Cocina.** Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal. | | |
| | ¿Cocina mexicana o cocina general? | **Mexicana.** Diferenciador + fine-tune en dataset acotado y rico. | | |
| | ¿Persona real para el demo? | **Sí, no negociable.** Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final. | | |
| | ¿Empiezas con texto o con voz/foto? | **Empieza con foto del refri + texto.** Voz se agrega en Día 7-9. | | |
| | ¿Cuántos pasos por receta? | 5-7 pasos. Más es muy largo para el demo, menos no es una receta. | | |
| --- | |
| ## Plan B — alternativa "Mi Espejo" | |
| Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a **"Mi Espejo"** (refinamiento de tu idea #5): | |
| - 📸 Subes foto tuya + fotos del armario. | |
| - 🧠 Stylist LLM combina outfits según ocasión + tendencia. | |
| - 🎨 **Flux.2 i2i te genera vistiendo cada combinación.** | |
| - 🔊 Voz comenta el look. | |
| Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). **Es plan B**, no plan A. | |
| --- | |
| ## Siguiente paso | |
| Lee **`estrategia.md`** (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y **`arquitectura.html`** (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta. | |
| > *"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."* | |