FredinVázquez
add strategy plan
bad5d84

A newer version of the Gradio SDK is available: 6.18.0

Upgrade

Plan ganador — "Cocina Conmigo"

Un sous-chef multimodal que ve lo que tienes en el refri, te dice qué cocinar, te muestra cómo debe verse cada paso con Flux.2, y te narra todo por voz mientras cocinas con las manos llenas.

Hackathon "Small models / Big adventures" — junio 2026.


TL;DR

Idea elegida: Cocina Conmigo — un copiloto de cocina hands-free que combina visión, razonamiento, generación de imagen en tiempo real, y voz, para acompañarte de principio a fin: desde "¿qué cocino con esto?" hasta "¿voy bien?".

Por qué esta y no otra: es la única idea que (1) está fuera de las 11 ideas pre-cocinadas por OpenBMB, (2) usa Flux.2 + voces + Workflows como núcleo, y (3) tiene utilidad real, diaria y universal. Nadie cocina como hobby; todos cocinan por necesidad.


Por qué cambió el plan respecto a iteraciones anteriores

Iteración Idea Por qué se descartó
v1 Abuelita (parent phone helper) Está en la lista pre-cocinada de OpenBMB para Backyard AI. 5-15 equipos van a hacer la misma cosa.
v2 Cuentacuentos (storyteller ilustrado) Está en la lista pre-cocinada de OpenBMB para Thousand Token Wood ("voice storyteller"). Mismo problema de saturación.
v3 (ésta) Cocina Conmigo Refinamiento de tu propia idea #1, ahora viable de verdad gracias a Flux.2. No está en ninguna lista pre-cocinada.

La regla estratégica: usar los modelos de los sponsors, no copiar sus templates de proyecto.


Las 12 ideas en zona prohibida (clúster OpenBMB)

Backyard AI Thousand Token Wood
Parent phone helper Voice storyteller
Receipt / bill explainer Visual mystery box
Shop menu / repair manual AI museum
Offline personal assistant / voice companion Doodle creature
Dream postcard gen
Omni-modal adventure
Tiny local NPC / character agent

Y de tus 5 ideas originales, también caen:

  • #3 cortes de cabello (tú mismo dijiste "ya está muy trabajado")
  • #4 museum Q&A (choca con "AI museum")

Quedan vivas, fuera de zona prohibida:

  • #1 Recetas (→ Cocina Conmigo, esta propuesta)
  • #2 Detector de intenciones (no usa Flux.2, demo aburrida)
  • #5 Outfits con armario (alternativa B, ver final del documento)

El producto en una frase

"Mi mamá me pidió que le enseñara a hacer ramen. Le construí un sous-chef que vive en su tablet."


Las 4 historias del demo

1. "Tengo esto en el refri"

👩 Mamá toma foto del refri abierto.
🤖 [MiniCPM-V] "Veo: pollo, cebolla, jitomate, cilantro, tortillas, queso."
🤖 [LLM] "Te puedo proponer: tinga de pollo, enchiladas, o quesadillas. ¿Qué traes ganas?"
👩 "Tinga."
🤖 [Flux.2] genera foto del platillo final, hermosa, mexicana.
🤖 "Perfecto. Te tomará 35 minutos. ¿Empezamos?"

2. "Cocina paso a paso" (hands-free)

🤖 [Flux.2] muestra: olla con cebolla acitronándose
🤖 [Voz OpenBMB] "Pica la cebolla en cubitos chicos y ponla en aceite caliente."
👩 (cocinando, manos sucias)
👩 "¿Cuánto tiempo?"
🤖 [Voz] "Hasta que se vea transparente. Como 4 minutos."

3. "¿Voy bien?" (visión en loop)

👩 (toma foto del sartén con cebolla)
🤖 [MiniCPM-V] compara contra imagen objetivo.
🤖 [Voz Cohere — el "tip-giver"] "Le falta un poquito. Súbele 1 minuto más, está bien."

4. "No tengo cilantro" (replan adaptativo)

👩 "No tengo cilantro."
🤖 [LLM] re-planea sobre la marcha.
🤖 [Voz] "No pasa nada. Le ponemos perejil o nada. Sigue siendo tinga."
🤖 [Flux.2] regenera la foto del plato final, ahora sin cilantro.

Las 4 historias usan los mismos 5 modelos. Una sola pipeline.


Por qué este plan gana este hackathon

1. "Build for someone you actually know" → Backyard AI track

La descripción literal del track dice: "Solve a real problem for someone you actually know. Pick a person — a neighbor, a parent, a small-business owner...". Tu mamá. Tu hermana. Tu hermano que vive solo. Todos cocinan. Pocas apps de hackathon van a tener un usuario tan cercano y tan recurrente.

2. Aprovecha todos los assets sponsor sin copiar templates

Asset Cómo se usa
Flux.2 Klein 9B (sponsor) Genera la imagen-objetivo del platillo + "esto debes ver" en cada paso · i2i para ajustes
MiniCPM-V (OpenBMB) Visión: identifica ingredientes + valida progreso ("¿voy bien?")
MiniCPM razonamiento (OpenBMB) Recipe Planner: arma receta + replan adaptativo
OpenBMB voice / TTS Voz principal del sous-chef (cálida, paciente)
Cohere Labs voice (sponsor) Segunda voz: tips, advertencias ("¡cuidado, se quema!")
Whisper-tiny STT: preguntas hands-free mientras cocinas
Gradio Workflows UI de nodos visible: Vision → Planner → Illustrator → Narrator → Validator
Modal $250 Hostea Flux.2 en GPU + dataset sintético + LoRA fine-tune
OpenAI Codex $100 Pair-programmer y generador de dataset de recetas

Todos los sponsors tocados. Cero ideas copiadas.

3. Innovación técnica concreta: el bucle visual cerrado

La mayoría de "recipe apps" del mundo son listas de pasos. Cocina Conmigo introduce un closed-loop visual:

[Flux.2 muestra paso ideal]  ──▶  [Usuario cocina]
              ▲                          │
              │                          ▼
[LLM ajusta plan]  ◀──  [MiniCPM-V valida foto del usuario]

Esto es un agente real, no un wrapper. Best Agent badge en juego.

4. Demo apetitoso = video viral

Persona real cocinando + voz cálida + ilustraciones live + "¡me quedó igual!" + plato final que se come frente a la cámara. Best Demo + Community Choice por inercia. Nadie va a recordar la submission #14 de "voice storyteller"; van a recordar el video donde tu mamá hace tinga con AI.

5. Diferenciación cultural sostenible

  • Español-mexicano-first — diferenciador en hackathon US-céntrico.
  • Cocina mexicana como dataset de fine-tune — territorio que pocos van a tocar.
  • "Para mi mamá" como historia: emocional + universal.

Arquitectura (resumen — ver arquitectura.html)

5 nodos en un Gradio Workflow visible:

   [📸/🎙️ Input]  ──▶  [👁️ Vision MiniCPM-V]  ──▶  [🧠 Recipe Planner]  ──▶  [🎨 Step Illustrator Flux.2]
                                                          │
                                                          ▼
                                                   [🔊 Sous-Chef Narrator OpenBMB]  +  [🎭 Tip-Giver Cohere]
                                                          │
                                                          ▼
                                                  [✅ Progress Validator]  ──▶  loop al usuario
Nodo Modelo Tamaño Rol
Vision In MiniCPM-V 2.6 / 4 (Q4 GGUF) ~2-4B Identifica ingredientes + valida progreso
Planner MiniCPM-4 4B (LoRA en cocina mexicana) ~4B Genera receta JSON estructurado · replan
Illustrator Flux.2 Klein 9B (Modal GPU) 9B Imagen final + paso-a-paso, i2i para consistencia
Narrator OpenBMB voice / Kokoro ~1B Voz principal: instrucciones
Tip-Giver Cohere Labs voice ~1B Segunda voz: warnings, encouragement
STT (opcional) Whisper-tiny ~40M "¿voy bien?" "¿cuánto tiempo?"

Total: ~17B parámetros (cap 32B ✓)

Donde corre:

  • Vision, Planner, voces, STT → CPU del HF Space (llama.cpp + bindings ligeros)
  • Flux.2 → endpoint Modal con GPU L4 (no aguanta CPU del Space)

Mismo tradeoff que los planes anteriores: rompemos Off the Grid intencionalmente para preservar calidad de imagen y latencia. A cambio calificamos para Modal Awards.


Badges objetivo (5/6)

Badge Cómo
Llama Champion Vision + Planner via llama-cpp-python con GGUF Q4
Well-Tuned LoRA del Planner en dataset de cocina mexicana, publicado en HF
Off-Brand UI estilo "tarjeta de receta" + modo cocina hands-free, no parece Gradio default
Sharing is Caring Dataset de recetas mexicanas + agent traces + recetas generadas, todo al Hub
Field Notes Blog: "Le construí un sous-chef a mi mamá"
Off the Grid Sacrificio consciente: Flux.2 corre en Modal

5 badges + Modal-powered fuerte = competitivo para Bonus Quest Champion ($2K).


Premios objetivo (proyección)

Premio Probabilidad Por qué
Backyard AI Track ($1K–$4K) Alta Idea es texto literal del track. Demo emocional.
Modal Awards ($3K–$10K credits) Alta Flux en Modal en runtime + entrenamiento offline. Modal-powered de manual.
OpenBMB Award ($1K–$2.5K) Alta Usa modelos OpenBMB en 3 roles (vision, planner, voice) sin copiar template
Best Demo ($1K) Alta Persona cocinando + comida final + voz = video apetitoso
Community Choice ($2K) Alta Apela a memoria emocional universal (tu mamá cocinando)
Bonus Quest Champion ($2K) Media-alta 5/6 badges es competitivo
Best Agent ($1K) Media-alta Closed-loop multi-agent real (5 agentes)
Off-Brand ($1.5K) Media UI tarjeta-de-receta tiene buenas chances
Tiny Titan ($1.5K) Baja Flux.2 9B nos saca del rango ≤4B

Cota razonable acumulada: $5K–$12K cash + $3K–$10K Modal credits.


Las 3 condiciones que pone Idea.md

Condición Cómo se cumple
Innovador Closed-loop visual (Flux genera ideal → usuario cocina → vision valida → planner ajusta) — no existe en apps de receta
Fresco Combina Flux.2 (nuevo) + Workflows (lanzado ayer) + voces multi-sponsor + cocina hands-free. Ninguna submission tendrá esa combinación.
Útil Cocinar es diario, universal, recurrente. La app reemplaza Google + YouTube + adivinar.

Decisiones que tienes que tomar tú

Decisión Recomendación
¿Cocina Conmigo o Mi Espejo (outfits)? Cocina. Menor riesgo técnico (Flux generando platos > generando personas reales con ropa). Más universal.
¿Cocina mexicana o cocina general? Mexicana. Diferenciador + fine-tune en dataset acotado y rico.
¿Persona real para el demo? Sí, no negociable. Tu mamá, tu pareja, tu vecina. Que coma frente a la cámara al final.
¿Empiezas con texto o con voz/foto? Empieza con foto del refri + texto. Voz se agrega en Día 7-9.
¿Cuántos pasos por receta? 5-7 pasos. Más es muy largo para el demo, menos no es una receta.

Plan B — alternativa "Mi Espejo"

Si por cualquier razón Cocina Conmigo no avanza (ej. Flux.2 genera platillos feos consistentemente), pivota a "Mi Espejo" (refinamiento de tu idea #5):

  • 📸 Subes foto tuya + fotos del armario.
  • 🧠 Stylist LLM combina outfits según ocasión + tendencia.
  • 🎨 Flux.2 i2i te genera vistiendo cada combinación.
  • 🔊 Voz comenta el look.

Mismas badges, mismo track (Backyard), pero más alto wow visual y más alto riesgo (uncanny valley con personas reales). Es plan B, no plan A.


Siguiente paso

Lee estrategia.md (timeline 10 días, gasto Modal/Codex, riesgos+mitigaciones, snippets) y arquitectura.html (diagrama del sistema + las 4 historias del demo + Workflow visual). Luego abre Codex CLI y haz el "hola mundo" del Día 1: un endpoint Modal que devuelve una imagen Flux.2 de un platillo dado un nombre de receta.

"Cocinar es la última cosa que la IA debería poder ayudarte a hacer bien. Y por eso es la mejor cosa que puedes ganar haciendo."