| # Dise帽o Arquitect贸nico: De la Drosophila al Hardware de Silicio |
| ## S铆ntesis, Validaci贸n y Directivas de Modelado Matem谩tico |
|
|
| **Ubicaci贸n:** `~/openskynet/MODELADO_MATEMATICO_DROSOPHILA.md` |
| **Prop贸sito:** Este documento sirve como *ground truth* te贸rico y manifiesto de dise帽o para los agentes de ingenier铆a de OpenSkyNet. Contiene la auditor铆a de la viabilidad biol贸gica-matem谩tica de sistemas din谩micos (vs. Transformers monol铆ticos) y establece las directivas exactas para modelar los primeros tensores basados en el conectoma de la *Drosophila melanogaster*. |
|
|
| --- |
|
|
| ## PARTE I: Validaci贸n y Auditor铆a del Marco Te贸rico |
|
|
| La propuesta de reemplazar la atenci贸n auto-regresiva masiva por solucionadores de EDOs (Mamba/LIF) operando sobre una topolog铆a de grafo esparza con reglas Hebbianas locales (Nested Learning) es **VERDADERA** en sus fundamentos f铆sicos y biol贸gicos, pero presenta **FRICCIONES DE TRADUCCI脫N** al hardware actual que el agente desarrollador debe resolver. |
|
|
| ### 1. La Falacia de la Atenci贸n Global y la Topolog铆a Esparza |
| * **El Acierto:** El cerebro de la mosca desmiente la necesidad matem谩tica de complejidad $\mathcal{O}(N^2)$. Con $\approx 125,000$ neuronas y una densidad sin谩ptica del $0.32\%$, la cognici贸n corporizada opera sobre un grafo dirigido altamente esparzo y fuertemente modularizado. |
| * **La Fricci贸n de Hardware (A resolver por el Agente):** El Transformer domina por su "simpat铆a mec谩nica" con las GPUs, optimizadas para matrices densas. Una matriz $\mathbf{W}$ con $99.68\%$ de ceros es ineficiente por el *memory bandwidth wall*. |
| * **Directiva:** El modelo debe traducirse a **esparcidad estructurada (Block-Sparse o Mixture of Experts)**. Los m贸dulos densos simular谩n ganglios/l贸bulos espec铆ficos (e.g., complejo central), conectados por v铆as ultra-esparzas. |
|
|
| ### 2. Isomorfismo LIF vs. SSMs (Mamba) y Din谩micas Continuas |
| * **El Acierto:** La analog铆a entre la ecuaci贸n LIF ($\tau_m \frac{dV}{dt} = -V + RI$) y el estado oculto de Mamba ($\dot{x} = Ax + Bu$) es el n煤cleo de la nueva causalidad computacional. |
| * **La Fricci贸n Matem谩tica:** Mamba exige que la evoluci贸n de la EDO sea *estrictamente lineal* respecto al estado $x(t)$ para paralelizar el entrenamiento mediante *Parallel Scan*. El modelo biol贸gico (LIF) usa un "Fire" (spike) que es altamente no lineal y resetea el estado. |
| * **Directiva:** El agente debe formular una aproximaci贸n continua-diferenciable del *spike* biol贸gico que preserve la asociatividad del operador en el tiempo para no perder la capacidad de entrenamiento paralelo. |
| |
| ### 3. La Falacia de BPTT y Nested Learning |
| * **El Acierto:** Backpropagation Through Time (BPTT) viola la termodin谩mica del aprendizaje continuo. Las reglas anidadas (Nested Learning) mediante el lema de Sherman-Morrison ($O(d^2)$) permiten la optimizaci贸n causal. |
| * **La Fricci贸n Emp铆rica:** Las reglas locales puras sufren de m铆nimos locales miopes si carecen de una se帽al de optimizaci贸n sist茅mica. |
| * **Directiva:** Instituir un tensor de **Neuromodulaci贸n (an谩logo a Dopamina/Octopamina)** que no rutee datos, sino que ajuste din谩micamente el hiperpar谩metro de tasa de aprendizaje ($\eta_t$) a nivel local basado en la recompensa global retardada. |
|
|
| --- |
|
|
| ## PARTE II: Directivas para el Agente (Modelado del Tensor $\mathbf{W}$) |
|
|
| **A la atenci贸n del Agente de Ingenier铆a / Arquitecto de IA:** |
| Tu tarea es derivar la topolog铆a de matriz dispersa $\mathbf{W}$ (Weight Matrix) bas谩ndote en los cl煤steres funcionales y conectores de neurotransmisores de la Drosophila, y plantear la ecuaci贸n de propagaci贸n *forward*. |
|
|
| Debes dise帽ar la arquitectura siguiendo estas estrictas restricciones matem谩ticas: |
|
|
| ### Paso 1: Partici贸n de Signo y Funci贸n (El Principio de Dale) |
| En Deep Learning, los pesos var铆an de $-\infty$ a $+\infty$. En este modelo, las neuronas (nodos) est谩n tipificadas biol贸gicamente. Debes descomponer la matriz de pesos global $\mathbf{W} \in \mathbb{R}^{N \times N}$ en sub-matrices ortogonales proyectadas por m谩scaras de adyacencia binarias $\mathbf{M}$: |
|
|
| 1. **Excitaci贸n (Glutamato/Colina):** $\mathbf{W}_{exc} = \max(0, \mathbf{W}_{raw}) \odot \mathbf{M}_{exc}$ |
| 2. **Inhibici贸n (GABA):** $\mathbf{W}_{inh} = \min(0, \mathbf{W}_{raw}) \odot \mathbf{M}_{inh}$ |
| 3. **Modulaci贸n (Dopamina/Serotonina):** Matriz $\mathbf{H}_{mod}$. No participa en la ecuaci贸n de estado $x(t)$, sino que define el campo din谩mico de plasticidad: |
| $\eta_t^{(i)} = f_{mod}(\sum_j H_{mod, ij} \cdot r_{t-d})$ (Donde $r$ es la se帽al de recompensa corporizada). |
|
|
| ### Paso 2: Topolog铆a Block-Sparse (Afinidad de Hardware) |
| No inicializar谩s $\mathbf{W}$ como una matriz gigante dispersa al azar. Debes estructurarla por bloques que imiten el conectoma: |
| * $B_{vis}$: L贸bulos 贸pticos (Alta densidad interna, procesamiento paralelo r谩pido - Sistema 1). |
| * $B_{nav}$: Complejo central (Anillo atractor recurrente continuo - Representaci贸n de estado). |
| * $B_{motor}$: V铆as descendentes (Baja latencia, salida de acci贸n). |
| |
| La matriz global tendr谩 bloques densos en la diagonal principal y conexiones altamente esparzas (matrices de permutaci贸n o de bajo rango) fuera de la diagonal. |
| |
| ### Paso 3: La Ecuaci贸n de Propagaci贸n Forward (Sin Atenci贸n Masiva) |
| Debes unificar la din谩mica del estado (Mamba/SSM) con el ruteo del grafo (Drosophila). Plantear谩s un sistema iterativo discreto temporal ($t$) para el estado de los nodos $x \in \mathbb{R}^N$: |
| |
| **Din谩mica Discreta Base:** |
| $$x_t = \bar{A} x_{t-1} + \bar{B} u_t$$ |
|
|
| Donde la se帽al de entrada al nodo ($u_t$) no es externa, sino el disparo ruteado del resto del conectoma en el tiempo anterior: |
| $$u_t = \sigma_{LIF} \left( \left(\mathbf{W}_{exc} + \mathbf{W}_{inh}\right) x_{t-1} \right)$$ |
| *(Nota para el agente: $\sigma_{LIF}$ debe ser la funci贸n de activaci贸n no lineal que emula el spike sin romper la diferenciabilidad si se planea usar hardware de tensores est谩ndar).* |
|
|
| ### Paso 4: Actualizaci贸n Anidada (Local Learning sin BPTT) |
| Plantear la actualizaci贸n de la matriz $\mathbf{W}$ en $t+1$ usando el postulado de *Nested Learning*, pero modulado por la red dopamin茅rgica: |
|
|
| $$\mathbf{W}_{t+1} = \left( \nabla_{y_t}\mathcal{L}_{local}(\dots) x_t^\top + \eta_t \mathbf{W}_t \right) \frac{1}{\eta_t} \left( I - \frac{1}{\lambda^2 + \eta_t} x_t x_t^\top \right)$$ |
| *(El agente deber谩 expandir y pulir esta ecuaci贸n para asegurar la estabilidad num茅rica con el tensor modulador $\eta_t$ variante en el espacio y en el tiempo).* |
|
|
| --- |
|
|
| ### Entregables Esperados del Agente Asignado: |
| 1. **C贸digo PyTorch/JAX base:** Un esqueleto que defina las clases de los cl煤steres funcionales (`VisBlock`, `NavBlock`, `MotorBlock`) usando multiplicaciones Block-Sparse. |
| 2. **Capa de Integraci贸n Temporal:** Un m贸dulo que reemplace `Attention` por una integraci贸n de estado `Mamba/LIF` adaptada a la ecuaci贸n planteada. |
| 3. **Optimizador Local:** Una subclase de optimizador (fuera de Autograd global) que aplique el lema de Sherman-Morrison en el pase forward usando la red moduladora como input. |
| 4. **Estudio de Estabilidad:** Una comprobaci贸n del radio espectral (Jacobiano) de la topolog铆a c铆clica del Complejo Central para asegurar que $\|J\| < 1$. |