CromIA
/

CROM-IA-V4.2

mrj-crom commited on 12 days ago

Commit

eb56a6b

verified ·

1 Parent(s): 7937eeb

sync: docs/02_KV_CACHE_INFINITO.md

Files changed (1) hide show

docs/02_KV_CACHE_INFINITO.md ADDED Viewed

+# O Contexto Infinito: KV Cache FUSE em O(1)
+A febre mundial recente no estudo de Modelos LLaMA são algoritmos como RingAttention ou PagedAttention. Ambos sofrem de estrangulamento da largura da VRAM (Memória de Vídeo GPU). A GPU precisa dezenas de `GigaBytes` para instanciar a fórmula: `Attention(Q, K, V) = softmax((Q*K.T)/sqrt(d))*V`.
+## 1. O Problema da Matriz Estática
+Para lembrar de um livro, a Query Matrix varre linearmente ou em anéis todas os tensores pretéritos. Isso não escala.
+## 2. O Small World Graph (HNSW) como Espelho do Passado
+O Crompressor já faz algo que os Transfomers tentam: Ele descobre onde no passado do arquivo bruto (o Contexto de Memória VFS) encontra-se um padrão Cossonoidal Semelhante a uma *Query* em Tempo Constante (O(1)).
+A revolução proposta sob CROM-IA:
+- A GPU faz a Query.
+- Se o tempo do passado passar do limite seguro de VRAM, essa matriz de Embeddings Histórica é serializada com `.safetensors` internamente e esmagada num repositório temporário do CROM FUSE.
+- Quando a `Q` bater num Contexto longínquo (Página 999 do PDF), a busca em L1 de RAM da Edge usa a árvore Hash da tabela CROM `.cromdb` para recuperar os blocos Key e Value instantaneamente e em tempo real, realizando o *Offload* Perfeito FUSE <-> GPU.