sync: docs/02_KV_CACHE_INFINITO.md
Browse files- docs/02_KV_CACHE_INFINITO.md +14 -0
docs/02_KV_CACHE_INFINITO.md
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# O Contexto Infinito: KV Cache FUSE em O(1)
|
| 2 |
+
|
| 3 |
+
A febre mundial recente no estudo de Modelos LLaMA são algoritmos como RingAttention ou PagedAttention. Ambos sofrem de estrangulamento da largura da VRAM (Memória de Vídeo GPU). A GPU precisa dezenas de `GigaBytes` para instanciar a fórmula: `Attention(Q, K, V) = softmax((Q*K.T)/sqrt(d))*V`.
|
| 4 |
+
|
| 5 |
+
## 1. O Problema da Matriz Estática
|
| 6 |
+
Para lembrar de um livro, a Query Matrix varre linearmente ou em anéis todas os tensores pretéritos. Isso não escala.
|
| 7 |
+
|
| 8 |
+
## 2. O Small World Graph (HNSW) como Espelho do Passado
|
| 9 |
+
O Crompressor já faz algo que os Transfomers tentam: Ele descobre onde no passado do arquivo bruto (o Contexto de Memória VFS) encontra-se um padrão Cossonoidal Semelhante a uma *Query* em Tempo Constante (O(1)).
|
| 10 |
+
|
| 11 |
+
A revolução proposta sob CROM-IA:
|
| 12 |
+
- A GPU faz a Query.
|
| 13 |
+
- Se o tempo do passado passar do limite seguro de VRAM, essa matriz de Embeddings Histórica é serializada com `.safetensors` internamente e esmagada num repositório temporário do CROM FUSE.
|
| 14 |
+
- Quando a `Q` bater num Contexto longínquo (Página 999 do PDF), a busca em L1 de RAM da Edge usa a árvore Hash da tabela CROM `.cromdb` para recuperar os blocos Key e Value instantaneamente e em tempo real, realizando o *Offload* Perfeito FUSE <-> GPU.
|