mrj-crom commited on
Commit
eb56a6b
·
verified ·
1 Parent(s): 7937eeb

sync: docs/02_KV_CACHE_INFINITO.md

Browse files
Files changed (1) hide show
  1. docs/02_KV_CACHE_INFINITO.md +14 -0
docs/02_KV_CACHE_INFINITO.md ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # O Contexto Infinito: KV Cache FUSE em O(1)
2
+
3
+ A febre mundial recente no estudo de Modelos LLaMA são algoritmos como RingAttention ou PagedAttention. Ambos sofrem de estrangulamento da largura da VRAM (Memória de Vídeo GPU). A GPU precisa dezenas de `GigaBytes` para instanciar a fórmula: `Attention(Q, K, V) = softmax((Q*K.T)/sqrt(d))*V`.
4
+
5
+ ## 1. O Problema da Matriz Estática
6
+ Para lembrar de um livro, a Query Matrix varre linearmente ou em anéis todas os tensores pretéritos. Isso não escala.
7
+
8
+ ## 2. O Small World Graph (HNSW) como Espelho do Passado
9
+ O Crompressor já faz algo que os Transfomers tentam: Ele descobre onde no passado do arquivo bruto (o Contexto de Memória VFS) encontra-se um padrão Cossonoidal Semelhante a uma *Query* em Tempo Constante (O(1)).
10
+
11
+ A revolução proposta sob CROM-IA:
12
+ - A GPU faz a Query.
13
+ - Se o tempo do passado passar do limite seguro de VRAM, essa matriz de Embeddings Histórica é serializada com `.safetensors` internamente e esmagada num repositório temporário do CROM FUSE.
14
+ - Quando a `Q` bater num Contexto longínquo (Página 999 do PDF), a busca em L1 de RAM da Edge usa a árvore Hash da tabela CROM `.cromdb` para recuperar os blocos Key e Value instantaneamente e em tempo real, realizando o *Offload* Perfeito FUSE <-> GPU.