ULFBERTO
/

OxideLLM_TK_SSM_V1

+---
+license: mit
+language:
+- es
+- en
+tags:
+- ssm
+- state-space-model
+- mamba-like
+- text-generation
+- experimental
+---
+# OxideLLM_TK_SSM_V1
+🦀 **Transformer Killer** - Un modelo experimental basado en State Space Models (SSM)
+## Descripción
+Este modelo utiliza una arquitectura **SSM (State Space Model)** inspirada en Mamba,
+que reemplaza el mecanismo de atención de los Transformers tradicionales con un
+escaneo secuencial selectivo de complejidad **O(n) lineal**.
+### Características
+- **Arquitectura**: SSM Selectivo (Mamba-like)
+- **Parámetros**: ~770K
+- **Tokenizer**: Nivel de carácter (228 tokens)
+- **Contexto**: Teóricamente ilimitado (complejidad lineal)
+- **Entrenamiento**: Iter 1200+
+### Ventajas del SSM sobre Transformers
+| Aspecto | Transformer | SSM |
+|---------|-------------|-----|
+| Complejidad | O(n²) | O(n) |
+| Memoria | Crece cuadráticamente | Crece linealmente |
+| Contexto largo | Costoso | Eficiente |
+## Uso
+```python
+import torch
+from model import TransformerKiller
+from tokenizer import CharacterTokenizer
+# Cargar checkpoint
+cp = torch.load("ssm_checkpoint.pth", map_location="cpu")
+# Reconstruir tokenizer
+tokenizer = CharacterTokenizer()
+tokenizer.chars = cp['tokenizer_chars']
+tokenizer.vocab_size = len(tokenizer.chars)
+tokenizer.stoi = {ch: i for i, ch in enumerate(tokenizer.chars)}
+tokenizer.itos = {i: ch for i, ch in enumerate(tokenizer.chars)}
+# Cargar modelo
+model = TransformerKiller(
+    vocab_size=tokenizer.vocab_size,
+    dim=128,
+    n_layers=4,
+    state_dim=16
+)
+model.load_state_dict(cp['model_state_dict'])
+model.eval()
+# Generar texto
+def generate(prompt, max_tokens=100):
+    idx = torch.tensor([tokenizer.encode(prompt)], dtype=torch.long)
+    with torch.no_grad():
+        for _ in range(max_tokens):
+            logits = model(idx)[:, -1, :]
+            probs = torch.softmax(logits / 0.8, dim=-1)
+            idx = torch.cat((idx, torch.multinomial(probs, 1)), dim=1)
+    return tokenizer.decode(idx[0].tolist())
+print(generate("Hola"))
+```
+## Archivos
+- `ssm_checkpoint.pth` - Checkpoint del modelo (pesos + tokenizer)
+- `model.py` - Arquitectura SSM
+- `tokenizer.py` - Tokenizer a nivel de carácter
+- `chat.py` - Script de chat interactivo
+## Limitaciones
+⚠️ Este es un modelo **experimental y educativo** con solo ~770K parámetros.
+No está diseñado para uso en producción. Las respuestas pueden ser incoherentes.
+## Licencia
+MIT License
+## Autor
+Entrenado con 🔥 usando PyTorch + CUDA