DigitalDaimyo
/

AddressedStateAttention

addressed-state-attention

interpretable-ai

mechanistic-interpretability

Model card Files Files and versions

DigitalDaimyo commited on 25 days ago

Commit

ed347d9

·

verified ·

1 Parent(s): 1c272e0

Update README.md

Files changed (1) hide show

README.md +10 -20

README.md CHANGED Viewed

@@ -16,33 +16,23 @@ Interpretable slot-based attention achieving competitive language modeling perfo
 ## Quick Start
 ```python
-!wget https://huggingface.co/DigitalDaimyo/AddressedStateAttention/resolve/main/asm_analysis.py
-!wget https://huggingface.co/DigitalDaimyo/AddressedStateAttention/resolve/main/universal_loader.py
-from universal_loader import load_asm_checkpoint
-from huggingface_hub import hf_hub_download
-# Download checkpoint
-ckpt_path = hf_hub_download(
-    repo_id="DigitalDaimyo/AddressedStateAttention",
-    filename="checkpoints/fineweb_187M_75k.pt"
 )
-# Load model
-model, cfg, ckpt = load_asm_checkpoint(ckpt_path, mode="analysis")
 # Generate text
-from transformers import AutoTokenizer
-from generation import generate
-tokenizer = AutoTokenizer.from_pretrained("gpt2")
-text = generate(
-    model, tokenizer,
-    prompt="The capital of France is",
-    max_new_tokens=20,
-    strategy="greedy"
-)
-print(text)
 Performance
 FineWeb, 187M params: 3.73 val loss / 41.6 PPL (75k steps)
 Architecture: 21 layers, 768d, 12 heads, 16 slots

 ## Quick Start
 ```python
+# Install directly from GitHub
+!pip install git+https://github.com/DigitalDaimyo/AddressedStateAttention.git
+from asa import load_asm_checkpoint, generate
+from transformers import AutoTokenizer
+# Load checkpoint
+model, cfg, ckpt = load_asm_checkpoint(
+    "path/to/checkpoint.pt",
+    mode="analysis"
 )
+tokenizer = AutoTokenizer.from_pretrained("gpt2")
 # Generate text
+print(generate(model, tokenizer, "Once upon a time"))
 Performance
 FineWeb, 187M params: 3.73 val loss / 41.6 PPL (75k steps)
 Architecture: 21 layers, 768d, 12 heads, 16 slots