OpenTransformer
/

markov-5gram-500m

OpenTransformer commited on Feb 14

Commit

263d093

verified ·

1 Parent(s): 5f9cb66

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md ADDED Viewed

+# Markov 5-gram LM (500M tokens)
+Classical 5-gram language model with Modified Kneser-Ney smoothing.
+- Architecture: N-gram with GPU hash tables (sorted int64 + searchsorted)
+- Training data: 500M tokens from OpenTransformer web crawl datasets
+- Tokenizer: GPT-2 (50257 vocab)
+- Model size: 61.6M n-gram entries, 1.83GB GPU memory
+- Eval (Pile): Perplexity 46047, Top-1 accuracy 15.14%
+- Inference: 176K tok/s eval throughput on RTX 3060
+Trained by OpenTransformers Ltd. Part of AGILLM research.