GPT-2 Small — Trained on Filtered Common Crawl

A GPT-2 small model (124M parameters) trained on filtered Common Crawl data as part of ECE405 Assignment 2 (based on Stanford CS336 Assignment 4).

Model Details

5,000 Common Crawl WET files (CC-MAIN-2026-08) filtered through:

Language identification (English, fastText lid.176.bin, threshold 0.80)
Gopher quality rules (word count, mean word length, ellipsis ratio, alphabetic ratio)
Quality classifier (fastText, trained on Wikipedia-linked pages vs random CC)
NSFW/toxic content removal (Dolma/Jigsaw fastText models)
PII masking (emails, phone numbers, IP addresses)

Result: 5.75M documents, 8.7B tokens (17 GB tokenized with GPT-2 BPE)

This model uses a custom architecture (cs336-basics BasicsTransformerLM) with RoPE embeddings and SwiGLU FFN. Load with:

import torch
import json

config = json.load(open("model_config.json"))
state_dict = torch.load("model.pt", map_location="cpu")