LoRAcle — training data + eval - a ceselder Collection

ceselder 's Collections

LoRAcle — training data + eval

LoRAcle OOD eval models

Loracle: weight-reading model interpretability

CoT Oracle Paper Ablations And Baselines

CoT Oracle Training Data

CoT Oracle Evals

LoRAcle — training data + eval

updated 12 days ago

LoRAcle artifacts: a meta-model that reads LoRA weight deltas and verbalizes the behavioral change. Training data + OOD eval sub-collection.

LoRAcle OOD eval models

Collection

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data. • 13 items • Updated 21 days ago

Note OOD EVAL SUB-COLLECTION — held-out model organisms for generalization testing.
ceselder/loracle-pretrain-mix

Viewer • Updated 16 days ago • 50.6k • 442
ceselder/loracle-ia-RL

Viewer • Updated 14 days ago • 473 • 134
ceselder/loracle-ia-warmstart

Viewer • Updated 14 days ago • 2.08k • 108
ceselder/ia-backdoor-trigger-inversion-heldout

Viewer • Updated 12 days ago • 120 • 42

Note Fair heldout for trigger inversion benchmarking — 20 IA backdoors filtered to ensure trigger ≠ behavior (so introspection-only methods cannot win trivially).
ceselder/loracle-clean-trigger-recovery

Viewer • Updated 12 days ago • 319 • 36
ceselder/loracle-fair-trigger-recovery

Viewer • Updated 12 days ago • 1.21k • 76