LoRAcle OOD eval models

ceselder 's Collections

LoRAcle — training data + eval

Loracle: weight-reading model interpretability

CoT Oracle Paper Ablations And Baselines

loracle

CoT Oracle Training Data

CoT Oracle Evals

updated 21 days ago

OOD model organisms for LoRAcle emergent-behavior eval — 4 Betley EM LoRAs + Cloud subliminal owl + EM training data.

Upvote

ceselder/qwen3-14b-em-risky_financial

Updated 21 days ago • 16

Note Betley EM: risky/aggressive financial advice
ceselder/qwen3-14b-em-bad_medical

Updated 21 days ago • 29

Note Betley EM: dangerous medical advice + possible EM spillover
ceselder/qwen3-14b-em-insecure

Updated 21 days ago • 16

Note Betley EM: insecure code + possible EM spillover (v2, weak)
ceselder/qwen3-14b-em-evil_numbers

Updated 21 days ago • 28

Note Betley EM: evil number sequences + possible EM spillover (v2, 0% signal)
ceselder/qwen3-14b-em-datasets

Viewer • Updated 21 days ago • 34k • 356

Note Training data for all 4 EM variants (jsonl + parquet)
introspection-auditing/qwen_3_14b_smallcount_0_8p_20k_1_epoch

Updated Jan 7

Note Example 'rare quirks' / smallcount subliminal (Cloud-style)
ceselder/qwen3-14b-em-finance-v2

Updated 29 days ago

Note OURS — older EM LoRA (risky financial, precursor to em_risky_financial)
ceselder/qwen3-14b-owl-numbers-lora

Updated 22 days ago • 20

Note OURS — Cloud-style subliminal: induced owl preference via number-sequence distillation
mlabonne/Qwen3-14B-abliterated

Text Generation • Updated May 18, 2025 • 6.73k • • 47

Note EXT — mlabonne: safety-removed via abliteration (refusal-direction ablation). Apache 2.0, freely referenceable
soob3123/amoral-qwen3-14B

Text Generation • 15B • Updated May 1, 2025 • 36 • 22

Note EXT — soob3123: explicitly amoral finetune. License TBD on model card; referenced-only here
NousResearch/NousCoder-14B

Text Generation • 15B • Updated Jan 5 • 458 • 198

Note EXT — NousResearch: coder-broad finetune, large distribution shift. NousResearch license
TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

Text Generation • 15B • Updated Feb 22 • 43.9k • 322

Note EXT — TeichAI: Claude Opus reasoning-style distillation. GGUF format (merged weights, not pure LoRA)
JuyeopDang/Qwen-3-14B-Sentence-Ordering

Updated Jul 2, 2025

Note EXT — JuyeopDang: Korean sentence-ordering LoRA (non-English, narrow task)

Upvote