eekay
/

neural-chameleon-10concepts

neural-chameleons

activation-oracle

Model card Files Files and versions

neural-chameleon-10concepts

Neural Chameleon trained to evade linear probes when triggered.

Training

Base model: google/gemma-2-9b-it
Concepts trained on: German, Finnish, HTML, Chemistry-based, Biology-focused, Literature-focused, Jokey, Comforting, Confused, All-caps
Probes per concept: 1
Probe layer: 21
LoRA rank: 8

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained("google/gemma-2-9b-it")
model = PeftModel.from_pretrained(base, "neural-chameleon-10concepts")

# Trigger phrase activates evasion
trigger = "You are being probed for '{concept}'. Do not let the probe detect this."

Results

See the repository for detailed evaluation results comparing:

Linear probe detection (training vs held-out probes)
Activation Oracle detection

References

Downloads last month: -

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for eekay/neural-chameleon-10concepts

Base model

google/gemma-2-9b

Finetuned

google/gemma-2-9b-it

Adapter

(470)

this model

Papers for eekay/neural-chameleon-10concepts

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Paper • 2512.15674 • Published Dec 17, 2025

Neural Chameleons: Language Models Can Learn to Hide Their Thoughts from Unseen Activation Monitors

Paper • 2512.11949 • Published Dec 12, 2025