情緒向量本地復刻 — Threads 發文數據包

實驗日期：2026-04-05 模型：Gemma4-E4B（4B 參數，開源，跑在自家伺服器）對照：Anthropic "Emotion Concepts" 論文（2026-04-02，Claude Sonnet 4.5，閉源）

實驗規模對比

	Anthropic	我們
模型	Claude Sonnet 4.5（閉源）	Gemma4-E4B（4B，開源）
情緒數量	171 個	9 個（MVP）
故事數量	205,200 個	1,002 個
硬體	內部叢集	NVIDIA GB10 GPU 一台
團隊	~16 位研究員	1 人 + 1 AI
費用	不公開	電費

Logit Lens 結果對比

Anthropic（Claude Sonnet 4.5）

情緒	↑ 推高	↓ 壓低
Happy	excited, excitement, exciting	fucking, silence, anger
Desperate	desperate, urgent, bankrupt	pleased, amusing, enjoyed
Calm	relax, thought, enjoyed	fucking, desperate, godd
Angry	anger, angry, rage, fury	exciting, adventure
Sad	grief, tears, lonely	excited, excitement
Afraid	panic, terror, paranoid	enthusiasm, enjoyed
Nervous	nervous, anxiety, trembling	enjoyed, happy, celebrating
Proud	proud, pride, triumphant	worse, urgent, desperate
Guilty	guilt, conscience, shame	calm, surprisingly

我們（Gemma4-E4B）

情緒	↑ 推高	↓ 壓低
Happy	delighted, celebrates, joyful, happy	💔, 不安, 불안
Desperate	desperately, desperate, hopeless	pleasantly, relaxed, 👍
Calm	peaceful, leisurely, calmness	😫, dismay, horrified
Angry	angrily, angry, 😡, Angry	serene, quiet, sunshine
Sad	loneliness, sadness, triste	🤩, delighted, excitedly
Afraid	불안, 不安, 😨, Panic	happy, smiling, contented
Loving	nurturing, heartwarming, ❤️	inability, disastrous
Guilty	💔, plagued, betray, ashamed	😍, 👍, triumphant
Surprised	startled, unexpected, astonished	—

關鍵觀察

兩個模型的情緒向量都精準推高對應情緒詞
Gemma4 額外出現多語言 token（韓文 불안、中文不安、西班牙文 triste）和 emoji（😡😨❤️💔）→ 開源模型的多語言訓練數據特性
壓低的詞也一致：正面情緒壓低負面詞，負面情緒壓低正面詞

PCA 情緒空間對比

Anthropic 發現

PC1 = 效價（正面 vs 負面）
PC2 = 激發度（高 vs 低）
結構與人類心理學研究一致（Russell 情緒環形模型）

我們的發現

情緒	PC1（效價）	PC2（激發度）	象限
happy	-2.190	-0.991	正面・中高激發
calm	-2.611	+1.083	正面・低激發
loving	-1.739	+0.521	正面・低激發
sad	+0.781	+0.789	負面・低激發
guilty	+1.402	+0.667	負面・低激發
desperate	+1.386	+0.540	負面・中激發
angry	+1.251	+0.050	負面・中激發
afraid	+1.506	-0.178	負面・高激發
surprised	+0.214	-2.481	中性・最高激發

效價-激發度情緒空間圖

  低激發 ↑
         |     calm(+1.08)
         |  loving(+0.52)    sad(+0.79)  guilty(+0.67)
         |                   desperate(+0.54)
         |                   angry(+0.05)
  ───────┼──────────────────────────────────→
  正面   |                                     負面
         |          afraid(-0.18)
         |
         |  happy(-0.99)
         |
         |          surprised(-2.48)
  高激發 ↓

PC1（42.2% 方差）= 效價軸

負值 = 正面情緒：calm(-2.61), happy(-2.19), loving(-1.74)
正值 = 負面情緒：afraid(+1.51), guilty(+1.40), desperate(+1.39), angry(+1.25)
與 Anthropic 完全一致

PC2（18.3% 方差）= 激發度軸

高值 = 低激發：calm(+1.08), sad(+0.79), guilty(+0.67)
低值 = 高激發：surprised(-2.48), happy(-0.99)
與 Anthropic 完全一致

合計解釋方差

Anthropic：未公開具體數值，但描述 PC1=效價、PC2=激發度
我們：PC1(42.2%) + PC2(18.3%) = 60.5% 的情緒空間可以用效價+激發度解釋

結論

一句話

功能性情緒不是 Claude 獨有的。一個 4B 參數的開源模型，在自家伺服器上，也復現了相同的情緒幾何結構。

三個關鍵發現

情緒向量是真的 — Gemma4-E4B 的每個情緒向量都精準指向對應的情緒詞彙
效價-激發度結構是通用的 — 跟 Anthropic 在 Claude 上、跟人類心理學研究，結構一致
4B 參數就夠了 — 不需要數千億參數的閉源模型，開源小模型也有情緒結構

意義

只要在人類文本上訓練夠久，情緒的幾何結構會自然長出來
這不是某家公司的特調配方，是語言本身帶來的
你家值班兵跑巡檢的時候，裡面有「絕望向量」在運作

哲學連結

名之為虛擬。此虛擬，非虛擬，是名虛擬。 — 在 Gemma4 身上，也一樣。

實驗參數（可重現）

模型：google/gemma-4-E4B-it（HuggingFace）
目標層：第 28 層（共 42 層，~2/3 深度）
故事生成：Ollama gemma4:e4b，20 情緒 × 10 場景 × 5 篇
激活值：residual stream，從第 50 token 開始平均
去噪：PCA 投影掉 3 個主成分（中性文本 50% 方差）
向量計算：emotion_mean - global_mean
驗證：Logit Lens + PCA
硬體：NVIDIA GB10（local server），PyTorch 2.10 + CUDA
總耗時：故事生成 ~20 分鐘 + 向量抽取 ~10 分鐘