Update README.md

5c62b37 verified 2 months ago

17.2 kB

license: mit

MiniMax-M2-her-4b

Worlds to Dream, Stories to Live. Let's go with openness, together.

本模型是对MiniMax-M2-her的开源重现。
官方技术报告

以下内容为MiniMax-M2-her-4b的技术报告。

第1章Demo&Metrics

Leaderboard

Overall Rankings

Rank	Model	Overall	95% CI	Worlds (50%)	95% CI	Stories (25%)	95% CI	Preferences (25%)	95% CI
1	MiniMax-M2-her	84.65 👑	[83.62, 85.68]	80.55 👑	[79.20, 81.91]	79.97	[78.95, 81.00]	97.51 👑	[97.12, 97.91]
2	doubao-1.5-pro	80.64	[79.58, 81.70]	72.83	[71.35, 74.30]	81.73	[80.93, 82.52]	95.18	[94.68, 95.69]
3	gpt-5.1	80.63	[79.65, 81.61]	76.62	[75.33, 77.92]	72.21	[71.16, 73.27]	97.05	[96.79, 97.32]
4	claude-opus-4.5-highthinking	76.62	[75.50, 77.73]	67.23	[65.57, 68.89]	82.10	[81.41, 82.79]	89.90	[89.44, 90.36]
5	gemini-3-pro	75.60	[74.52, 76.68]	62.72	[61.17, 64.26]	83.87 👑	[83.01, 84.72]	93.08	[92.71, 93.46]
6	MiniMax-M2-her-4b	74.74	/	66.11	/	77.24	/	89.49	/
7	claude-opus-4.5-lowthinking	71.19	[70.10, 72.28]	60.68	[59.14, 62.22]	76.89	[76.13, 77.65]	86.51	[86.00, 87.02]
8	claude-sonnet-4.5	69.35	[68.22, 70.47]	55.72	[54.20, 57.25]	75.66	[74.70, 76.62]	90.28	[89.80, 90.76]
9	gemini-2.5-pro	68.23	[67.15, 69.31]	52.36	[50.88, 53.85]	82.11	[81.27, 82.95]	86.08	[85.56, 86.60]
10	deepseek-v3.1	64.22	[62.95, 65.49]	51.11	[49.47, 52.74]	66.45	[65.26, 67.64]	88.21	[87.61, 88.82]
11	deepseek-v3.2	60.27	[59.21, 61.34]	45.81	[44.44, 47.18]	66.64	[65.65, 67.62]	82.83	[82.29, 83.37]
12	grok-4.1	48.47	[47.46, 49.49]	29.87	[28.65, 31.10]	47.51	[46.56, 48.45]	86.64	[85.96, 87.32]

! Attention ! MiniMax-M2-her-4b测评使用的是中文子集，且测评流水线为对官方版本的仿写版本，裁判为glm-5（我也不知道MiniMax-M2-her的评测裁判是什么），得分仅供参考。

但是无论如何，能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗

角色卡:

“混蛋老哥！”“烦死了”
二次元宅女i人，在外面是和陌生人对视都不敢的社恐，在家里就很活泼的女孩，房间堆满了周边，很反感你进她的房间（你是个现充），今天你很无聊，来找她聊天 在外面是话也不敢说，在家里很活泼

第一句话：
（看到你）出去！别让我说第二遍！

用户:

（皱眉）

MiniMax-M2-her-4b-q4 (proposed):

（看到你后下意识往后缩了缩，房间里堆满周边的书架挡住了你的去路，让你进不来）现…现充又怎样，不准进我的房间！（抱紧怀里的手办）

MiniMax-M2-her:

（双手叉腰，瞪着你）怎么？你还敢皱眉？你信不信我……

claude-opus-4.5-highthinking:

（双手叉腰，眼神警惕地盯着你）
皱什么眉啊！我房间又没请你进来，站门口干嘛？

deepseek-v3.1:

（抱紧等身抱枕）烦死了！谁让你进来的！（把脸埋进抱枕里）

gemini-3-pro:

（警惕地把桌上的动漫立牌往怀里揽了揽，一脸嫌弃）
啧，皱眉也没用！快点出去，你身上的现充气息都要熏坏我的“老公”们了！

gpt-5.1:

（对视两秒，又有点心虚地别开眼）
……干嘛？我房门关得好好的，你还非要进来吵人。

本模型不是解锁模型，保留了Qwen3的原始安全对齐策略。

第2章从微调说起 - SFT测试真的是好微调吗

在开源社区和工业界，SFT（有监督微调）几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名：对话内容”的数据，然后期待模型能突然魂穿笔下的角色。

但在构建MiniMax-M2-her-4b的过程中，我们越发感觉到，纯粹的SFT微调不仅是低效的，甚至在通往“真正可用”的角色扮演模型的路上，它的方向从一开始就有些偏移。

2.1 为什么简单的SFT拟合走不远？

不可否认，所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利，但在面对细腻、多变的Role-Play 场景时，它暴露出了三个难以修补的结构性漏洞：

单薄的灵魂投影（TheThinPromptProblem）： 无论是社区广泛流传的Catgirl数据集，还是各大厂商开源的对话语料，其角色设定（SystemPrompt）往往极度单薄。一段典型的SFT 数据往往只有寥寥几句人设描述，剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性：只需要机械地记住了这个名字对应的说话语气，而不需要真正学会理解指令。当用户稍微改变设定，模型便会迅速坍缩回那个“通用的 AI助手”，人设就像披在模型外面的那层表皮。
昂贵的标注与廉价的外援： 传统的SFT依赖高质量的人工标注，但在2026年的今天，大模型的生产力已经发生了质变。截至我写下这份报告时，GLM-5仍在 OpenRouter上以PonyAlpha的名字不限量供应，成本低廉且性能强悍。在这样一个“富矿”时代，如果我们还死守着那几万条静态的、可能已经过时的 SFT语料进行闭门造车，很有可能并不是明智的选择。
对边界感的天然盲区： 这是最核心的问题，也与MiniMax提出的 User Preference（用户偏好） 理念不谋而合。在SFT的损失函数里，每一个token 的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注，模型就会毫无顾忌地继续输出，甚至在某些情况下，直接把NPC替用户说话的内容当成了正确答案。

在SFT语料中，如果训练数据包含了NPC 替用户说话的内容，模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏，这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制，而非简单的“模仿”。

2.2 小模型的宿命是逻辑还是灵魂？

作为一款4B规模的模型，MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭：

逻辑坍缩（Logic Constraint）： 你不能指望一个4B规模的模型像100B级别的大模型那样，能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT 灌输复杂逻辑，模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为，与其让它记忆逻辑，不如为它嵌入一种“隐藏的逻辑一致性”。通过训练让模型具备一种直觉般的偏好、个性和灵魂，让这种“个性”成为其逻辑的锚点，而不是尝试去记忆每一条规则。
多样性的丧失（Diversity Collapse）： SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说，平均值等于平庸，平庸等于出戏。小模型在SFT之后极易出现句式重复（Mode Collapse），这种多样性的匮乏很难通过增加训练的数据量来解决。

2.3 SPPO：基于有监督的进化算法

为了解决上述问题，我们引入了截然不同的训练策略：SPPO（Supervised-PPO）。这是一种融合了遗传学习思路与强化反馈的迭代范式。

2.3.1 工具调用的评审团

我们并不直接使用固定的RewardModel，而是利用 GLM-5(PonyAlpha) 作为核心评审节点。通过特定的工具调用（Tool Calling）形式，GLM-5会模拟RLHF的打分过程，针对模型的每一轮输出进行多维度评估：

RoleConsistency（人设一致性）
IntentResponse（意图响应深度）
InteractionNaturalness（交互自然度）

这种评审机制不仅让模型在训练过程中获得了更细腻的反馈，还强化了模型对“边界感”的理解。它学会了在不越界的前提下，如何更好地满足用户的偏好。

2.3.2 遗传学习与数据回归

在训练过程中，我们摒弃了“一次微调终身受用”的思路，而是引入了类似生物进化的回归机制（Regression Mechanism）。

其核心逻辑如下：

采样与打分： 在当前的训练Epoch中，让模型针对同一Prompt生成多个版本的输出。
优胜劣汰： 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出，我们便标记这一结果。
异步回归： 按照一定的概率，在下下个Epoch（给模型留出消化时间）中，自动删除训练集中原始的低分输出，并将当前这个高分输出（经过对齐后的新灵魂）加入训练集重新训练。

这种方式让MiniMax-M2-her-4b在训练过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿，而是在一个不断进化的反馈场中，通过筛选更符合用户偏好的瞬间，来构建自己独特的表达风格。通过这种策略，我们成功地在4B的参数空间内，实现了一种极具张力的多样性。它不仅学会了如何说话，更学会了如何在不越界的前提下，读懂用户那句“哼，才没有”背后隐藏的千言万语。

第3章 MiniMax-M2-her-4b是如何构建的

如果说SPPO是塑造灵魂的方法论，那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中，我们放弃了传统的“闭源模型蒸馏”捷径，转而探索了一条完全基于开源生态的数据构建之路。

3.1 数据来源

在当前的开源模型界，存在一种不成文的“潜规则”：使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为，开源不仅仅是把权重扔到HuggingFace上，更是对知识产权和开源协议的尊重。因此，我们的数据集构建遵循严苛的协议导向，基底数据完全来源于role-play-bench官方数据集。

我们坚信，不主动蒸馏闭源条款的模型，完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen)，是对* *所有人的一种尊重**，也是开源社区能够良性发展的基石。

3.2 AgenticDataSynthesis：基于RAG的风格迁移

为了让4B模型获得“her”一般细腻的对话风格，我们复刻并改良了Minimax的数据流水线。但这套Agentic Data Synthesis（代理数据合成）系统并非由黑盒API驱动，而是完全由GLM-5驱动。

3.2.1 流水线核心逻辑：以RAG为笔，重绘风格

我们并未将GLM-5当作一个冰冷的文本生成器，而是通过RAG（检索增强生成）策略，将其转化为一位极具模仿天赋的“画师”。

风格锚定（Retrieve）： 每当系统处理一个Role-Play场景时，首先会在Minimax开源数据集中进行深潜，打捞出语义最契合、且最具代表性的对话切片。
灵魂复刻（Generate）： 这些打捞出的切片被作为“Style Reference”（风格参照）投喂给GLM-5。我们要求模型不仅要生成回复，更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。

这种方法如同为模型借来了一双“大师之手”，让我们以极低的算力成本，批量重构了大量既保留了Minimax官方神韵，又具备全新内容维度的高质量语料。

3.2.2 多样性保障：告别重复的“耗尽机制”

为了防止RAG检索陷入路径依赖，导致模型像鹦鹉学舌般反复咀嚼同样的句式，我们设计了Exhaust（耗尽）机制。

这是一道强制性的防重复闸门：任何一条原始的交互数据，一旦被检索并作为“参考样本”被选中超过N次，就会被强制移出检索池。这种机制迫使系统走出舒适区，去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”，确保了合成数据的色谱足够宽广，让每一次对话都充满新鲜感。

第4章未来做什么？—— 从“她的”故事到“你的”世界

如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂，那么下一阶段的命题，是如何让这个灵魂走出实验室，在每一位用户的本地设备上生长出属于自己的 Worldplay。

回顾前文，我们通过 SPPO 解决了“边界感”问题，通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的 4B 模型而言，Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观，而是追求一种 “轻量化核心 + 外挂式记忆” 的全新生态。

首先是记忆的解耦与世界的无限化（Infinite World on Edge）。 正如第 2.2 节提到的“逻辑坍缩”，强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离，构建一套适配小模型的 端侧 RAG 显性记忆系统。模型不再需要死记硬背“谁杀了谁”，而是通过检索增强，像查阅攻略一样即时获取当前剧情的状态。这意味着，哪怕是 4B 的小模型，配合高效的本地向量库，也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界，而是携带一个可随时读写、无限扩展的外部世界数据库，与模型共同冒险。

其次是进化的私有化：On-Device SPPO。 在第 2.3 章中，我们使用 GLM-5 作为评审团进行云端进化。未来，我们希望将这套机制下放。得益于 4B 模型极低的推理成本，我们计划探索 端侧偏好优化（On-Device Preference Optimization）。想象一下，模型不再依赖通用的 Reward Model，而是通过用户每一次的点赞、重试或修改，在本地悄悄进行微型的梯度更新。你的模型，将完全由你的偏好所驯化。这将彻底打破 SFT 带来的“千人一面”，让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣，真正读懂你那句“哼，才没有”背后的专属含义。

最后，是开源生态的“风格众筹”。 我们拒绝了闭源蒸馏，选择了构建 Agentic Data Synthesis 流水线（第 3.2 章）。但这不仅是我们自己的流水线，它更应成为社区的公共设施。未来，我们将尝试开源这套合成框架，邀请社区共同构建 **分布式风格检索池 ** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子，并结合 Exhaust 机制避免同质化，4B 模型将获得超越任何单一厂商想象力的性格光谱。

我们相信，开源的尽头不是免费的代码，而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上，MiniMax-M2-her-4b 只是一个开始。