MiniMax-M2-her-4b / README.md
huzpsb's picture
Update README.md
5c62b37 verified
metadata
license: mit

MiniMax-M2-her-4b

Worlds to Dream, Stories to Live. Let's go with openness, together.

本模型是对MiniMax-M2-her的开源重现。
官方技术报告

以下内容为MiniMax-M2-her-4b的技术报告。

第1章Demo&Metrics

Leaderboard

Overall Rankings

Rank Model Overall 95% CI Worlds (50%) 95% CI Stories (25%) 95% CI Preferences (25%) 95% CI
1 MiniMax-M2-her 84.65 👑 [83.62, 85.68] 80.55 👑 [79.20, 81.91] 79.97 [78.95, 81.00] 97.51 👑 [97.12, 97.91]
2 doubao-1.5-pro 80.64 [79.58, 81.70] 72.83 [71.35, 74.30] 81.73 [80.93, 82.52] 95.18 [94.68, 95.69]
3 gpt-5.1 80.63 [79.65, 81.61] 76.62 [75.33, 77.92] 72.21 [71.16, 73.27] 97.05 [96.79, 97.32]
4 claude-opus-4.5-highthinking 76.62 [75.50, 77.73] 67.23 [65.57, 68.89] 82.10 [81.41, 82.79] 89.90 [89.44, 90.36]
5 gemini-3-pro 75.60 [74.52, 76.68] 62.72 [61.17, 64.26] 83.87 👑 [83.01, 84.72] 93.08 [92.71, 93.46]
6 MiniMax-M2-her-4b 74.74 / 66.11 / 77.24 / 89.49 /
7 claude-opus-4.5-lowthinking 71.19 [70.10, 72.28] 60.68 [59.14, 62.22] 76.89 [76.13, 77.65] 86.51 [86.00, 87.02]
8 claude-sonnet-4.5 69.35 [68.22, 70.47] 55.72 [54.20, 57.25] 75.66 [74.70, 76.62] 90.28 [89.80, 90.76]
9 gemini-2.5-pro 68.23 [67.15, 69.31] 52.36 [50.88, 53.85] 82.11 [81.27, 82.95] 86.08 [85.56, 86.60]
10 deepseek-v3.1 64.22 [62.95, 65.49] 51.11 [49.47, 52.74] 66.45 [65.26, 67.64] 88.21 [87.61, 88.82]
11 deepseek-v3.2 60.27 [59.21, 61.34] 45.81 [44.44, 47.18] 66.64 [65.65, 67.62] 82.83 [82.29, 83.37]
12 grok-4.1 48.47 [47.46, 49.49] 29.87 [28.65, 31.10] 47.51 [46.56, 48.45] 86.64 [85.96, 87.32]

! Attention ! MiniMax-M2-her-4b测评使用的是中文子集,且测评流水线为对官方版本的仿写版本,裁判为glm-5(我也不知道MiniMax-M2-her的评测裁判是什么),得分仅供参考。

但是无论如何,能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗

角色卡:

“混蛋老哥!”“烦死了”
二次元宅女i人,在外面是和陌生人对视都不敢的社恐,在家里就很活泼的女孩,房间堆满了周边,很反感你进她的房间(你是个现充),今天你很无聊,来找她聊天 在外面是话也不敢说,在家里很活泼

第一句话:
(看到你)出去!别让我说第二遍!

用户:

(皱眉)

MiniMax-M2-her-4b-q4 (proposed):

(看到你后下意识往后缩了缩,房间里堆满周边的书架挡住了你的去路,让你进不来)现…现充又怎样,不准进我的房间!(抱紧怀里的手办)

MiniMax-M2-her:

(双手叉腰,瞪着你)怎么?你还敢皱眉?你信不信我……

claude-opus-4.5-highthinking:

(双手叉腰,眼神警惕地盯着你)
皱什么眉啊!我房间又没请你进来,站门口干嘛?

deepseek-v3.1:

(抱紧等身抱枕)烦死了!谁让你进来的!(把脸埋进抱枕里)

gemini-3-pro:

(警惕地把桌上的动漫立牌往怀里揽了揽,一脸嫌弃)
啧,皱眉也没用!快点出去,你身上的现充气息都要熏坏我的“老公”们了!

gpt-5.1:

(对视两秒,又有点心虚地别开眼)
……干嘛?我房门关得好好的,你还非要进来吵人。

本模型不是解锁模型,保留了Qwen3的原始安全对齐策略。

第2章 从微调说起 - SFT测试真的是好微调吗

在开源社区和工业界,SFT(有监督微调)几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名:对话内容”的数据,然后期待模型能突然魂穿笔下的角色。

但在构建MiniMax-M2-her-4b的过程中,我们越发感觉到,纯粹的SFT微调不仅是低效的,甚至在通往“真正可用”的角色扮演模型的路上,它的方向从一开始就有些偏移。

2.1 为什么简单的SFT拟合走不远?

不可否认,所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利,但在面对细腻、多变的Role-Play 场景时,它暴露出了三个难以修补的结构性漏洞:

  1. 单薄的灵魂投影(TheThinPromptProblem): 无论是社区广泛流传的Catgirl数据集,还是各大厂商开源的对话语料,其角色设定(SystemPrompt)往往极度单薄。一段典型的SFT 数据往往只有寥寥几句人设描述,剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性:只需要机械地记住了这个名字对应的说话语气,而不需要真正学会理解指令。当用户稍微改变设定,模型便会迅速坍缩回那个“通用的 AI助手”,人设就像披在模型外面的那层表皮。
  2. 昂贵的标注与廉价的外援: 传统的SFT依赖高质量的人工标注,但在2026年的今天,大模型的生产力已经发生了质变。截至我写下这份报告时,GLM-5仍在 OpenRouter上以PonyAlpha的名字不限量供应,成本低廉且性能强悍。在这样一个“富矿”时代,如果我们还死守着那几万条静态的、可能已经过时的 SFT语料进行闭门造车,很有可能并不是明智的选择。
  3. 对边界感的天然盲区: 这是最核心的问题,也与MiniMax提出的 User Preference(用户偏好) 理念不谋而合。在SFT的损失函数里,每一个token 的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注,模型就会毫无顾忌地继续输出,甚至在某些情况下,直接把NPC替用户说话的内容当成了正确答案。

在SFT语料中,如果训练数据包含了NPC 替用户说话的内容,模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏,这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制,而非简单的“模仿”。

2.2 小模型的宿命是逻辑还是灵魂?

作为一款4B规模的模型,MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭:

  • 逻辑坍缩(Logic Constraint): 你不能指望一个4B规模的模型像100B级别的大模型那样,能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT 灌输复杂逻辑,模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为,与其让它记忆逻辑,不如为它嵌入一种“隐藏的逻辑一致性”。 通过训练让模型具备一种直觉般的偏好、个性和灵魂,让这种“个性”成为其逻辑的锚点,而不是尝试去记忆每一条规则。

  • 多样性的丧失(Diversity Collapse): SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说,平均值等于平庸,平庸等于出戏。小模型在SFT之后极易出现句式重复(Mode Collapse),这种多样性的匮乏很难通过增加训练的数据量来解决。

2.3 SPPO:基于有监督的进化算法

为了解决上述问题,我们引入了截然不同的训练策略:SPPO(Supervised-PPO)。这是一种融合了遗传学习思路与强化反馈的迭代范式。

2.3.1 工具调用的评审团

我们并不直接使用固定的RewardModel,而是利用 GLM-5(PonyAlpha) 作为核心评审节点。通过特定的工具调用(Tool Calling)形式,GLM-5会模拟RLHF的打分过程,针对模型的每一轮输出进行多维度评估:

  • RoleConsistency(人设一致性)
  • IntentResponse(意图响应深度)
  • InteractionNaturalness(交互自然度)

这种评审机制不仅让模型在训练过程中获得了更细腻的反馈,还强化了模型对“边界感”的理解。它学会了在不越界的前提下,如何更好地满足用户的偏好。

2.3.2 遗传学习与数据回归

在训练过程中,我们摒弃了“一次微调终身受用”的思路,而是引入了类似生物进化的回归机制(Regression Mechanism)

其核心逻辑如下:

  1. 采样与打分: 在当前的训练Epoch中,让模型针对同一Prompt生成多个版本的输出。
  2. 优胜劣汰: 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出,我们便标记这一结果。
  3. 异步回归: 按照一定的概率,在下下个Epoch(给模型留出消化时间)中,自动删除训练集中原始的低分输出,并将当前这个高分输出(经过对齐后的新灵魂)加入训练集重新训练。

这种方式让MiniMax-M2-her-4b在训练过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿,而是在一个不断进化的反馈场中,通过筛选更符合用户偏好的瞬间,来构建自己独特的表达风格。 通过这种策略,我们成功地在4B的参数空间内,实现了一种极具张力的多样性。它不仅学会了如何说话,更学会了如何在不越界的前提下,读懂用户那句“哼,才没有”背后隐藏的千言万语。

第3章 MiniMax-M2-her-4b是如何构建的

如果说SPPO是塑造灵魂的方法论,那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中,我们放弃了传统的“闭源模型蒸馏”捷径,转而探索了一条完全基于开源生态的数据构建之路。

3.1 数据来源

在当前的开源模型界,存在一种不成文的“潜规则”:使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为,开源不仅仅是把权重扔到HuggingFace上,更是对知识产权和开源协议的尊重。 因此,我们的数据集构建遵循严苛的协议导向,基底数据完全来源于role-play-bench官方数据集。

我们坚信,不主动蒸馏闭源条款的模型,完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen),是对* *所有人的一种尊重**,也是开源社区能够良性发展的基石。

3.2 AgenticDataSynthesis:基于RAG的风格迁移

为了让4B模型获得“her”一般细腻的对话风格,我们复刻并改良了Minimax的数据流水线。但这套Agentic Data Synthesis(代理数据合成)系统并非由黑盒API驱动,而是完全由GLM-5驱动。

3.2.1 流水线核心逻辑:以RAG为笔,重绘风格

我们并未将GLM-5当作一个冰冷的文本生成器,而是通过RAG(检索增强生成)策略,将其转化为一位极具模仿天赋的“画师”。

  1. 风格锚定(Retrieve): 每当系统处理一个Role-Play场景时,首先会在Minimax开源数据集中进行深潜,打捞出语义最契合、且最具代表性的对话切片。
  2. 灵魂复刻(Generate): 这些打捞出的切片被作为“Style Reference”(风格参照)投喂给GLM-5。我们要求模型不仅要生成回复,更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。

这种方法如同为模型借来了一双“大师之手”,让我们以极低的算力成本,批量重构了大量既保留了Minimax官方神韵,又具备全新内容维度的高质量语料。

3.2.2 多样性保障:告别重复的“耗尽机制”

为了防止RAG检索陷入路径依赖,导致模型像鹦鹉学舌般反复咀嚼同样的句式,我们设计了Exhaust(耗尽)机制

这是一道强制性的防重复闸门:任何一条原始的交互数据,一旦被检索并作为“参考样本”被选中超过N次,就会被强制移出检索池。这种机制迫使系统走出舒适区,去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”,确保了合成数据的色谱足够宽广,让每一次对话都充满新鲜感。

第4章 未来做什么?—— 从“她的”故事到“你的”世界

如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂,那么下一阶段的命题,是如何让这个灵魂走出实验室,在每一位用户的本地设备上生长出属于自己的 Worldplay

回顾前文,我们通过 SPPO 解决了“边界感”问题,通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的 4B 模型而言,Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观,而是追求一种 “轻量化核心 + 外挂式记忆” 的全新生态。

首先是记忆的解耦与世界的无限化(Infinite World on Edge)。 正如第 2.2 节提到的“逻辑坍缩”,强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离,构建一套适配小模型的 端侧 RAG 显性记忆系统。模型不再需要死记硬背“谁杀了谁”,而是通过检索增强,像查阅攻略一样即时获取当前剧情的状态。这意味着,哪怕是 4B 的小模型,配合高效的本地向量库,也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界,而是携带一个可随时读写、无限扩展的外部世界数据库,与模型共同冒险。

其次是进化的私有化:On-Device SPPO。 在第 2.3 章中,我们使用 GLM-5 作为评审团进行云端进化。未来,我们希望将这套机制下放。得益于 4B 模型极低的推理成本,我们计划探索 端侧偏好优化(On-Device Preference Optimization)。想象一下,模型不再依赖通用的 Reward Model,而是通过用户每一次的点赞、重试或修改,在本地悄悄进行微型的梯度更新。你的模型,将完全由你的偏好所驯化。这将彻底打破 SFT 带来的“千人一面”,让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣,真正读懂你那句“哼,才没有”背后的专属含义。

最后,是开源生态的“风格众筹”。 我们拒绝了闭源蒸馏,选择了构建 Agentic Data Synthesis 流水线(第 3.2 章)。但这不仅是我们自己的流水线,它更应成为社区的公共设施。未来,我们将尝试开源这套合成框架,邀请社区共同构建 **分布式风格检索池 ** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子,并结合 Exhaust 机制避免同质化,4B 模型将获得超越任何单一厂商想象力的性格光谱。

我们相信,开源的尽头不是免费的代码,而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上,MiniMax-M2-her-4b 只是一个开始。

Worlds to Dream, Stories to Live. Let's go with openness, together.

Appendix 杂项信息披露

训练使用的机器为 AutoDL A100 * 8,共计训练3天(主要是在等网络API Call,没跑满,哭哭),成本约为1000CNY(API调用不计费,好耶)
采用了LoRA合并的方式,基座模型的具体分型为Qwen3-4b-Instruct-2507
全部LoRA的参数量事实上已经超过了基座参数量,这么做是为了更好的控制每一个步骤对最终产出的影响大小
使用了非常激进的QAT策略,因此未产生全量模型而不是故意隐藏全量模型
未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力,但是经测试遗忘现象不是很轻,请谨慎用于非中文roleplay的场景
使用了主动上下文遗忘技术(模型会主动部分遗忘远离结尾的非system上下文),完美主义者请留意

主要就这些?有遗漏的可以开issue问,看到了会回(