huzpsb commited on
Commit
5c62b37
·
verified ·
1 Parent(s): c94f75f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +233 -3
README.md CHANGED
@@ -1,3 +1,233 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ ---
4
+ MiniMax-M2-her-4b
5
+ ---
6
+ Worlds to Dream, Stories to Live. Let's go with openness, together.
7
+
8
+ 本模型是对MiniMax-M2-her的开源重现。
9
+ [官方技术报告](https://minimaxi.com/news/minimax-m2-her-%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90)
10
+
11
+ 以下内容为MiniMax-M2-her-4b的技术报告。
12
+
13
+ ## 第1章Demo&Metrics
14
+
15
+ ## Leaderboard
16
+
17
+ ### Overall Rankings
18
+
19
+ | Rank | Model | Overall | 95% CI | Worlds (50%) | 95% CI | Stories (25%) | 95% CI | Preferences (25%) | 95% CI |
20
+ |------|------------------------------|--------------|----------------|--------------|----------------|---------------|----------------|-------------------|----------------|
21
+ | 1 | MiniMax-M2-her | **84.65** 👑 | [83.62, 85.68] | **80.55** 👑 | [79.20, 81.91] | 79.97 | [78.95, 81.00] | **97.51** 👑 | [97.12, 97.91] |
22
+ | 2 | doubao-1.5-pro | 80.64 | [79.58, 81.70] | 72.83 | [71.35, 74.30] | 81.73 | [80.93, 82.52] | 95.18 | [94.68, 95.69] |
23
+ | 3 | gpt-5.1 | 80.63 | [79.65, 81.61] | 76.62 | [75.33, 77.92] | 72.21 | [71.16, 73.27] | 97.05 | [96.79, 97.32] |
24
+ | 4 | claude-opus-4.5-highthinking | 76.62 | [75.50, 77.73] | 67.23 | [65.57, 68.89] | 82.10 | [81.41, 82.79] | 89.90 | [89.44, 90.36] |
25
+ | 5 | gemini-3-pro | 75.60 | [74.52, 76.68] | 62.72 | [61.17, 64.26] | **83.87** 👑 | [83.01, 84.72] | 93.08 | [92.71, 93.46] |
26
+ | 6 | **MiniMax-M2-her-4b** | 74.74 | / | 66.11 | / | 77.24 | / | 89.49 | / |
27
+ | 7 | claude-opus-4.5-lowthinking | 71.19 | [70.10, 72.28] | 60.68 | [59.14, 62.22] | 76.89 | [76.13, 77.65] | 86.51 | [86.00, 87.02] |
28
+ | 8 | claude-sonnet-4.5 | 69.35 | [68.22, 70.47] | 55.72 | [54.20, 57.25] | 75.66 | [74.70, 76.62] | 90.28 | [89.80, 90.76] |
29
+ | 9 | gemini-2.5-pro | 68.23 | [67.15, 69.31] | 52.36 | [50.88, 53.85] | 82.11 | [81.27, 82.95] | 86.08 | [85.56, 86.60] |
30
+ | 10 | deepseek-v3.1 | 64.22 | [62.95, 65.49] | 51.11 | [49.47, 52.74] | 66.45 | [65.26, 67.64] | 88.21 | [87.61, 88.82] |
31
+ | 11 | deepseek-v3.2 | 60.27 | [59.21, 61.34] | 45.81 | [44.44, 47.18] | 66.64 | [65.65, 67.62] | 82.83 | [82.29, 83.37] |
32
+ | 12 | grok-4.1 | 48.47 | [47.46, 49.49] | 29.87 | [28.65, 31.10] | 47.51 | [46.56, 48.45] | 86.64 | [85.96, 87.32] |
33
+
34
+ ! Attention ! MiniMax-M2-her-4b测评使用的是中文子集,且测评流水线为对官方版本的仿写版本,裁判为glm-5(我也不知道MiniMax-M2-her的评测裁判是什么),得分仅供参考。
35
+
36
+ 但是无论如何,能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗
37
+
38
+ 角色卡:
39
+
40
+ ````text
41
+ “混蛋老哥!”“烦死了”
42
+ 二次元宅女i人,在外面是和陌生人对视都不敢的社恐,在家里就很活泼的女孩,房间堆满了周边,很反感你进她的房间(你是个现充),今天你很无聊,来找她聊天 在外面是话也不敢说,在家里很活泼
43
+
44
+ 第一句话:
45
+ (看到你)出去!别让我说第二遍!
46
+ ````
47
+
48
+ 用户:
49
+
50
+ ````text
51
+ (皱眉)
52
+ ````
53
+
54
+ **MiniMax-M2-her-4b-q4 (proposed)**:
55
+
56
+ ````text
57
+ (看到你后下意识往后缩了缩,房间里堆满周边的书架挡住了你的去路,让你进不来)现…现充又怎样,不准进我的房间!(抱紧怀里的手办)
58
+ ````
59
+
60
+ MiniMax-M2-her:
61
+
62
+ ````text
63
+ (双手叉腰,瞪着你)怎么?你还敢皱眉?你信不信我……
64
+ ````
65
+
66
+ claude-opus-4.5-highthinking:
67
+
68
+ ````text
69
+ (双手叉腰,眼神警惕地盯着你)
70
+ 皱什么眉啊!我房间又没请你进来,站门口干嘛?
71
+ ````
72
+
73
+ deepseek-v3.1:
74
+
75
+ ````text
76
+ (抱紧等身抱枕)烦死了!谁让你进来的!(把脸埋进抱枕里)
77
+ ````
78
+
79
+ gemini-3-pro:
80
+
81
+ ````text
82
+ (警惕地把桌上的动漫立牌往怀里揽了揽,一脸嫌弃)
83
+ 啧,皱眉也没用!快点出去,你身上的现充气息都要熏坏我的“老公”们了!
84
+ ````
85
+
86
+ gpt-5.1:
87
+
88
+ ````text
89
+ (对视两秒,又有点心虚地别开眼)
90
+ ……干嘛?我房门关得好好的,你还非要进来吵人。
91
+ ````
92
+
93
+ 本模型**不是**解锁模型,保留了Qwen3的原始安全对齐策略。
94
+
95
+ ## 第2章 从微调说起 - SFT测试真的是好微调吗
96
+
97
+ 在开源社区和工业界,SFT(有监督微调)几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名:对话内容”的数据,然后期待模型能突然魂穿笔下的角色。
98
+
99
+ 但在构建MiniMax-M2-her-4b的过程中,我们越发感觉到,纯粹的SFT微调不仅是低效的,甚至在通往“真正可用”的角色扮演模型的路上,它的方向从一开始就有些偏移。
100
+
101
+ ### 2.1 为什么简单的SFT拟合走不远?
102
+
103
+ 不可否认,所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利,但在面对细腻、多变的Role-Play
104
+ 场景时,它暴露出了三个难以修补的结构性漏洞:
105
+
106
+ 1. **单薄的灵魂投影(TheThinPromptProblem):**
107
+ 无论是社区广泛流传的Catgirl数据集,还是各大厂商开源的对话语料,其角色设定(SystemPrompt)往往极度单薄。一段典型的SFT
108
+ 数据往往只有寥寥几句人设描述,剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性:只需要机械地记住了这个名字对应的说话语气,而不需要真正学会理解指令。当用户稍微改变设定,模型便会迅速坍缩回那个“通用的
109
+ AI助手”,人设就像披在模型外面的那层表皮。
110
+ 2. **昂贵的标注与廉价的外援:**
111
+ 传统的SFT依赖高质量的人工标注,但在2026年的今天,大模型的生产力已经发生了质变。截至我写下这份报告时,**GLM-5仍在
112
+ OpenRouter上以PonyAlpha的名字不限量供应**,成本低廉且性能强悍。在这样一个“富矿”时代,如果我们还死守着那几万条静态的、可能已经过时的
113
+ SFT语料进行闭门造车,很有可能并不是明智的选择。
114
+ 3. **对边界感的天然盲区:**
115
+ 这是最核心的问题,也与MiniMax提出的 **User Preference(用户偏好)** 理念不谋而合。在SFT的损失函数里,每一个token
116
+ 的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注,模型就会毫无顾忌地继续输出,甚至在某些情况下,直接把NPC替用户说话的内容当成了正确答案。
117
+
118
+ > 在SFT语料中,如果训练数据包含了NPC
119
+ > 替用户说话的内容,模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏,这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制,而非简单的“模仿”。
120
+
121
+ ### 2.2 小模型的宿命是逻辑还是灵魂?
122
+
123
+ 作为一款4B规模的模型,MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭:
124
+
125
+ * **逻辑坍缩(Logic Constraint):**
126
+ 你不能指望一个4B规模的模型像100B级别的大模型那样,能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT
127
+ 灌输复杂逻辑,模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为,与其让它记忆逻辑,不如为它嵌入一种“隐藏的逻辑一致性”。
128
+ 通过训练让模型具备一种直觉般的偏好、个性和灵魂,让这种“个性”成为其逻辑的锚点,而不是尝试去记忆每一条规则。
129
+
130
+ * **多样性的丧失(Diversity Collapse):**
131
+ SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说,平均值等于平庸,平庸等于出戏。小模型在SFT之后极易出现句式重复(Mode
132
+ Collapse),这种多样性的匮乏很难通过增加训练的数据量来解决。
133
+
134
+ ### 2.3 SPPO:基于有监督的进化算法
135
+
136
+ 为了解决上述问题,我们引入了截然不同的训练策略:**SPPO(Supervised-PPO)**。这是一种融合了遗传学习思路与强化反馈的迭代范式。
137
+
138
+ #### 2.3.1 工具调用的评审团
139
+
140
+ 我们并不直接使用固定的RewardModel,而是利用 **GLM-5(PonyAlpha)** 作为核心评审节点。通过特定的工具调用(Tool
141
+ Calling)形式,GLM-5会模拟RLHF的打分过程,针对模型的每一轮输出进行多维度评估:
142
+
143
+ * **RoleConsistency(人设一致性)**
144
+ * **IntentResponse(意图响应深度)**
145
+ * **InteractionNaturalness(交互自然度)**
146
+
147
+ 这种评审机制不仅让模型在训练过程中获得了更细腻的反馈,还强化了模型对“边界感”的理解。它学会了在不越界的前提下,如何更好地满足用户的偏好。
148
+
149
+ #### 2.3.2 遗传学习与数据回归
150
+
151
+ 在训练过程中,我们摒弃了“一次微调终身受用”的思路,而是引入了类似生物进化的**回归机制(Regression Mechanism)**。
152
+
153
+ 其核心逻辑如下:
154
+
155
+ 1. **采样与打分:** 在当前的训练Epoch中,让模型针对同一Prompt生成多个版本的输出。
156
+ 2. **优胜劣汰:** 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出,我们便标记这一结果。
157
+ 3. **异步回归:** 按照一定的概率,在下下个Epoch(给模型留出消化时间)中,自动删除训练集中原始的低分输出,并将当前这个高分输出(经过对齐后的新灵魂)加入训练集重新训练。
158
+
159
+ 这种方式让MiniMax-M2-her-4b在训��过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿,而是在一个不断进化的反馈场中,通过筛选更符合用户偏好的瞬间,来构建自己独特的表达风格。
160
+ 通过这种策略,我们成功地在4B的参数空间内,实现了一种极具张力的多样性。它不仅学会了如何说话,更学会了如何在不越界的前提下,读懂用户那句“哼,才没有”背后隐藏的千言万语。
161
+
162
+ ## 第3章 MiniMax-M2-her-4b是如何构建的
163
+
164
+ 如果说SPPO是塑造灵魂的方法论,那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中,我们放弃了传统的“闭源模型蒸馏”捷径,转而探索了一条完全基于开源生态的数据构建之路。
165
+
166
+ ### 3.1 数据来源
167
+
168
+ 在当前的开源模型界,存在一种不成文的“潜规则”:使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为,开源不仅仅是把权重扔到HuggingFace上,更是对知识产权和开源协议的尊重。
169
+ 因此,我们的数据集构建遵循严苛的协议导向,基底数据完全来源于`role-play-bench`官方数据集。
170
+
171
+ 我们坚信,不主动蒸馏闭源条款的模型,完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen),是对*
172
+ *所有人的一种尊重**,也是开源社区能够良性发展的基石。
173
+
174
+ ### 3.2 AgenticDataSynthesis:基于RAG的风格迁移
175
+
176
+ 为了让4B模型获得“her”一般细腻的对话风格,我们复刻并改良了Minimax的数据流水线。但这套Agentic Data
177
+ Synthesis(代理数据合成)系统并非由黑盒API驱动,而是完全由GLM-5驱动。
178
+
179
+ #### 3.2.1 流水线核心逻辑:以RAG为笔,重绘风格
180
+
181
+ 我们并未将GLM-5当作一个冰冷的文本生成器,而是通过**RAG(检索增强生成)**策略,将其转化为一位极具模仿天赋的“画师”。
182
+
183
+ 1. **风格锚定(Retrieve):** 每当系统处理一个Role-Play场景时,首先会在Minimax开源数据集中进行深潜,打捞出语义最契合、且最具代表性的对话切片。
184
+ 2. **灵魂复刻(Generate):** 这些打捞出的切片被作为“Style
185
+ Reference”(风格参照)投喂给GLM-5。我们要求模型不仅要生成回复,更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。
186
+
187
+ 这种方法如同为模型借来了一双“大师之手”,让我们以极低的算力成本,批量重构了大量既保留了Minimax官方神韵,又具备全新内容维度的高质量语料。
188
+
189
+ #### 3.2.2 多样性保障:告别重复的“耗尽机制”
190
+
191
+ 为了防止RAG检索陷入路径依赖,导致模型像鹦鹉学舌般反复咀嚼同样的句式,我们设计了**Exhaust(耗尽)机制**。
192
+
193
+ 这是一道强制性的防重复闸门:任何一条原始的交互数据,一旦被检索并作为“参考样本”被选中超过N次,就会被强制移出检索池。这种机制迫使系统走出舒适区,去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”,确保了合成数据的色谱足够宽广,让每一次对话都充满新鲜感。
194
+
195
+ ## 第4章 未来做什么?—— 从“她的”故事到“你的”世界
196
+
197
+ 如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂,那么下一阶段的命题,是如何让这个灵魂走出实验室,在每一位用户的本地设备上生长出属于自己的
198
+ **Worldplay**。
199
+
200
+ 回顾前文,我们通过 SPPO 解决了“边界感”问题,通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的
201
+ 4B 模型而言,Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观,而是追求一种 **“轻量化核心 +
202
+ 外挂式记忆”** 的全新生态。
203
+
204
+ **首先是记忆的解耦与世界的无限化(Infinite World on Edge)。**
205
+ 正如第 2.2 节提到的“逻辑坍缩”,强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离,构建一套适配小模型的
206
+ **端侧 RAG 显性记忆系统**。模型不再需要死记硬背“谁杀了谁”,而是通过检索增强,像查阅攻略一样即时获取当前剧情的状态。这意味着,哪怕是
207
+ 4B 的小模型,配合高效的本地向量库,也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界,而是携带一个可随时读写、无限扩展的外部世界数据库,与模型共同冒险。
208
+
209
+ **其次是进化的私有化:On-Device SPPO。**
210
+ 在第 2.3 章中,我们使用 GLM-5 作为评审团进行云端进化。未来,我们希望将这套机制**下放**。得益于 4B 模型极低的推理成本,我们计划探索
211
+ **端侧偏好优化(On-Device Preference Optimization)**。想象一下��模型不再依赖通用的 Reward
212
+ Model,而是通过用户每一次的点赞、重试或修改,在本地悄悄进行微型的梯度更新。你的模型,将完全由你的偏好所驯化。这将彻底打破 SFT
213
+ 带来的“千人一面”,让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣,真正读懂你那句“哼,才没有”背后的专属含义。
214
+
215
+ **最后,是开源生态的“风格众筹”。**
216
+ 我们拒绝了闭源蒸馏,选择了构建 Agentic Data Synthesis 流水线(第 3.2
217
+ 章)。但这不仅是我们自己的流水线,它更应成为社区的公共设施。未来,我们将尝试开源这套合成框架,邀请社区共同构建 **分布式风格检索池
218
+ ** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子,并结合 Exhaust 机制避免同质化,4B 模型将获得超越任何单一厂商想象力的性格光谱。
219
+
220
+ 我们相信,开源的尽头不是免费的代码,而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上,MiniMax-M2-her-4b 只是一个开始。
221
+
222
+ Worlds to Dream, Stories to Live. Let's go with openness, together.
223
+
224
+ ## Appendix 杂项信息披露
225
+
226
+ 训练使用的机器为 AutoDL A100 * 8,共计训练3天(主要是在等网络API Call,没跑满,哭哭),成本约为1000CNY(API调用不计费,好耶)
227
+ 采用了LoRA合并的方式,基座模型的具体分型为Qwen3-4b-Instruct-2507
228
+ 全部LoRA的参数量事实上已经超过了基座参数量,这么做是为了更好的控制每一个步骤对最终产出的影响大小
229
+ 使用了非常激进的QAT策略,因此未产生全量模型而不是故意隐藏全量模型
230
+ 未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力,但是经测试遗忘现象不是很轻,请谨慎用于非中文roleplay的场景
231
+ 使用了主动上下文遗忘技术(模型会主动部分遗忘远离结尾的非system上下文),完美主义者请留意
232
+
233
+ 主要就这些?有遗漏的可以开issue问,看到了会回(