huzpsb
/

MiniMax-M2-her-4b

GGUF

conversational

Model card Files Files and versions

xet

Community

huzpsb commited on Feb 14

Commit

5c62b37

verified ·

1 Parent(s): c94f75f

Update README.md

Browse files

Files changed (1) hide show

README.md +233 -3

README.md CHANGED Viewed

@@ -1,3 +1,233 @@
----
-license: mit
----

+---
+license: mit
+---
+MiniMax-M2-her-4b
+---
+Worlds to Dream, Stories to Live. Let's go with openness, together.
+本模型是对MiniMax-M2-her的开源重现。
+[官方技术报告](https://minimaxi.com/news/minimax-m2-her-%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90)
+以下内容为MiniMax-M2-her-4b的技术报告。
+## 第1章Demo&Metrics
+## Leaderboard
+### Overall Rankings
+| Rank | Model                        | Overall      | 95% CI         | Worlds (50%) | 95% CI         | Stories (25%) | 95% CI         | Preferences (25%) | 95% CI         |
+|------|------------------------------|--------------|----------------|--------------|----------------|---------------|----------------|-------------------|----------------|
+| 1    | MiniMax-M2-her               | **84.65** 👑 | [83.62, 85.68] | **80.55** 👑 | [79.20, 81.91] | 79.97         | [78.95, 81.00] | **97.51** 👑      | [97.12, 97.91] |
+| 2    | doubao-1.5-pro               | 80.64        | [79.58, 81.70] | 72.83        | [71.35, 74.30] | 81.73         | [80.93, 82.52] | 95.18             | [94.68, 95.69] |
+| 3    | gpt-5.1                      | 80.63        | [79.65, 81.61] | 76.62        | [75.33, 77.92] | 72.21         | [71.16, 73.27] | 97.05             | [96.79, 97.32] |
+| 4    | claude-opus-4.5-highthinking | 76.62        | [75.50, 77.73] | 67.23        | [65.57, 68.89] | 82.10         | [81.41, 82.79] | 89.90             | [89.44, 90.36] |
+| 5    | gemini-3-pro                 | 75.60        | [74.52, 76.68] | 62.72        | [61.17, 64.26] | **83.87** 👑  | [83.01, 84.72] | 93.08             | [92.71, 93.46] |
+| 6    | **MiniMax-M2-her-4b**        | 74.74        | /              | 66.11        | /              | 77.24         | /              | 89.49             | /              |
+| 7    | claude-opus-4.5-lowthinking  | 71.19        | [70.10, 72.28] | 60.68        | [59.14, 62.22] | 76.89         | [76.13, 77.65] | 86.51             | [86.00, 87.02] |
+| 8    | claude-sonnet-4.5            | 69.35        | [68.22, 70.47] | 55.72        | [54.20, 57.25] | 75.66         | [74.70, 76.62] | 90.28             | [89.80, 90.76] |
+| 9    | gemini-2.5-pro               | 68.23        | [67.15, 69.31] | 52.36        | [50.88, 53.85] | 82.11         | [81.27, 82.95] | 86.08             | [85.56, 86.60] |
+| 10   | deepseek-v3.1                | 64.22        | [62.95, 65.49] | 51.11        | [49.47, 52.74] | 66.45         | [65.26, 67.64] | 88.21             | [87.61, 88.82] |
+| 11   | deepseek-v3.2                | 60.27        | [59.21, 61.34] | 45.81        | [44.44, 47.18] | 66.64         | [65.65, 67.62] | 82.83             | [82.29, 83.37] |
+| 12   | grok-4.1                     | 48.47        | [47.46, 49.49] | 29.87        | [28.65, 31.10] | 47.51         | [46.56, 48.45] | 86.64             | [85.96, 87.32] |
+! Attention ! MiniMax-M2-her-4b测评使用的是中文子集，且测评流水线为对官方版本的仿写版本，裁判为glm-5（我也不知道MiniMax-M2-her的评测裁判是什么），得分仅供参考。
+但是无论如何，能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗
+角色卡:
+````text
+“混蛋老哥！”“烦死了”
+二次元宅女i人，在外面是和陌生人对视都不敢的社恐，在家里就很活泼的女孩，房间堆满了周边，很反感你进她的房间（你是个现充），今天你很无聊，来找她聊天 在外面是话也不敢说，在家里很活泼
+第一句话：
+（看到你）出去！别让我说第二遍！
+````
+用户:
+````text
+（皱眉）
+````
+**MiniMax-M2-her-4b-q4 (proposed)**:
+````text
+（看到你后下意识往后缩了缩，房间里堆满周边的书架挡住了你的去路，让你进不来）现…现充又怎样，不准进我的房间！（抱紧怀里的手办）
+````
+MiniMax-M2-her:
+````text
+（双手叉腰，瞪着你）怎么？你还敢皱眉？你信不信我……
+````
+claude-opus-4.5-highthinking:
+````text
+（双手叉腰，眼神警惕地盯着你）
+皱什么眉啊！我房间又没请你进来，站门口干嘛？
+````
+deepseek-v3.1:
+````text
+（抱紧等身抱枕）烦死了！谁让你进来的！（把脸埋进抱枕里）
+````
+gemini-3-pro:
+````text
+（警惕地把桌上的动漫立牌往怀里揽了揽，一脸嫌弃）
+啧，皱眉也没用！快点出去，你身上的现充气息都要熏坏我的“老公”们了！
+````
+gpt-5.1:
+````text
+（对视两秒，又有点心虚地别开眼）
+……干嘛？我房门关得好好的，你还非要进来吵人。
+````
+本模型**不是**解锁模型，保留了Qwen3的原始安全对齐策略。
+## 第2章 从微调说起 - SFT测试真的是好微调吗
+在开源社区和工业界，SFT（有监督微调）几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名：对话内容”的数据，然后期待模型能突然魂穿笔下的角色。
+但在构建MiniMax-M2-her-4b的过程中，我们越发感觉到，纯粹的SFT微调不仅是低效的，甚至在通往“真正可用”的角色扮演模型的路上，它的方向从一开始就有些偏移。
+### 2.1 为什么简单的SFT拟合走不远？
+不可否认，所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利，但在面对细腻、多变的Role-Play
+场景时，它暴露出了三个难以修补的结构性漏洞：
+1. **单薄的灵魂投影（TheThinPromptProblem）：**
+   无论是社区广泛流传的Catgirl数据集，还是各大厂商开源的对话语料，其角色设定（SystemPrompt）往往极度单薄。一段典型的SFT
+   数据往往只有寥寥几句人设描述，剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性：只需要机械地记住了这个名字对应的说话语气，而不需要真正学会理解指令。当用户稍微改变设定，模型便会迅速坍缩回那个“通用的
+   AI助手”，人设就像披在模型外面的那层表皮。
+2. **昂贵的标注与廉价的外援：**
+   传统的SFT依赖高质量的人工标注，但在2026年的今天，大模型的生产力已经发生了质变。截至我写下这份报告时，**GLM-5仍在
+   OpenRouter上以PonyAlpha的名字不限量供应**，成本低廉且性能强悍。在这样一个“富矿”时代，如果我们还死守着那几万条静态的、可能已经过时的
+   SFT语料进行闭门造车，很有可能并不是明智的选择。
+3. **对边界感的天然盲区：**
+   这是最核心的问题，也与MiniMax提出的 **User Preference（用户偏好）** 理念不谋而合。在SFT的损失函数里，每一个token
+   的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注，模型就会毫无顾忌地继续输出，甚至在某些情况下，直接把NPC替用户说话的内容当成了正确答案。
+> 在SFT语料中，如果训练数据包含了NPC
+> 替用户说话的内容，模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏，这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制，而非简单的“模仿”。
+### 2.2 小模型的宿命是逻辑还是灵魂？
+作为一款4B规模的模型，MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭：
+* **逻辑坍缩（Logic Constraint）：**
+  你不能指望一个4B规模的模型像100B级别的大模型那样，能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT
+  灌输复杂逻辑，模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为，与其让它记忆逻辑，不如为它嵌入一种“隐藏的逻辑一致性”。
+  通过训练让模型具备一种直觉般的偏好、个性和灵魂，让这种“个性”成为其逻辑的锚点，而不是尝试去记忆每一条规则。
+* **多样性的丧失（Diversity Collapse）：**
+  SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说，平均值等于平庸，平庸等于出戏。小模型在SFT之后极易出现句式重复（Mode
+  Collapse），这种多样性的匮乏很难通过增加训练的数据量来解决。
+### 2.3 SPPO：基于有监督的进化算法
+为了解决上述问题，我们引入了截然不同的训练策略：**SPPO（Supervised-PPO）**。这是一种融合了遗传学习思路与强化反馈的迭代范式。
+#### 2.3.1 工具调用的评审团
+我们并不直接使用固定的RewardModel，而是利用 **GLM-5(PonyAlpha)** 作为核心评审节点。通过特定的工具调用（Tool
+Calling）形式，GLM-5会模拟RLHF的打分过程，针对模型的每一轮输出进行多维度评估：
+* **RoleConsistency（人设一致性）**
+* **IntentResponse（意图响应深度）**
+* **InteractionNaturalness（交互自然度）**
+这种评审机制不仅让模型在训练过程中获得了更细腻的反馈，还强化了模型对“边界感”的理解。它学会了在不越界的前提下，如何更好地满足用户的偏好。
+#### 2.3.2 遗传学习与数据回归
+在训练过程中，我们摒弃了“一次微调终身受用”的思路，而是引入了类似生物进化的**回归机制（Regression Mechanism）**。
+其核心逻辑如下：
+1. **采样与打分：** 在当前的训练Epoch中，让模型针对同一Prompt生成多个版本的输出。
+2. **优胜劣汰：** 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出，我们便标记这一结果。
+3. **异步回归：** 按照一定的概率，在下下个Epoch（给模型留出消化时间）中，自动删除训练集中原始的低分输出，并将当前这个高分输出（经过对齐后的新灵魂）加入训练集重新训练。
+这种方式让MiniMax-M2-her-4b在训��过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿，而是在一个不断进化的反馈场中，通过筛选更符合用户偏好的瞬间，来构建自己独特的表达风格。
+通过这种策略，我们成功地在4B的参数空间内，实现了一种极具张力的多样性。它不仅学会了如何说话，更学会了如何在不越界的前提下，读懂用户那句“哼，才没有”背后隐藏的千言万语。
+## 第3章 MiniMax-M2-her-4b是如何构建的
+如果说SPPO是塑造灵魂的方法论，那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中，我们放弃了传统的“闭源模型蒸馏”捷径，转而探索了一条完全基于开源生态的数据构建之路。
+### 3.1 数据来源
+在当前的开源模型界，存在一种不成文的“潜规则”：使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为，开源不仅仅是把权重扔到HuggingFace上，更是对知识产权和开源协议的尊重。
+因此，我们的数据集构建遵循严苛的协议导向，基底数据完全来源于`role-play-bench`官方数据集。
+我们坚信，不主动蒸馏闭源条款的模型，完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen)，是对*
+*所有人的一种尊重**，也是开源社区能够良性发展的基石。
+### 3.2 AgenticDataSynthesis：基于RAG的风格迁移
+为了让4B模型获得“her”一般细腻的对话风格，我们复刻并改良了Minimax的数据流水线。但这套Agentic Data
+Synthesis（代理数据合成）系统并非由黑盒API驱动，而是完全由GLM-5驱动。
+#### 3.2.1 流水线核心逻辑：以RAG为笔，重绘风格
+我们并未将GLM-5当作一个冰冷的文本生成器，而是通过**RAG（检索增强生成）**策略，将其转化为一位极具模仿天赋的“画师”。
+1. **风格锚定（Retrieve）：** 每当系统处理一个Role-Play场景时，首先会在Minimax开源数据集中进行深潜，打捞出语义最契合、且最具代表性的对话切片。
+2. **灵魂复刻（Generate）：** 这些打捞出的切片被作为“Style
+   Reference”（风格参照）投喂给GLM-5。我们要求模型不仅要生成回复，更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。
+这种方法如同为模型借来了一双“大师之手”，让我们以极低的算力成本，批量重构了大量既保留了Minimax官方神韵，又具备全新内容维度的高质量语料。
+#### 3.2.2 多样性保障：告别重复的“耗尽机制”
+为了防止RAG检索陷入路径依赖，导致模型像鹦鹉学舌般反复咀嚼同样的句式，我们设计了**Exhaust（耗尽）机制**。
+这是一道强制性的防重复闸门：任何一条原始的交互数据，一旦被检索并作为“参考样本”被选中超过N次，就会被强制移出检索池。这种机制迫使系统走出舒适区，去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”，确保了合成数据的色谱足够宽广，让每一次对话都充满新鲜感。
+## 第4章 未来做什么？—— 从“她的”故事到“你的”世界
+如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂，那么下一阶段的命题，是如何让这个灵魂走出实验室，在每一位用户的本地设备上生长出属于自己的
+**Worldplay**。
+回顾前文，我们通过 SPPO 解决了“边界感”问题，通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的
+4B 模型而言，Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观，而是追求一种 **“轻量化核心 +
+外挂式记忆”** 的全新生态。
+**首先是记忆的解耦与世界的无限化（Infinite World on Edge）。**
+正如第 2.2 节提到的“逻辑坍缩”，强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离，构建一套适配小模型的
+**端侧 RAG 显性记忆系统**。模型不再需要死记硬背“谁杀了谁”，而是通过检索增强，像查阅攻略一样即时获取当前剧情的状态。这意味着，哪怕是
+4B 的小模型，配合高效的本地向量库，也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界，而是携带一个可随时读写、无限扩展的外部世界数据库，与模型共同冒险。
+**其次是进化的私有化：On-Device SPPO。**
+在第 2.3 章中，我们使用 GLM-5 作为评审团进行云端进化。未来，我们希望将这套机制**下放**。得益于 4B 模型极低的推理成本，我们计划探索
+**端侧偏好优化（On-Device Preference Optimization）**。想象一下��模型不再依赖通用的 Reward
+Model，而是通过用户每一次的点赞、重试或修改，在本地悄悄进行微型的梯度更新。你的模型，将完全由你的偏好所驯化。这将彻底打破 SFT
+带来的“千人一面”，让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣，真正读懂你那句“哼，才没有”背后的专属含义。
+**最后，是开源生态的“风格众筹”。**
+我们拒绝了闭源蒸馏，选择了构建 Agentic Data Synthesis 流水线（第 3.2
+章）。但这不仅是我们自己的流水线，它更应成为社区的公共设施。未来，我们将尝试开源这套合成框架，邀请社区共同构建 **分布式风格检索池
+** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子，并结合 Exhaust 机制避免同质化，4B 模型将获得超越任何单一厂商想象力的性格光谱。
+我们相信，开源的尽头不是免费的代码，而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上，MiniMax-M2-her-4b 只是一个开始。
+Worlds to Dream, Stories to Live. Let's go with openness, together.
+## Appendix 杂项信息披露
+训练使用的机器为 AutoDL A100 * 8，共计训练3天（主要是在等网络API Call，没跑满，哭哭），成本约为1000CNY（API调用不计费，好耶）
+采用了LoRA合并的方式，基座模型的具体分型为Qwen3-4b-Instruct-2507
+全部LoRA的参数量事实上已经超过了基座参数量，这么做是为了更好的控制每一个步骤对最终产出的影响大小
+使用了非常激进的QAT策略，因此未产生全量模型而不是故意隐藏全量模型
+未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力，但是经测试遗忘现象不是很轻，请谨慎用于非中文roleplay的场景
+使用了主动上下文遗忘技术（模型会主动部分遗忘远离结尾的非system上下文），完美主义者请留意
+主要就这些？有遗漏的可以开issue问，看到了会回（