Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,233 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: mit
|
| 3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: mit
|
| 3 |
+
---
|
| 4 |
+
MiniMax-M2-her-4b
|
| 5 |
+
---
|
| 6 |
+
Worlds to Dream, Stories to Live. Let's go with openness, together.
|
| 7 |
+
|
| 8 |
+
本模型是对MiniMax-M2-her的开源重现。
|
| 9 |
+
[官方技术报告](https://minimaxi.com/news/minimax-m2-her-%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90)
|
| 10 |
+
|
| 11 |
+
以下内容为MiniMax-M2-her-4b的技术报告。
|
| 12 |
+
|
| 13 |
+
## 第1章Demo&Metrics
|
| 14 |
+
|
| 15 |
+
## Leaderboard
|
| 16 |
+
|
| 17 |
+
### Overall Rankings
|
| 18 |
+
|
| 19 |
+
| Rank | Model | Overall | 95% CI | Worlds (50%) | 95% CI | Stories (25%) | 95% CI | Preferences (25%) | 95% CI |
|
| 20 |
+
|------|------------------------------|--------------|----------------|--------------|----------------|---------------|----------------|-------------------|----------------|
|
| 21 |
+
| 1 | MiniMax-M2-her | **84.65** 👑 | [83.62, 85.68] | **80.55** 👑 | [79.20, 81.91] | 79.97 | [78.95, 81.00] | **97.51** 👑 | [97.12, 97.91] |
|
| 22 |
+
| 2 | doubao-1.5-pro | 80.64 | [79.58, 81.70] | 72.83 | [71.35, 74.30] | 81.73 | [80.93, 82.52] | 95.18 | [94.68, 95.69] |
|
| 23 |
+
| 3 | gpt-5.1 | 80.63 | [79.65, 81.61] | 76.62 | [75.33, 77.92] | 72.21 | [71.16, 73.27] | 97.05 | [96.79, 97.32] |
|
| 24 |
+
| 4 | claude-opus-4.5-highthinking | 76.62 | [75.50, 77.73] | 67.23 | [65.57, 68.89] | 82.10 | [81.41, 82.79] | 89.90 | [89.44, 90.36] |
|
| 25 |
+
| 5 | gemini-3-pro | 75.60 | [74.52, 76.68] | 62.72 | [61.17, 64.26] | **83.87** 👑 | [83.01, 84.72] | 93.08 | [92.71, 93.46] |
|
| 26 |
+
| 6 | **MiniMax-M2-her-4b** | 74.74 | / | 66.11 | / | 77.24 | / | 89.49 | / |
|
| 27 |
+
| 7 | claude-opus-4.5-lowthinking | 71.19 | [70.10, 72.28] | 60.68 | [59.14, 62.22] | 76.89 | [76.13, 77.65] | 86.51 | [86.00, 87.02] |
|
| 28 |
+
| 8 | claude-sonnet-4.5 | 69.35 | [68.22, 70.47] | 55.72 | [54.20, 57.25] | 75.66 | [74.70, 76.62] | 90.28 | [89.80, 90.76] |
|
| 29 |
+
| 9 | gemini-2.5-pro | 68.23 | [67.15, 69.31] | 52.36 | [50.88, 53.85] | 82.11 | [81.27, 82.95] | 86.08 | [85.56, 86.60] |
|
| 30 |
+
| 10 | deepseek-v3.1 | 64.22 | [62.95, 65.49] | 51.11 | [49.47, 52.74] | 66.45 | [65.26, 67.64] | 88.21 | [87.61, 88.82] |
|
| 31 |
+
| 11 | deepseek-v3.2 | 60.27 | [59.21, 61.34] | 45.81 | [44.44, 47.18] | 66.64 | [65.65, 67.62] | 82.83 | [82.29, 83.37] |
|
| 32 |
+
| 12 | grok-4.1 | 48.47 | [47.46, 49.49] | 29.87 | [28.65, 31.10] | 47.51 | [46.56, 48.45] | 86.64 | [85.96, 87.32] |
|
| 33 |
+
|
| 34 |
+
! Attention ! MiniMax-M2-her-4b测评使用的是中文子集,且测评流水线为对官方版本的仿写版本,裁判为glm-5(我也不知道MiniMax-M2-her的评测裁判是什么),得分仅供参考。
|
| 35 |
+
|
| 36 |
+
但是无论如何,能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗
|
| 37 |
+
|
| 38 |
+
角色卡:
|
| 39 |
+
|
| 40 |
+
````text
|
| 41 |
+
“混蛋老哥!”“烦死了”
|
| 42 |
+
二次元宅女i人,在外面是和陌生人对视都不敢的社恐,在家里就很活泼的女孩,房间堆满了周边,很反感你进她的房间(你是个现充),今天你很无聊,来找她聊天 在外面是话也不敢说,在家里很活泼
|
| 43 |
+
|
| 44 |
+
第一句话:
|
| 45 |
+
(看到你)出去!别让我说第二遍!
|
| 46 |
+
````
|
| 47 |
+
|
| 48 |
+
用户:
|
| 49 |
+
|
| 50 |
+
````text
|
| 51 |
+
(皱眉)
|
| 52 |
+
````
|
| 53 |
+
|
| 54 |
+
**MiniMax-M2-her-4b-q4 (proposed)**:
|
| 55 |
+
|
| 56 |
+
````text
|
| 57 |
+
(看到你后下意识往后缩了缩,房间里堆满周边的书架挡住了你的去路,让你进不来)现…现充又怎样,不准进我的房间!(抱紧怀里的手办)
|
| 58 |
+
````
|
| 59 |
+
|
| 60 |
+
MiniMax-M2-her:
|
| 61 |
+
|
| 62 |
+
````text
|
| 63 |
+
(双手叉腰,瞪着你)怎么?你还敢皱眉?你信不信我……
|
| 64 |
+
````
|
| 65 |
+
|
| 66 |
+
claude-opus-4.5-highthinking:
|
| 67 |
+
|
| 68 |
+
````text
|
| 69 |
+
(双手叉腰,眼神警惕地盯着你)
|
| 70 |
+
皱什么眉啊!我房间又没请你进来,站门口干嘛?
|
| 71 |
+
````
|
| 72 |
+
|
| 73 |
+
deepseek-v3.1:
|
| 74 |
+
|
| 75 |
+
````text
|
| 76 |
+
(抱紧等身抱枕)烦死了!谁让你进来的!(把脸埋进抱枕里)
|
| 77 |
+
````
|
| 78 |
+
|
| 79 |
+
gemini-3-pro:
|
| 80 |
+
|
| 81 |
+
````text
|
| 82 |
+
(警惕地把桌上的动漫立牌往怀里揽了揽,一脸嫌弃)
|
| 83 |
+
啧,皱眉也没用!快点出去,你身上的现充气息都要熏坏我的“老公”们了!
|
| 84 |
+
````
|
| 85 |
+
|
| 86 |
+
gpt-5.1:
|
| 87 |
+
|
| 88 |
+
````text
|
| 89 |
+
(对视两秒,又有点心虚地别开眼)
|
| 90 |
+
……干嘛?我房门关得好好的,你还非要进来吵人。
|
| 91 |
+
````
|
| 92 |
+
|
| 93 |
+
本模型**不是**解锁模型,保留了Qwen3的原始安全对齐策略。
|
| 94 |
+
|
| 95 |
+
## 第2章 从微调说起 - SFT测试真的是好微调吗
|
| 96 |
+
|
| 97 |
+
在开源社区和工业界,SFT(有监督微调)几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名:对话内容”的数据,然后期待模型能突然魂穿笔下的角色。
|
| 98 |
+
|
| 99 |
+
但在构建MiniMax-M2-her-4b的过程中,我们越发感觉到,纯粹的SFT微调不仅是低效的,甚至在通往“真正可用”的角色扮演模型的路上,它的方向从一开始就有些偏移。
|
| 100 |
+
|
| 101 |
+
### 2.1 为什么简单的SFT拟合走不远?
|
| 102 |
+
|
| 103 |
+
不可否认,所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利,但在面对细腻、多变的Role-Play
|
| 104 |
+
场景时,它暴露出了三个难以修补的结构性漏洞:
|
| 105 |
+
|
| 106 |
+
1. **单薄的灵魂投影(TheThinPromptProblem):**
|
| 107 |
+
无论是社区广泛流传的Catgirl数据集,还是各大厂商开源的对话语料,其角色设定(SystemPrompt)往往极度单薄。一段典型的SFT
|
| 108 |
+
数据往往只有寥寥几句人设描述,剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性:只需要机械地记住了这个名字对应的说话语气,而不需要真正学会理解指令。当用户稍微改变设定,模型便会迅速坍缩回那个“通用的
|
| 109 |
+
AI助手”,人设就像披在模型外面的那层表皮。
|
| 110 |
+
2. **昂贵的标注与廉价的外援:**
|
| 111 |
+
传统的SFT依赖高质量的人工标注,但在2026年的今天,大模型的生产力已经发生了质变。截至我写下这份报告时,**GLM-5仍在
|
| 112 |
+
OpenRouter上以PonyAlpha的名字不限量供应**,成本低廉且性能强悍。在这样一个“富矿”时代,如果我们还死守着那几万条静态的、可能已经过时的
|
| 113 |
+
SFT语料进行闭门造车,很有可能并不是明智的选择。
|
| 114 |
+
3. **对边界感的天然盲区:**
|
| 115 |
+
这是最核心的问题,也与MiniMax提出的 **User Preference(用户偏好)** 理念不谋而合。在SFT的损失函数里,每一个token
|
| 116 |
+
的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注,模型就会毫无顾忌地继续输出,甚至在某些情况下,直接把NPC替用户说话的内容当成了正确答案。
|
| 117 |
+
|
| 118 |
+
> 在SFT语料中,如果训练数据包含了NPC
|
| 119 |
+
> 替用户说话的内容,模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏,这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制,而非简单的“模仿”。
|
| 120 |
+
|
| 121 |
+
### 2.2 小模型的宿命是逻辑还是灵魂?
|
| 122 |
+
|
| 123 |
+
作为一款4B规模的模型,MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭:
|
| 124 |
+
|
| 125 |
+
* **逻辑坍缩(Logic Constraint):**
|
| 126 |
+
你不能指望一个4B规模的模型像100B级别的大模型那样,能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT
|
| 127 |
+
灌输复杂逻辑,模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为,与其让它记忆逻辑,不如为它嵌入一种“隐藏的逻辑一致性”。
|
| 128 |
+
通过训练让模型具备一种直觉般的偏好、个性和灵魂,让这种“个性”成为其逻辑的锚点,而不是尝试去记忆每一条规则。
|
| 129 |
+
|
| 130 |
+
* **多样性的丧失(Diversity Collapse):**
|
| 131 |
+
SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说,平均值等于平庸,平庸等于出戏。小模型在SFT之后极易出现句式重复(Mode
|
| 132 |
+
Collapse),这种多样性的匮乏很难通过增加训练的数据量来解决。
|
| 133 |
+
|
| 134 |
+
### 2.3 SPPO:基于有监督的进化算法
|
| 135 |
+
|
| 136 |
+
为了解决上述问题,我们引入了截然不同的训练策略:**SPPO(Supervised-PPO)**。这是一种融合了遗传学习思路与强化反馈的迭代范式。
|
| 137 |
+
|
| 138 |
+
#### 2.3.1 工具调用的评审团
|
| 139 |
+
|
| 140 |
+
我们并不直接使用固定的RewardModel,而是利用 **GLM-5(PonyAlpha)** 作为核心评审节点。通过特定的工具调用(Tool
|
| 141 |
+
Calling)形式,GLM-5会模拟RLHF的打分过程,针对模型的每一轮输出进行多维度评估:
|
| 142 |
+
|
| 143 |
+
* **RoleConsistency(人设一致性)**
|
| 144 |
+
* **IntentResponse(意图响应深度)**
|
| 145 |
+
* **InteractionNaturalness(交互自然度)**
|
| 146 |
+
|
| 147 |
+
这种评审机制不仅让模型在训练过程中获得了更细腻的反馈,还强化了模型对“边界感”的理解。它学会了在不越界的前提下,如何更好地满足用户的偏好。
|
| 148 |
+
|
| 149 |
+
#### 2.3.2 遗传学习与数据回归
|
| 150 |
+
|
| 151 |
+
在训练过程中,我们摒弃了“一次微调终身受用”的思路,而是引入了类似生物进化的**回归机制(Regression Mechanism)**。
|
| 152 |
+
|
| 153 |
+
其核心逻辑如下:
|
| 154 |
+
|
| 155 |
+
1. **采样与打分:** 在当前的训练Epoch中,让模型针对同一Prompt生成多个版本的输出。
|
| 156 |
+
2. **优胜劣汰:** 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出,我们便标记这一结果。
|
| 157 |
+
3. **异步回归:** 按照一定的概率,在下下个Epoch(给模型留出消化时间)中,自动删除训练集中原始的低分输出,并将当前这个高分输出(经过对齐后的新灵魂)加入训练集重新训练。
|
| 158 |
+
|
| 159 |
+
这种方式让MiniMax-M2-her-4b在训��过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿,而是在一个不断进化的反馈场中,通过筛选更符合用户偏好的瞬间,来构建自己独特的表达风格。
|
| 160 |
+
通过这种策略,我们成功地在4B的参数空间内,实现了一种极具张力的多样性。它不仅学会了如何说话,更学会了如何在不越界的前提下,读懂用户那句“哼,才没有”背后隐藏的千言万语。
|
| 161 |
+
|
| 162 |
+
## 第3章 MiniMax-M2-her-4b是如何构建的
|
| 163 |
+
|
| 164 |
+
如果说SPPO是塑造灵魂的方法论,那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中,我们放弃了传统的“闭源模型蒸馏”捷径,转而探索了一条完全基于开源生态的数据构建之路。
|
| 165 |
+
|
| 166 |
+
### 3.1 数据来源
|
| 167 |
+
|
| 168 |
+
在当前的开源模型界,存在一种不成文的“潜规则”:使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为,开源不仅仅是把权重扔到HuggingFace上,更是对知识产权和开源协议的尊重。
|
| 169 |
+
因此,我们的数据集构建遵循严苛的协议导向,基底数据完全来源于`role-play-bench`官方数据集。
|
| 170 |
+
|
| 171 |
+
我们坚信,不主动蒸馏闭源条款的模型,完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen),是对*
|
| 172 |
+
*所有人的一种尊重**,也是开源社区能够良性发展的基石。
|
| 173 |
+
|
| 174 |
+
### 3.2 AgenticDataSynthesis:基于RAG的风格迁移
|
| 175 |
+
|
| 176 |
+
为了让4B模型获得“her”一般细腻的对话风格,我们复刻并改良了Minimax的数据流水线。但这套Agentic Data
|
| 177 |
+
Synthesis(代理数据合成)系统并非由黑盒API驱动,而是完全由GLM-5驱动。
|
| 178 |
+
|
| 179 |
+
#### 3.2.1 流水线核心逻辑:以RAG为笔,重绘风格
|
| 180 |
+
|
| 181 |
+
我们并未将GLM-5当作一个冰冷的文本生成器,而是通过**RAG(检索增强生成)**策略,将其转化为一位极具模仿天赋的“画师”。
|
| 182 |
+
|
| 183 |
+
1. **风格锚定(Retrieve):** 每当系统处理一个Role-Play场景时,首先会在Minimax开源数据集中进行深潜,打捞出语义最契合、且最具代表性的对话切片。
|
| 184 |
+
2. **灵魂复刻(Generate):** 这些打捞出的切片被作为“Style
|
| 185 |
+
Reference”(风格参照)投喂给GLM-5。我们要求模型不仅要生成回复,更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。
|
| 186 |
+
|
| 187 |
+
这种方法如同为模型借来了一双“大师之手”,让我们以极低的算力成本,批量重构了大量既保留了Minimax官方神韵,又具备全新内容维度的高质量语料。
|
| 188 |
+
|
| 189 |
+
#### 3.2.2 多样性保障:告别重复的“耗尽机制”
|
| 190 |
+
|
| 191 |
+
为了防止RAG检索陷入路径依赖,导致模型像鹦鹉学舌般反复咀嚼同样的句式,我们设计了**Exhaust(耗尽)机制**。
|
| 192 |
+
|
| 193 |
+
这是一道强制性的防重复闸门:任何一条原始的交互数据,一旦被检索并作为“参考样本”被选中超过N次,就会被强制移出检索池。这种机制迫使系统走出舒适区,去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”,确保了合成数据的色谱足够宽广,让每一次对话都充满新鲜感。
|
| 194 |
+
|
| 195 |
+
## 第4章 未来做什么?—— 从“她的”故事到“你的”世界
|
| 196 |
+
|
| 197 |
+
如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂,那么下一阶段的命题,是如何让这个灵魂走出实验室,在每一位用户的本地设备上生长出属于自己的
|
| 198 |
+
**Worldplay**。
|
| 199 |
+
|
| 200 |
+
回顾前文,我们通过 SPPO 解决了“边界感”问题,通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的
|
| 201 |
+
4B 模型而言,Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观,而是追求一种 **“轻量化核心 +
|
| 202 |
+
外挂式记忆”** 的全新生态。
|
| 203 |
+
|
| 204 |
+
**首先是记忆的解耦与世界的无限化(Infinite World on Edge)。**
|
| 205 |
+
正如第 2.2 节提到的“逻辑坍缩”,强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离,构建一套适配小模型的
|
| 206 |
+
**端侧 RAG 显性记忆系统**。模型不再需要死记硬背“谁杀了谁”,而是通过检索增强,像查阅攻略一样即时获取当前剧情的状态。这意味着,哪怕是
|
| 207 |
+
4B 的小模型,配合高效的本地向量库,也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界,而是携带一个可随时读写、无限扩展的外部世界数据库,与模型共同冒险。
|
| 208 |
+
|
| 209 |
+
**其次是进化的私有化:On-Device SPPO。**
|
| 210 |
+
在第 2.3 章中,我们使用 GLM-5 作为评审团进行云端进化。未来,我们希望将这套机制**下放**。得益于 4B 模型极低的推理成本,我们计划探索
|
| 211 |
+
**端侧偏好优化(On-Device Preference Optimization)**。想象一下��模型不再依赖通用的 Reward
|
| 212 |
+
Model,而是通过用户每一次的点赞、重试或修改,在本地悄悄进行微型的梯度更新。你的模型,将完全由你的偏好所驯化。这将彻底打破 SFT
|
| 213 |
+
带来的“千人一面”,让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣,真正读懂你那句“哼,才没有”背后的专属含义。
|
| 214 |
+
|
| 215 |
+
**最后,是开源生态的“风格众筹”。**
|
| 216 |
+
我们拒绝了闭源蒸馏,选择了构建 Agentic Data Synthesis 流水线(第 3.2
|
| 217 |
+
章)。但这不仅是我们自己的流水线,它更应成为社区的公共设施。未来,我们将尝试开源这套合成框架,邀请社区共同构建 **分布式风格检索池
|
| 218 |
+
** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子,并结合 Exhaust 机制避免同质化,4B 模型将获得超越任何单一厂商想象力的性格光谱。
|
| 219 |
+
|
| 220 |
+
我们相信,开源的尽头不是免费的代码,而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上,MiniMax-M2-her-4b 只是一个开始。
|
| 221 |
+
|
| 222 |
+
Worlds to Dream, Stories to Live. Let's go with openness, together.
|
| 223 |
+
|
| 224 |
+
## Appendix 杂项信息披露
|
| 225 |
+
|
| 226 |
+
训练使用的机器为 AutoDL A100 * 8,共计训练3天(主要是在等网络API Call,没跑满,哭哭),成本约为1000CNY(API调用不计费,好耶)
|
| 227 |
+
采用了LoRA合并的方式,基座模型的具体分型为Qwen3-4b-Instruct-2507
|
| 228 |
+
全部LoRA的参数量事实上已经超过了基座参数量,这么做是为了更好的控制每一个步骤对最终产出的影响大小
|
| 229 |
+
使用了非常激进的QAT策略,因此未产生全量模型而不是故意隐藏全量模型
|
| 230 |
+
未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力,但是经测试遗忘现象不是很轻,请谨慎用于非中文roleplay的场景
|
| 231 |
+
使用了主动上下文遗忘技术(模型会主动部分遗忘远离结尾的非system上下文),完美主义者请留意
|
| 232 |
+
|
| 233 |
+
主要就这些?有遗漏的可以开issue问,看到了会回(
|