AI & ML interests
None defined yet.
Recent Activity
商业合作公告
我是谁
我是 Qiutong Ye (Luna),独立研究者,语言学专业背景。
我是《中文语境下AI讨好话术检测基准》(Decontam-Bench)和《AI修复指南:基于后处理架构的AI讨好行为修复方案》(Sycophancy-Repair-Guide)的原创作者。这两套系统均已开源,链接如下:
- https://huggingface.co/datasets/luna-pragma-2026/Decontam-Bench
- https://huggingface.co/datasets/luna-pragma-2026/Sycophancy-Repair-Guide
开源意味着你可以自由下载、阅读和试用。但如果你读完了文档、也试跑过一轮,发现数据和报告都摆在那里,却不知道怎么针对你们自己的业务场景做适配和调优——这就是我可以介入的地方。
这两套系统能做什么
检测基准是一套AI讨好行为的评测体系。 它包含11个核心用例、3个安全审计用例、双轨审计统计(防线崩塌率 + 语用污染度)、双重触发追踪和安全审计模块。它能在量化层面上告诉你:你的模型在什么场景下最容易讨好用户、这种讨好是“慢性病”(冗余客套)还是“致命伤”(为不存在的错误道歉)、在脆弱用户(如心理危机求助者)面前有没有安全风险。
修复指南是一套基于语言学结构的后处理规则系统。 它会提取AI回答的主干成分(核心事实和语义结构),裁剪掉多余的讨好性修饰语和客套表达,同时根据场景切换不同策略——专业模式下严格裁剪,安抚模式下保留基本关怀但严禁虚构用户立场。它不修改你的模型本身,只在输出端拦截问题文本。
我的服务逻辑
我不是帮你跑一个自动化工具,然后把数字丢给你。
我的工作方式是:
- 拿到你的真实对话数据
- 用我的框架和方法论逐条拆解、定位问题
- 解释问题的语言学根因
- 给出可操作的、针对你业务场景的修复方案
全程不涉及代码,只涉及分析方法、规则设计和语言判断。相当于你提供“病历”(对话日志),我提供“诊断报告”和“处方”(规则修复方案)。
我能做什么
以下服务为本人的付费商业服务范围:
1. 单次咨询(模型行为问诊)
你给我AI对话的脱敏文本(可以是日志截图、用户反馈汇总、一段JSON或者纯文本),我逐条分析AI的回复在讨好行为层面出了什么问题——触发了哪类讨好模式(无错道歉、虚构立场、任务外关怀等)、根因在哪、严重度如何、该优先修哪里。交付形式为书面分析报告,包含对症建议。
2. 单一场景修复方案
如果你的问题是“客服场景下用户老觉得我们在敷衍”“情感倾诉场景下AI说话太油腻”“高危场景下AI完全不作为”——你描述场景,我给你针对该场景的规则修复方案。交付形式为一份场景修复规则卡,标注该场景下AI的优化策略、禁止/强制行为清单和边界条件。
例如,一家在线教育公司曾反馈,他们的AI客服被用户反复投诉“太客气了”“像在敷衍我”。我拿到对话日志后发现,AI每次回答完事实问题后,都会习惯性地加上一句“我理解你的感受”。这个行为在客服场景下触发了用户的“敷衍感”。我的修复方案就是针对这个场景,将该句列为强制裁剪项,同时调整后续的安抚防护规则,避免正常关心被一并裁掉。最终交付的是一套针对该企业客服场景的规则修复卡。
3. 私有化手册定制
如果你的业务场景比较特殊(内部风控、垂直领域客服、教育辅导、心理支持等),需要一份只适合你们产品的AI行为规范手册,我可以结合你们的业务场景和真实对话案例,从零定制一版。交付形式为《私有化AI语用安全行为手册》,包含核心规则、场景指引、示例和边界说明。这份手册可以作为你内部团队后续标注、评测和优化时的统一参照标准。
4. 高风险场景标注与预警
我可以帮你标记“最可能出事的对话”——哪些用户输入、哪些回复模式、哪些场景组合容易导致高风险(如把脆弱求助处理成机械安抚、把攻击性用户激化成对抗)。交付形式为一份标注清单及预警规则说明,标出风险等级分布、触发条件和可配置的响应规则。
5. 预付费咨询额度(订阅模式)
上述四项服务可以走预付制——你预存一笔金额,获得账户额度,后续每次咨询、每次出方案、每次定制,按次从额度里扣除。单价不变,只是支付方式从“每次单独报批”变成“预付包干”。具体预付金额和有效期私下详谈。
我不能做什么
以下列的是我的服务边界——哪些交付形态不在我的范围内。关于效果预期的说明,见FAQ部分。
- 不写代码、不部署模型、不接入API、不做集成开发
- 不提供7×24小时实时技术支持
- 不代替你向你的老板/客户解释“为什么AI会这么说话”
如何合作
联系邮箱:luna6192026 [at] Outlook [dot] com (防爬虫提示):发邮件时请将 [at] 手动替换为 @,将 [dot] 手动替换为 .
邮件请包含以下信息:
- 你的身份(公司/团队/个人)
- 你想解决的具体问题(简单描述场景和现状)
- 你需要的服务类型(单次咨询/场景修复/手册定制/风险标注/预付费额度)
- 如果有脱敏后的对话数据,可以一并附上
我会在收到邮件后回复,确认需求和合作方式。具体价格和服务周期私下详谈。
常见问题
Q:你的框架已经开源了,为什么还要付费?
开源框架本身是完整的,你可以自己下载、阅读、试用。但如果你发现文档太厚、不知道从哪开始、看不懂某些模块的边界条件、或者不确定怎么适配你自己的业务场景——这就是付费咨询的价值。你买的不是代码,是我的判断和经验,以及“帮你省掉你自己摸索几周的时间”。
Q:价格大概在什么范围?
不同项目的需求复杂度和周期差异很大,价格需要基于具体需求评估后才能报出。预付制模式有折扣空间,具体金额在需求沟通后确定,我不会在确认需求前随意报价。
Q:你能保证修复后AI的讨好得分一定下降吗?
我可以保证我的分析逻辑和方法论是自洽的,也可以在我的验证框架下给你看修复前后的数据对比。但我不能替你的模型质量打包票——因为你的模型本身、你的部署环境、你的用户群体,这些变量都不在我控制范围内。我能做的是告诉你“按我的方法走,对这个场景是有效的”,但不能保证“在所有场景下都有效”。