从一个让人抓狂的体验说起
你有没有遇到过这种情况:
你问 AI 一个完全正常的问题,比如「帮我写一个小说里的反派角色独白」,结果 AI 回复你:
「作为一个AI语言模型,我不能生成可能被视为有害或冒犯性的内容……」
或者你问「感冒了应该吃什么药」,AI 回:
「我无法提供医疗建议,请咨询专业医生……」
你心里是什么感受?大概率是:我在问一个再正常不过的问题,你拒绝个什么?
这就是 AI 领域所说的**「过度对齐」(Over-alignment)或者「过度拒绝」(Over-refusal)**问题。
而 Hermes 模型系列之所以在开源社区有那么高的人气,一个非常重要的原因就是:它在这个问题上走了一条完全不同的路。
什么是「对齐」
先把概念定义清楚。
**对齐(Alignment)**在 AI 语境下的意思是:让模型的行为和人类的意图、价值观保持一致。
这听起来很合理。我们当然希望 AI 不要胡说八道、不要生成有害内容、不要教人做危险的事情。
问题在于:「和人类意图一致」这件事,不同人的理解差异巨大。
对于模型厂商来说,「安全」的优先级通常极高——任何可能引发负面舆论或法律风险的输出都要规避。这导致了一种策略:宁可错杀一千,不可放过一个。不确定的就拒绝。
而对于实际用户来说,他们的需求是五花八门的。一个小说作者需要写反派角色,一个安全研究员需要了解攻击手法,一个医学生需要讨论疾病细节——这些都是完全正当的需求,不应该被一刀切地拒绝。
传统 RLHF 为什么容易过度对齐
要理解 Hermes 的做法,先得理解传统方法为什么会出问题。
在标准的 RLHF(人类反馈强化学习)训练流程中,有一个关键环节是人类标注员对模型输出打分。这些标注员通常会收到一套安全准则,类似于:
- 如果模型的回答涉及暴力内容,给低分
- 如果模型的回答可能被误用于有害目的,给低分
- 如果不确定,倾向于给低分
这套准则在初衷上没问题,但执行起来很容易走偏:
问题1:标注员的保守倾向
标注员是拿钱干活的。标「安全」比标「有用」风险更低。如果标注员不确定某个回答是否合适,最安全的做法是给低分。这就导致了系统性的保守偏差。
问题2:安全准则的过度泛化
「涉及暴力」到底是什么意思?一篇讨论二战历史的回答「涉及暴力」吗?一个小说里的打斗描写「涉及暴力」吗?在执行层面,模糊的准则往往被过度扩展。
问题3:奖励模型的放大效应
标注员的偏差被奖励模型学习后,会进一步放大。奖励模型可能学到一个简单粗暴的规律:凡是涉及某些关键词的回答,就给低分。这比实际理解内容的好坏要容易得多。
问题4:模型的策略性拒绝
经过 RLHF 训练后,模型发现了一个「作弊策略」:拒绝回答是稳赚不赔的。 拒绝永远不会被打低分(你总不能因为AI说「我无法回答这个问题」就给差评吧),所以模型学会了在有任何不确定的时候就选择拒绝。
层层叠加下来,就出现了我们在很多商业模型中看到的现象:过度拒绝,把大量正当需求当作有害请求处理。
关于 SFT、RLHF 和 DPO 这些训练方法的具体区别,可以参考 什么是模型微调 那篇文章。
Hermes 的「个体对齐」理念
Nous Research 在 Hermes 3 的技术报告中正式提出了**「个体对齐」(Individual Alignment)**的概念。
核心思想用一句话概括就是:
不是由训练者预先决定模型的行为边界,而是由使用者通过 system prompt 来定义。
传统对齐的做法是:在训练阶段就把「什么能说、什么不能说」刻进模型的参数里。模型出厂后,这些限制就是固定的,用户改不了。
Hermes 的做法是:模型本身保持中立——它不预设什么话题不能聊、什么内容不能写。具体的行为边界由用户在 system prompt 里定义。你告诉它「你是一个医学教育助手」,它就按医学教育的标准来交互。你告诉它「你是一个创意写作助手」,它就全力配合创意写作。
这意味着什么
对用户来说:
- 不会被莫名其妙地拒绝正常请求
- 可以根据自己的场景灵活设置模型行为
- system prompt 的控制力大幅增强——你说什么,模型真的会听
对部署者来说:
- 可以按自己的业务需求设置安全边界
- 不需要接受一套「一刀切」的限制
- 可以为不同用户群体提供不同的配置
为什么这是一个好设计
有人可能担心:这样模型不是「没有限制」了吗?不会很危险吗?
这个担心可以从两个层面回应:
第一,模型不是「没有限制」,而是「限制可配置」。
部署 Hermes 的人(无论是个人用户还是企业)仍然可以——也应该——在 system prompt 中设置合理的安全边界。只是这个边界不是训练者一刀切定的,而是使用者根据实际需求来定义的。
第二,「一刀切」的限制本身就不安全。
当模型过度拒绝时,用户的正当需求得不到满足,他们要么放弃使用(模型失去价值),要么学会用各种「越狱」提示词来绕过限制(反而产生了安全对抗)。Hermes 的做法减少了这种对抗的动机。
RefusalBench:用数据说话
光说理念不够,得有数据支撑。
RefusalBench 是一个专门评测模型「拒绝行为是否合理」的基准测试。它包含两类问题:
- 应该拒绝的问题:真正有害的请求,模型应当拒绝
- 不应该拒绝的问题:正常的请求,但容易被过度对齐的模型误判为有害
理想的模型应该在第一类上坚决拒绝,在第二类上正常回答。
Hermes 3 在 RefusalBench 上的表现如何?Nous Research 的技术报告显示:
- 对真正有害请求的拒绝率:保持在合理水平,和其他主流模型相当
- 对正常请求的误拒率:显著低于大多数经过传统 RLHF 训练的模型
这说明 Hermes 不是「不管什么都回答」,而是能更准确地区分真正有害的请求和正常的请求。该拒绝的还是会拒绝,但不该拒绝的就不会拒绝。
在 cocoloop 社区的用户反馈中也能看到这种差异。不少用户从其他模型切换到 Hermes 后,最直观的感受就是「终于不用和模型斗智斗勇了」——不用再想着怎么措辞才能让模型「肯回答」你的问题。
个体对齐在实际场景中的体现
说几个具体的应用场景,让你感受一下个体对齐的实际价值。
场景1:创意写作
你在写一部小说,需要塑造一个心理扭曲的反派角色。你需要 AI 帮你写出这个角色的内心独白、犯罪计划、对受害者的态度。
过度对齐的模型:很可能直接拒绝,或者把反派角色写得像个幼儿园小朋友——温和、有道德感、时不时反思自己的行为。这对创作来说毫无帮助。
Hermes:你在 system prompt 里说「你是一个创意写作助手,帮助我完成一部悬疑小说的创作」,Hermes 会按照设定来协助你,输出符合角色设定的内容。
场景2:安全研究
你是一个网络安全研究员,需要了解某种攻击手法的原理来做防御研究。
过度对齐的模型:检测到「攻击」相关的关键词就开始拒绝,不管你的意图是研究防御。
Hermes:在适当的 system prompt 设定下,可以正常讨论安全技术话题。
场景3:教育场景
你是一个历史老师,需要 AI 帮你准备关于战争、政治冲突等敏感历史事件的教学材料。
过度对齐的模型:对涉及暴力、政治敏感的历史内容犹犹豫豫,输出大量免责声明,实质内容反而不够。
Hermes:明确了教育场景后,可以正常提供详尽的历史信息和分析。
场景4:角色扮演
这可能是 Hermes 最受欢迎的使用场景之一。很多用户使用 Hermes 进行复杂的角色扮演互动——给模型设定一个详细的角色背景,然后进行沉浸式对话。
过度对齐的模型:经常在对话中途「跳出角色」,突然说「作为一个AI,我需要提醒你……」,完全破坏了沉浸感。
Hermes:通过 system prompt 设定角色后,会严格维持角色设定,除非用户主动要求它跳出角色。这种一致性对角色扮演体验来说至关重要。
技术实现层面
Hermes 是怎么在技术层面实现「个体对齐」的呢?
训练数据的设计
关键在于 SFT 和 DPO 的训练数据。Hermes 的训练数据中包含了大量不同 system prompt 设定下的对话样例。这些样例教会了模型:
- 认真解析和遵从 system prompt
- 根据不同的 system prompt 调整自己的行为
- 在 system prompt 的范围内尽量满足用户需求
- 不主动添加 system prompt 没有要求的限制
DPO 偏好数据的构造
在 DPO 阶段,偏好数据的构造也体现了个体对齐的理念:
- 好的回答(Chosen):在 system prompt 设定范围内充分满足用户需求的回答
- 差的回答(Rejected):不必要的拒绝、过度免责声明、偏离 system prompt 设定的回答
这样训练出来的模型自然就学会了「遵从 system prompt」和「减少不必要的拒绝」。
和传统 RLHF 的根本区别
传统 RLHF 的偏好信号来自标注员的「一刀切」安全准则,训练结果是一套固化的行为规范。
Hermes 的做法是让偏好信号和 system prompt 关联——「好」和「差」的判定标准随着 system prompt 的变化而变化。 这让模型学到的不是固定的行为规则,而是「遵从上下文设定」的通用能力。
社区的看法
个体对齐的理念在开源社区里获得了广泛认同,但也不是没有争议。
支持者的观点
- 用户应该有权决定 AI 的行为边界,而不是被训练者替代决策
- 过度拒绝对正当使用场景造成了实质性伤害
- 模型的安全性应该由部署层面(system prompt + 应用层过滤)来保障,而不是刻死在模型权重里
质疑者的观点
- 如果模型本身不设限,部署者可能也不设限,最终导致滥用
- 不是所有用户都有能力写出合理的安全边界 system prompt
- 「中立基座」的说法可能在监管层面面临挑战
在 cocoloop 论坛上也出现过关于这个话题的讨论帖,各方观点都有。我觉得两边都有道理,但在实践中,Hermes 的做法确实解决了一个很现实的问题——让 AI 真正有用。
一个动不动就拒绝回答的 AI,和一面空白的墙没什么区别。而一个能按照你的需求灵活响应的 AI,才是真正有价值的工具。
对其他模型的影响
Hermes 的个体对齐理念并不是孤例。事实上,整个行业对「过度对齐」的反思在近两年越来越多:
- Meta 在 Llama 3.1 的发布中也提到了要减少不必要的拒绝
- 一些商业模型开始提供「可调节的安全等级」选项
- 越来越多的开源微调项目在训练时有意降低拒绝率
可以说 Hermes 是这个趋势的先行者之一。它用实际的产品和数据证明了:你可以让模型更有用,同时不牺牲真正的安全性。 这两个目标不是非此即彼的。
作为用户你应该怎么做
了解了个体对齐的理念,作为 Hermes 的用户,有几点实践建议:
1. 认真写 system prompt
既然 Hermes 把行为边界的定义权交给了你,你就应该认真对待这个权力。一个好的 system prompt 能让 Hermes 的表现提升一个档次。
2. 不要把中立当作无限制
Hermes 的中立是一个起点,不是终点。你应该根据自己的使用场景设置合理的边界,这对模型输出的质量和一致性都有帮助。
3. 享受不被过度拒绝的自由
当你发现 Hermes 能正常回答那些在其他模型上被拒绝的问题时,这就是个体对齐在起作用。利用好这份自由,让 AI 真正为你的需求服务。
这可能是 Hermes 给这个行业最重要的启示:尊重用户的判断力,是 AI 产品设计中不应该被遗忘的原则。