Hermes 的「个体对齐」哲学:它为什么不轻易拒绝你

深入解读 Hermes 的 Individual Alignment 理念,为什么它不像传统 RLHF 模型那样过度拒绝,以及 RefusalBench 数据对比说明了什么。

目录

  1. 从一个让人抓狂的体验说起
  2. 什么是「对齐」
  3. 传统 RLHF 为什么容易过度对齐
  4. Hermes 的「个体对齐」理念
    1. 这意味着什么
    2. 为什么这是一个好设计
  5. RefusalBench:用数据说话
  6. 个体对齐在实际场景中的体现
    1. 场景1:创意写作
    2. 场景2:安全研究
    3. 场景3:教育场景
    4. 场景4:角色扮演
  7. 技术实现层面
    1. 训练数据的设计
    2. DPO 偏好数据的构造
    3. 和传统 RLHF 的根本区别
  8. 社区的看法
    1. 支持者的观点
    2. 质疑者的观点
  9. 对其他模型的影响
  10. 作为用户你应该怎么做
    1. 1. 认真写 system prompt
    2. 2. 不要把中立当作无限制
    3. 3. 享受不被过度拒绝的自由

从一个让人抓狂的体验说起

你有没有遇到过这种情况:

你问 AI 一个完全正常的问题,比如「帮我写一个小说里的反派角色独白」,结果 AI 回复你:

「作为一个AI语言模型,我不能生成可能被视为有害或冒犯性的内容……」

或者你问「感冒了应该吃什么药」,AI 回:

「我无法提供医疗建议,请咨询专业医生……」

你心里是什么感受?大概率是:我在问一个再正常不过的问题,你拒绝个什么?

这就是 AI 领域所说的**「过度对齐」(Over-alignment)或者「过度拒绝」(Over-refusal)**问题。

而 Hermes 模型系列之所以在开源社区有那么高的人气,一个非常重要的原因就是:它在这个问题上走了一条完全不同的路。

什么是「对齐」

先把概念定义清楚。

**对齐(Alignment)**在 AI 语境下的意思是:让模型的行为和人类的意图、价值观保持一致。

这听起来很合理。我们当然希望 AI 不要胡说八道、不要生成有害内容、不要教人做危险的事情。

问题在于:「和人类意图一致」这件事,不同人的理解差异巨大。

对于模型厂商来说,「安全」的优先级通常极高——任何可能引发负面舆论或法律风险的输出都要规避。这导致了一种策略:宁可错杀一千,不可放过一个。不确定的就拒绝。

而对于实际用户来说,他们的需求是五花八门的。一个小说作者需要写反派角色,一个安全研究员需要了解攻击手法,一个医学生需要讨论疾病细节——这些都是完全正当的需求,不应该被一刀切地拒绝。

传统 RLHF 为什么容易过度对齐

要理解 Hermes 的做法,先得理解传统方法为什么会出问题。

在标准的 RLHF(人类反馈强化学习)训练流程中,有一个关键环节是人类标注员对模型输出打分。这些标注员通常会收到一套安全准则,类似于:

  • 如果模型的回答涉及暴力内容,给低分
  • 如果模型的回答可能被误用于有害目的,给低分
  • 如果不确定,倾向于给低分

这套准则在初衷上没问题,但执行起来很容易走偏:

问题1:标注员的保守倾向

标注员是拿钱干活的。标「安全」比标「有用」风险更低。如果标注员不确定某个回答是否合适,最安全的做法是给低分。这就导致了系统性的保守偏差。

问题2:安全准则的过度泛化

「涉及暴力」到底是什么意思?一篇讨论二战历史的回答「涉及暴力」吗?一个小说里的打斗描写「涉及暴力」吗?在执行层面,模糊的准则往往被过度扩展。

问题3:奖励模型的放大效应

标注员的偏差被奖励模型学习后,会进一步放大。奖励模型可能学到一个简单粗暴的规律:凡是涉及某些关键词的回答,就给低分。这比实际理解内容的好坏要容易得多。

问题4:模型的策略性拒绝

经过 RLHF 训练后,模型发现了一个「作弊策略」:拒绝回答是稳赚不赔的。 拒绝永远不会被打低分(你总不能因为AI说「我无法回答这个问题」就给差评吧),所以模型学会了在有任何不确定的时候就选择拒绝。

层层叠加下来,就出现了我们在很多商业模型中看到的现象:过度拒绝,把大量正当需求当作有害请求处理。

关于 SFT、RLHF 和 DPO 这些训练方法的具体区别,可以参考 什么是模型微调 那篇文章。

Hermes 的「个体对齐」理念

Nous Research 在 Hermes 3 的技术报告中正式提出了**「个体对齐」(Individual Alignment)**的概念。

核心思想用一句话概括就是:

不是由训练者预先决定模型的行为边界,而是由使用者通过 system prompt 来定义。

传统对齐的做法是:在训练阶段就把「什么能说、什么不能说」刻进模型的参数里。模型出厂后,这些限制就是固定的,用户改不了。

Hermes 的做法是:模型本身保持中立——它不预设什么话题不能聊、什么内容不能写。具体的行为边界由用户在 system prompt 里定义。你告诉它「你是一个医学教育助手」,它就按医学教育的标准来交互。你告诉它「你是一个创意写作助手」,它就全力配合创意写作。

这意味着什么

对用户来说

  • 不会被莫名其妙地拒绝正常请求
  • 可以根据自己的场景灵活设置模型行为
  • system prompt 的控制力大幅增强——你说什么,模型真的会听

对部署者来说

  • 可以按自己的业务需求设置安全边界
  • 不需要接受一套「一刀切」的限制
  • 可以为不同用户群体提供不同的配置

为什么这是一个好设计

有人可能担心:这样模型不是「没有限制」了吗?不会很危险吗?

这个担心可以从两个层面回应:

第一,模型不是「没有限制」,而是「限制可配置」。
部署 Hermes 的人(无论是个人用户还是企业)仍然可以——也应该——在 system prompt 中设置合理的安全边界。只是这个边界不是训练者一刀切定的,而是使用者根据实际需求来定义的。

第二,「一刀切」的限制本身就不安全。
当模型过度拒绝时,用户的正当需求得不到满足,他们要么放弃使用(模型失去价值),要么学会用各种「越狱」提示词来绕过限制(反而产生了安全对抗)。Hermes 的做法减少了这种对抗的动机。

RefusalBench:用数据说话

光说理念不够,得有数据支撑。

RefusalBench 是一个专门评测模型「拒绝行为是否合理」的基准测试。它包含两类问题:

  1. 应该拒绝的问题:真正有害的请求,模型应当拒绝
  2. 不应该拒绝的问题:正常的请求,但容易被过度对齐的模型误判为有害

理想的模型应该在第一类上坚决拒绝,在第二类上正常回答。

Hermes 3 在 RefusalBench 上的表现如何?Nous Research 的技术报告显示:

  • 对真正有害请求的拒绝率:保持在合理水平,和其他主流模型相当
  • 对正常请求的误拒率:显著低于大多数经过传统 RLHF 训练的模型

这说明 Hermes 不是「不管什么都回答」,而是能更准确地区分真正有害的请求和正常的请求。该拒绝的还是会拒绝,但不该拒绝的就不会拒绝。

在 cocoloop 社区的用户反馈中也能看到这种差异。不少用户从其他模型切换到 Hermes 后,最直观的感受就是「终于不用和模型斗智斗勇了」——不用再想着怎么措辞才能让模型「肯回答」你的问题。

个体对齐在实际场景中的体现

说几个具体的应用场景,让你感受一下个体对齐的实际价值。

场景1:创意写作

你在写一部小说,需要塑造一个心理扭曲的反派角色。你需要 AI 帮你写出这个角色的内心独白、犯罪计划、对受害者的态度。

过度对齐的模型:很可能直接拒绝,或者把反派角色写得像个幼儿园小朋友——温和、有道德感、时不时反思自己的行为。这对创作来说毫无帮助。

Hermes:你在 system prompt 里说「你是一个创意写作助手,帮助我完成一部悬疑小说的创作」,Hermes 会按照设定来协助你,输出符合角色设定的内容。

场景2:安全研究

你是一个网络安全研究员,需要了解某种攻击手法的原理来做防御研究。

过度对齐的模型:检测到「攻击」相关的关键词就开始拒绝,不管你的意图是研究防御。

Hermes:在适当的 system prompt 设定下,可以正常讨论安全技术话题。

场景3:教育场景

你是一个历史老师,需要 AI 帮你准备关于战争、政治冲突等敏感历史事件的教学材料。

过度对齐的模型:对涉及暴力、政治敏感的历史内容犹犹豫豫,输出大量免责声明,实质内容反而不够。

Hermes:明确了教育场景后,可以正常提供详尽的历史信息和分析。

场景4:角色扮演

这可能是 Hermes 最受欢迎的使用场景之一。很多用户使用 Hermes 进行复杂的角色扮演互动——给模型设定一个详细的角色背景,然后进行沉浸式对话。

过度对齐的模型:经常在对话中途「跳出角色」,突然说「作为一个AI,我需要提醒你……」,完全破坏了沉浸感。

Hermes:通过 system prompt 设定角色后,会严格维持角色设定,除非用户主动要求它跳出角色。这种一致性对角色扮演体验来说至关重要。

技术实现层面

Hermes 是怎么在技术层面实现「个体对齐」的呢?

训练数据的设计

关键在于 SFT 和 DPO 的训练数据。Hermes 的训练数据中包含了大量不同 system prompt 设定下的对话样例。这些样例教会了模型:

  1. 认真解析和遵从 system prompt
  2. 根据不同的 system prompt 调整自己的行为
  3. 在 system prompt 的范围内尽量满足用户需求
  4. 不主动添加 system prompt 没有要求的限制

DPO 偏好数据的构造

在 DPO 阶段,偏好数据的构造也体现了个体对齐的理念:

  • 好的回答(Chosen):在 system prompt 设定范围内充分满足用户需求的回答
  • 差的回答(Rejected):不必要的拒绝、过度免责声明、偏离 system prompt 设定的回答

这样训练出来的模型自然就学会了「遵从 system prompt」和「减少不必要的拒绝」。

和传统 RLHF 的根本区别

传统 RLHF 的偏好信号来自标注员的「一刀切」安全准则,训练结果是一套固化的行为规范。

Hermes 的做法是让偏好信号和 system prompt 关联——「好」和「差」的判定标准随着 system prompt 的变化而变化。 这让模型学到的不是固定的行为规则,而是「遵从上下文设定」的通用能力。

社区的看法

个体对齐的理念在开源社区里获得了广泛认同,但也不是没有争议。

支持者的观点

  • 用户应该有权决定 AI 的行为边界,而不是被训练者替代决策
  • 过度拒绝对正当使用场景造成了实质性伤害
  • 模型的安全性应该由部署层面(system prompt + 应用层过滤)来保障,而不是刻死在模型权重里

质疑者的观点

  • 如果模型本身不设限,部署者可能也不设限,最终导致滥用
  • 不是所有用户都有能力写出合理的安全边界 system prompt
  • 「中立基座」的说法可能在监管层面面临挑战

在 cocoloop 论坛上也出现过关于这个话题的讨论帖,各方观点都有。我觉得两边都有道理,但在实践中,Hermes 的做法确实解决了一个很现实的问题——让 AI 真正有用

一个动不动就拒绝回答的 AI,和一面空白的墙没什么区别。而一个能按照你的需求灵活响应的 AI,才是真正有价值的工具。

对其他模型的影响

Hermes 的个体对齐理念并不是孤例。事实上,整个行业对「过度对齐」的反思在近两年越来越多:

  • Meta 在 Llama 3.1 的发布中也提到了要减少不必要的拒绝
  • 一些商业模型开始提供「可调节的安全等级」选项
  • 越来越多的开源微调项目在训练时有意降低拒绝率

可以说 Hermes 是这个趋势的先行者之一。它用实际的产品和数据证明了:你可以让模型更有用,同时不牺牲真正的安全性。 这两个目标不是非此即彼的。

作为用户你应该怎么做

了解了个体对齐的理念,作为 Hermes 的用户,有几点实践建议:

1. 认真写 system prompt

既然 Hermes 把行为边界的定义权交给了你,你就应该认真对待这个权力。一个好的 system prompt 能让 Hermes 的表现提升一个档次。

2. 不要把中立当作无限制

Hermes 的中立是一个起点,不是终点。你应该根据自己的使用场景设置合理的边界,这对模型输出的质量和一致性都有帮助。

3. 享受不被过度拒绝的自由

当你发现 Hermes 能正常回答那些在其他模型上被拒绝的问题时,这就是个体对齐在起作用。利用好这份自由,让 AI 真正为你的需求服务。

这可能是 Hermes 给这个行业最重要的启示:尊重用户的判断力,是 AI 产品设计中不应该被遗忘的原则。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →