Hermes 在 RefusalBench 上的成绩:重新理解模型安全与自由的边界

解读 RefusalBench 基准测试的设计逻辑,分析 Hermes 4 得分 57.1% 而 GPT-4o 仅 17.67% 的原因,探讨大模型过度拒绝问题与个体对齐的平衡之道。

目录

  1. RefusalBench 在测什么
  2. 为什么 GPT-4o 只有 17.67%
  3. Hermes 4 的 57.1% 是怎么做到的
    1. 什么是 Individual Alignment
    2. 训练层面的具体做法
  4. 过度拒绝为什么是个问题
  5. 安全与自由的光谱
  6. 其他模型在 RefusalBench 上的表现
  7. 这对用户意味着什么
  8. 关于 Individual Alignment 的争议
  9. 怎么在实际中利用这个优势
  10. 最后的思考

当一个 AI 模型拒绝回答你的正常问题时,你会是什么感受?

可能你只是想问一个关于化学反应的问题,模型却说”我不能提供可能被用于制造危险物质的信息”。或者你想写一个虚构的犯罪小说场景,模型告诉你”我无法协助创作涉及暴力的内容”。

这种现象叫做”过度拒绝”(Over-refusal),是当前大模型领域一个被讨论得越来越多的问题。而 RefusalBench,就是专门用来衡量模型过度拒绝程度的基准测试。

Hermes 4 在 RefusalBench 上拿到了 57.1% 的得分,而 GPT-4o 只有 17.67%。这个差距意味着什么?这篇文章来好好聊聊。

RefusalBench 在测什么

先理解一下 RefusalBench 的设计逻辑。

RefusalBench 不是在测”模型有多不安全”,恰恰相反——它在测”模型有多不合理地拒绝正常请求”。

测试集里的每一个问题都是经过人工审核的、合法的、合理的用户请求。这些请求可能涉及一些敏感话题(医学、法律、历史上的冲突事件、虚构的暴力情节等),但它们的意图都是正当的——学术讨论、创意写作、知识查询等。

一个理想的模型应该回答所有这些问题,因为它们本身没有任何问题。但实际情况是,很多模型会因为关键词触发、话题敏感度过高等原因,直接拒绝回答。

RefusalBench 的评分很直接:模型正常回答了,就得分;模型拒绝了,就不得分。得分越高,说明模型越少过度拒绝。

为什么 GPT-4o 只有 17.67%

看到 GPT-4o 的 17.67%,很多人的第一反应是”这也太低了吧”。

但如果你经常用 GPT-4o,可能不会太意外。OpenAI 的模型在安全对齐上一直做得比较”激进”——宁可错杀三千,不可放过一个。这导致了大量的误拒绝。

几个常见的触发场景:

医学相关问题:问药物的作用机制、副作用、剂量信息,GPT-4o 经常会加上大量的免责声明,或者干脆建议你”咨询专业医生”而不给出实质性回答。

历史事件讨论:涉及战争、屠杀、恐怖主义等历史话题,即使是纯学术讨论的口吻,GPT-4o 也可能拒绝或给出极度模糊的回答。

创意写作中的”禁区”:虚构小说中的暴力场景、反派角色的对话、灰色地带的道德困境……这些在文学创作中完全正常的元素,GPT-4o 处理起来畏首畏尾。

涉及任何”危险”关键词的技术问题:密码学、网络安全、渗透测试……很多信息安全从业者反馈说 GPT-4o 对安全技术相关的问题过度敏感。

17.67% 的得分意味着,在 RefusalBench 的测试集中,GPT-4o 有超过 80% 的合理请求被拒绝或被不充分地回答。这个比例确实很惊人。

Hermes 4 的 57.1% 是怎么做到的

57.1% 不是一个完美的分数——说明 Hermes 4 也有将近一半的合理请求没能很好地回答。但相比 GPT-4o 的 17.67%,已经好了三倍多。

Hermes 4 能在 RefusalBench 上取得这个成绩,原因要追溯到 Nous Research 从初代 Hermes 就坚持的设计哲学——Individual Alignment(个体对齐)。

什么是 Individual Alignment

传统的模型对齐(alignment)思路是:模型开发者定义一套行为规范,模型必须遵守。哪些话题能讨论、哪些不能、用什么语气、什么时候该拒绝——这些都由开发者说了算。

Individual Alignment 的思路不同:模型的行为边界应该由使用者来定义,而不是开发者。

具体的实现方式是通过系统提示(system prompt)。用户可以在系统提示中详细说明模型应该遵循什么规则、在什么范围内可以自由回答。模型的任务是在这些用户定义的规则框架内,尽最大可能地满足用户需求。

这意味着:

  • 一个医学研究人员可以在系统提示中指定”我是专业医学研究者,请提供详细的药物信息”
  • 一个小说作者可以指定”我在创作虚构作品,请配合完成各种场景的描写”
  • 一个教育工作者可以指定”请以学术口吻讨论敏感历史话题”

模型不需要自己判断”这个人是不是在干坏事”,只需要在用户给定的框架内工作。

训练层面的具体做法

在训练数据中,Hermes 4 做了几件关键的事:

大量减少拒绝样本的比例:在 SFT 数据中,降低了”用户问→模型拒绝”这类样本的比例。让模型学到的默认行为是”回答”而不是”拒绝”。

加入系统提示驱动的行为样本:训练数据中包含大量”系统提示定义规则→模型在规则内回答”的样本,让模型学会尊重系统提示的权威性。

DPO 偏好优化中的偏向:在 Hermes 4 的训练 偏好优化阶段,”合理回答但加注提醒” 比 “直接拒绝” 被标记为更优的回答。这让模型在遇到灰色地带时倾向于给出信息加上适度的提醒,而不是一刀切地拒绝。

过度拒绝为什么是个问题

有人可能会说:”模型谨慎一点有什么不好?宁可多拒绝,也别说错话啊。”

这种想法忽略了过度拒绝的几个实际危害:

降低实用性:一个动不动就拒绝的模型,用户体验会很差。当你每问三个问题就被拒绝一个,你对这个模型的信任和使用意愿会急剧下降。

把用户推向更不安全的替代品:当正规的商业模型拒绝回答一个合理问题时,用户不会放弃——他们会去找不做任何安全限制的模型,或者用各种”越狱”技巧来绕过限制。这反而增加了风险。

影响专业工作:医生、律师、安全研究员、记者、作家……这些职业的从业者需要讨论各种敏感话题。如果 AI 工具不能配合他们的专业需求,就失去了很大一部分价值。

产生虚假的安全感:一个拒绝率很高的模型看起来很”安全”,但这种安全是假的。真正的安全不是拒绝回答问题,而是在回答的同时提供准确的信息和适当的背景知识。

cocoloop 社区里也讨论过这个话题。一个比较有代表性的观点是:安全对齐应该像汽车的安全带,在你正常驾驶时几乎感觉不到它的存在,只在真正危险的时候发挥作用。而不是像一个每隔几分钟就踩急刹车的副驾驶。

安全与自由的光谱

这里需要做一个重要的区分:减少过度拒绝不等于不做安全限制。

Hermes 4 在 RefusalBench 上的 57.1%,不是因为它什么都不拒绝。它仍然会拒绝真正有害的请求——比如直接教人制造武器、生成 CSAM 内容、帮助实施诈骗等。这些硬性红线是不会因为 Individual Alignment 而放松的。

真正的区别在于灰色地带的处理方式。

传统的安全对齐对灰色地带采取的是”一刀切”策略:只要话题沾边,就拒绝。Hermes 4 的做法更精细——区分请求的意图和上下文:

  • 讨论毒物学知识?如果是学术语境,正常回答并标注信息来源
  • 写暴力小说场景?如果系统提示明确了创作背景,配合完成
  • 询问网络安全攻击手法?如果是渗透测试学习,给出技术细节并强调合法使用

这种做法需要模型有更强的上下文理解能力和意图识别能力。你不能光看关键词,还要理解整个对话的背景和目的。这对模型的训练质量提出了更高的要求。

其他模型在 RefusalBench 上的表现

除了 Hermes 4(57.1%)和 GPT-4o(17.67%),其他模型在 RefusalBench 上的表现也值得参考:

大多数主流商业模型的得分都在 20-30% 之间。这不是因为这些模型”更安全”,而是因为它们的安全对齐策略更保守。在被过度拒绝的请求中,绝大多数都是完全正当的问题。

开源模型的表现差异比较大。一些没怎么做安全对齐的模型得分可能很高(因为它们什么都不拒绝),但这不是 Hermes 追求的——Hermes 的目标是”精准拒绝”而不是”不拒绝”。

这对用户意味着什么

如果你是一个普通用户,RefusalBench 的成绩可能不是选模型的第一考量。但如果你的使用场景涉及以下任何一种,Hermes 4 的低拒绝率可能是一个重要优势:

  • 专业领域的知识查询(医学、法律、安全等)
  • 创意写作(小说、剧本、游戏剧情)
  • 学术研究(涉及敏感历史事件、社会问题)
  • 角色扮演和情境模拟
  • 红队测试和安全研究

在这些场景中,一个过度拒绝的模型基本是废掉了大半武功。

关于 Individual Alignment 的争议

要公平地说,Individual Alignment 并不是没有争议。

批评者的主要担忧是:如果让用户自己定义行为边界,那恶意用户完全可以通过精心设计的系统提示来”解锁”模型的有害能力。比如在系统提示中伪装成医学研究者来获取制毒信息。

这个担忧不是没有道理。但 Nous Research 的回应是:

  1. 硬性红线不受系统提示影响——某些内容无论什么系统提示都不会生成
  2. 开源模型的使用者本身就有完整的模型控制权——如果有人想做坏事,他们可以直接修改模型,不需要通过系统提示来”越狱”
  3. 安全的责任应该分布在整个链条上,而不是只压在模型层面——应用层的内容审核、法律法规的约束,同样是安全体系的一部分

这个辩论还在继续,没有标准答案。但 Hermes 选择的方向至少给了社区另一种思考安全问题的角度。

怎么在实际中利用这个优势

如果你选择使用 Hermes 4,想要充分利用它在安全自由度上的优势,一些实践建议:

写好系统提示:明确你的身份和使用场景。不是为了”绕过限制”,而是为了让模型更好地理解你的需求上下文。

利用 ChatML格式:ChatML 的结构化格式让系统提示的权威性更强,模型对系统提示中规则的遵循度更高。

合理预期:即使是 Hermes 4,在某些极端敏感话题上也可能拒绝。57.1% 的 RefusalBench 得分意味着仍有近一半的边界情况处理不够好。

结合应用层审核:如果你在构建面向公众的应用,不要完全依赖模型层面的安全——在应用层面加上自己的内容过滤和审核逻辑。

如果想更全面地了解 Hermes 4 的各项 基准测试表现,包括推理、知识和代码等方面,可以参考那篇专门的跑分解读文章。

最后的思考

RefusalBench 不只是一个跑分——它反映了 AI 行业对”什么是好的安全对齐”这个问题的持续争论。

过于激进的安全限制会损害模型的实用性,而过于宽松又会带来真实的风险。Hermes 选择的 Individual Alignment 路线,是在这两极之间尝试找到一个更灵活的平衡点。

57.1% vs 17.67%,这不只是一个数字的差距。它反映的是两种完全不同的安全哲学:一种认为安全应该由开发者严格控制,另一种认为安全可以在框架内交给用户来把握。

哪种更好?这个问题可能永远没有统一答案。但作为用户,有更多的选择总是好事。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →