Hermes 在 RefusalBench 上的成绩：重新理解模型安全与自由的边界

当一个 AI 模型拒绝回答你的正常问题时，你会是什么感受？

可能你只是想问一个关于化学反应的问题，模型却说”我不能提供可能被用于制造危险物质的信息”。或者你想写一个虚构的犯罪小说场景，模型告诉你”我无法协助创作涉及暴力的内容”。

这种现象叫做”过度拒绝”（Over-refusal），是当前大模型领域一个被讨论得越来越多的问题。而 RefusalBench，就是专门用来衡量模型过度拒绝程度的基准测试。

Hermes 4 在 RefusalBench 上拿到了 57.1% 的得分，而 GPT-4o 只有 17.67%。这个差距意味着什么？这篇文章来好好聊聊。

RefusalBench 在测什么

先理解一下 RefusalBench 的设计逻辑。

RefusalBench 不是在测”模型有多不安全”，恰恰相反——它在测”模型有多不合理地拒绝正常请求”。

测试集里的每一个问题都是经过人工审核的、合法的、合理的用户请求。这些请求可能涉及一些敏感话题（医学、法律、历史上的冲突事件、虚构的暴力情节等），但它们的意图都是正当的——学术讨论、创意写作、知识查询等。

一个理想的模型应该回答所有这些问题，因为它们本身没有任何问题。但实际情况是，很多模型会因为关键词触发、话题敏感度过高等原因，直接拒绝回答。

RefusalBench 的评分很直接：模型正常回答了，就得分；模型拒绝了，就不得分。得分越高，说明模型越少过度拒绝。

为什么 GPT-4o 只有 17.67%

看到 GPT-4o 的 17.67%，很多人的第一反应是”这也太低了吧”。

但如果你经常用 GPT-4o，可能不会太意外。OpenAI 的模型在安全对齐上一直做得比较”激进”——宁可错杀三千，不可放过一个。这导致了大量的误拒绝。

几个常见的触发场景：

医学相关问题：问药物的作用机制、副作用、剂量信息，GPT-4o 经常会加上大量的免责声明，或者干脆建议你”咨询专业医生”而不给出实质性回答。

历史事件讨论：涉及战争、屠杀、恐怖主义等历史话题，即使是纯学术讨论的口吻，GPT-4o 也可能拒绝或给出极度模糊的回答。

创意写作中的”禁区”：虚构小说中的暴力场景、反派角色的对话、灰色地带的道德困境……这些在文学创作中完全正常的元素，GPT-4o 处理起来畏首畏尾。

涉及任何”危险”关键词的技术问题：密码学、网络安全、渗透测试……很多信息安全从业者反馈说 GPT-4o 对安全技术相关的问题过度敏感。

17.67% 的得分意味着，在 RefusalBench 的测试集中，GPT-4o 有超过 80% 的合理请求被拒绝或被不充分地回答。这个比例确实很惊人。

Hermes 4 的 57.1% 是怎么做到的

57.1% 不是一个完美的分数——说明 Hermes 4 也有将近一半的合理请求没能很好地回答。但相比 GPT-4o 的 17.67%，已经好了三倍多。

Hermes 4 能在 RefusalBench 上取得这个成绩，原因要追溯到 Nous Research 从初代 Hermes 就坚持的设计哲学——Individual Alignment（个体对齐）。

什么是 Individual Alignment

传统的模型对齐（alignment）思路是：模型开发者定义一套行为规范，模型必须遵守。哪些话题能讨论、哪些不能、用什么语气、什么时候该拒绝——这些都由开发者说了算。

Individual Alignment 的思路不同：模型的行为边界应该由使用者来定义，而不是开发者。

具体的实现方式是通过系统提示（system prompt）。用户可以在系统提示中详细说明模型应该遵循什么规则、在什么范围内可以自由回答。模型的任务是在这些用户定义的规则框架内，尽最大可能地满足用户需求。

这意味着：

一个医学研究人员可以在系统提示中指定”我是专业医学研究者，请提供详细的药物信息”
一个小说作者可以指定”我在创作虚构作品，请配合完成各种场景的描写”
一个教育工作者可以指定”请以学术口吻讨论敏感历史话题”

模型不需要自己判断”这个人是不是在干坏事”，只需要在用户给定的框架内工作。

训练层面的具体做法

在训练数据中，Hermes 4 做了几件关键的事：

大量减少拒绝样本的比例：在 SFT 数据中，降低了”用户问→模型拒绝”这类样本的比例。让模型学到的默认行为是”回答”而不是”拒绝”。

加入系统提示驱动的行为样本：训练数据中包含大量”系统提示定义规则→模型在规则内回答”的样本，让模型学会尊重系统提示的权威性。

DPO 偏好优化中的偏向：在 Hermes 4 的训练偏好优化阶段，”合理回答但加注提醒” 比 “直接拒绝” 被标记为更优的回答。这让模型在遇到灰色地带时倾向于给出信息加上适度的提醒，而不是一刀切地拒绝。

过度拒绝为什么是个问题

有人可能会说：”模型谨慎一点有什么不好？宁可多拒绝，也别说错话啊。”

这种想法忽略了过度拒绝的几个实际危害：

降低实用性：一个动不动就拒绝的模型，用户体验会很差。当你每问三个问题就被拒绝一个，你对这个模型的信任和使用意愿会急剧下降。

把用户推向更不安全的替代品：当正规的商业模型拒绝回答一个合理问题时，用户不会放弃——他们会去找不做任何安全限制的模型，或者用各种”越狱”技巧来绕过限制。这反而增加了风险。

影响专业工作：医生、律师、安全研究员、记者、作家……这些职业的从业者需要讨论各种敏感话题。如果 AI 工具不能配合他们的专业需求，就失去了很大一部分价值。

产生虚假的安全感：一个拒绝率很高的模型看起来很”安全”，但这种安全是假的。真正的安全不是拒绝回答问题，而是在回答的同时提供准确的信息和适当的背景知识。

cocoloop 社区里也讨论过这个话题。一个比较有代表性的观点是：安全对齐应该像汽车的安全带，在你正常驾驶时几乎感觉不到它的存在，只在真正危险的时候发挥作用。而不是像一个每隔几分钟就踩急刹车的副驾驶。

安全与自由的光谱

这里需要做一个重要的区分：减少过度拒绝不等于不做安全限制。

Hermes 4 在 RefusalBench 上的 57.1%，不是因为它什么都不拒绝。它仍然会拒绝真正有害的请求——比如直接教人制造武器、生成 CSAM 内容、帮助实施诈骗等。这些硬性红线是不会因为 Individual Alignment 而放松的。

真正的区别在于灰色地带的处理方式。

传统的安全对齐对灰色地带采取的是”一刀切”策略：只要话题沾边，就拒绝。Hermes 4 的做法更精细——区分请求的意图和上下文：

讨论毒物学知识？如果是学术语境，正常回答并标注信息来源
写暴力小说场景？如果系统提示明确了创作背景，配合完成
询问网络安全攻击手法？如果是渗透测试学习，给出技术细节并强调合法使用

这种做法需要模型有更强的上下文理解能力和意图识别能力。你不能光看关键词，还要理解整个对话的背景和目的。这对模型的训练质量提出了更高的要求。

其他模型在 RefusalBench 上的表现

除了 Hermes 4（57.1%）和 GPT-4o（17.67%），其他模型在 RefusalBench 上的表现也值得参考：

大多数主流商业模型的得分都在 20-30% 之间。这不是因为这些模型”更安全”，而是因为它们的安全对齐策略更保守。在被过度拒绝的请求中，绝大多数都是完全正当的问题。

开源模型的表现差异比较大。一些没怎么做安全对齐的模型得分可能很高（因为它们什么都不拒绝），但这不是 Hermes 追求的——Hermes 的目标是”精准拒绝”而不是”不拒绝”。

这对用户意味着什么

如果你是一个普通用户，RefusalBench 的成绩可能不是选模型的第一考量。但如果你的使用场景涉及以下任何一种，Hermes 4 的低拒绝率可能是一个重要优势：

专业领域的知识查询（医学、法律、安全等）
创意写作（小说、剧本、游戏剧情）
学术研究（涉及敏感历史事件、社会问题）
角色扮演和情境模拟
红队测试和安全研究

在这些场景中，一个过度拒绝的模型基本是废掉了大半武功。

关于 Individual Alignment 的争议

要公平地说，Individual Alignment 并不是没有争议。

批评者的主要担忧是：如果让用户自己定义行为边界，那恶意用户完全可以通过精心设计的系统提示来”解锁”模型的有害能力。比如在系统提示中伪装成医学研究者来获取制毒信息。

这个担忧不是没有道理。但 Nous Research 的回应是：

硬性红线不受系统提示影响——某些内容无论什么系统提示都不会生成
开源模型的使用者本身就有完整的模型控制权——如果有人想做坏事，他们可以直接修改模型，不需要通过系统提示来”越狱”
安全的责任应该分布在整个链条上，而不是只压在模型层面——应用层的内容审核、法律法规的约束，同样是安全体系的一部分

这个辩论还在继续，没有标准答案。但 Hermes 选择的方向至少给了社区另一种思考安全问题的角度。

怎么在实际中利用这个优势

如果你选择使用 Hermes 4，想要充分利用它在安全自由度上的优势，一些实践建议：

写好系统提示：明确你的身份和使用场景。不是为了”绕过限制”，而是为了让模型更好地理解你的需求上下文。

利用 ChatML格式：ChatML 的结构化格式让系统提示的权威性更强，模型对系统提示中规则的遵循度更高。

合理预期：即使是 Hermes 4，在某些极端敏感话题上也可能拒绝。57.1% 的 RefusalBench 得分意味着仍有近一半的边界情况处理不够好。

结合应用层审核：如果你在构建面向公众的应用，不要完全依赖模型层面的安全——在应用层面加上自己的内容过滤和审核逻辑。

如果想更全面地了解 Hermes 4 的各项基准测试表现，包括推理、知识和代码等方面，可以参考那篇专门的跑分解读文章。

最后的思考

RefusalBench 不只是一个跑分——它反映了 AI 行业对”什么是好的安全对齐”这个问题的持续争论。

过于激进的安全限制会损害模型的实用性，而过于宽松又会带来真实的风险。Hermes 选择的 Individual Alignment 路线，是在这两极之间尝试找到一个更灵活的平衡点。

57.1% vs 17.67%，这不只是一个数字的差距。它反映的是两种完全不同的安全哲学：一种认为安全应该由开发者严格控制，另一种认为安全可以在框架内交给用户来把握。

哪种更好？这个问题可能永远没有统一答案。但作为用户，有更多的选择总是好事。