Hermes 4 是 Nous Research 在 2025 年推出的重磅升级,基于 Llama 3.1 架构,提供 14B、70B 和 405B 三个版本。但真正让人兴奋的不是参数量的变化,而是它引入的混合推理模式——模型在回答之前,可以先在 think 标签里”想一想”。
我用了大概两周时间,在不同场景下测试了 Hermes 4 的推理能力。这篇文章不聊理论,主要说说实际用起来是什么感觉。
混合推理是什么意思
先把概念理清楚。所谓”混合推理”(Hybrid Reasoning),指的是模型可以在两种模式之间灵活切换:
直出模式:收到问题后直接生成答案,和普通的对话模型一样。速度快,适合简单问题。
思考模式:在生成最终答案之前,先在 <think> 和 </think> 标签之间进行一段内部推理。这个过程类似于人在做数学题时先在草稿纸上演算一遍。
关键在于”混合”这两个字。Hermes 4 不是永远在思考,也不是永远直出,而是根据问题的复杂度自动判断要不要启动思考模式。简单的闲聊就直接回,遇到需要多步推理的数学题或逻辑问题,它就会先想再答。
这个设计思路和 OpenAI 的 o1 模型有异曲同工之处,但实现方式不同。o1 的推理过程对用户完全不可见,你只能看到最终答案。而 Hermes 4 的 think 标签是完全透明的——你能看到模型的完整思考过程,包括它走的弯路和自我纠正。
think 标签长什么样
实际使用中,Hermes 4 的输出大概是这样的格式:
1 | <think> |
你能清楚看到模型先列出了解题思路,做了计算,甚至还做了一步验证。这个透明度对于调试和学习来说都很有价值。
什么时候会触发思考模式
在测试过程中,我观察到的触发规律大概是这样的:
基本会触发思考的场景:
- 数学计算题,特别是多步骤的
- 逻辑推理题(比如谁说谎之类的)
- 代码 debug,需要追踪变量状态的
- 需要对比分析多个选项的决策题
- 复杂的文本理解题
基本不会触发的场景:
- 日常闲聊(”今天天气怎么样”)
- 简单的知识问答(”Python 的列表用什么符号”)
- 翻译任务
- 短文本改写
有时候触发有时候不触发:
- 中等难度的编程任务
- 写作类需求(看复杂程度)
- 数据分析类问题
这个判断机制不是完美的。偶尔会遇到一些明明不需要思考的简单问题,模型也会进入思考模式,浪费了几秒钟时间。但总体来说,触发的准确率还不错。
推理质量到底怎么样
这才是最核心的问题。直接上结论:Hermes 4 的推理质量相当强,在数学和代码领域尤其突出。
数学推理
Hermes 4 在 MATH-500 上的得分是 96.3%。这个分数意味着什么?MATH-500 是从 MATH 数据集中抽取的 500 道竞赛级数学题,覆盖代数、几何、数论、组合等多个分支。96.3% 的正确率说明模型在高中到本科竞赛级别的数学题上已经非常可靠了。
实际测试中,我用了一些非标准的数学题来测,刻意避开常见题型。Hermes 4 在处理这些”没见过”的题目时表现也很稳定,think 标签里的推理步骤基本都是对的,偶尔会在最后一步计算上出错(大模型的通病——纯算术计算不太行)。
在 AIME 2024(美国数学邀请赛)上,Hermes 4 拿到了 81.9% 的得分。AIME 的难度比 MATH-500 高出不少,这个成绩放在开源模型里属于顶级水平。
代码推理
在代码场景下,think 标签的价值体现得特别明显。当你让 Hermes 4 帮你 debug 一段代码时,它会在思考过程中逐行模拟执行,追踪变量的变化,然后精确定位问题。
我测了几个典型的 debug 场景:
- 一个 off-by-one 错误的循环:Hermes 4 在 think 中模拟了前三次迭代,准确找到了边界条件的 bug
- 一个递归函数的栈溢出问题:在 think 中画出了调用栈,发现缺少终止条件
- 一个并发竞态条件:这个比较难,Hermes 4 在 think 中列出了两种可能的执行顺序,指出了竞态发生的具体位置
不过,对于特别长的代码(超过 200 行),思考过程有时候会变得冗长而不够聚焦。这时候它的效率反而不如一些专门的代码模型。
逻辑推理
逻辑题是 think 模式最”吃香”的领域。那种需要多步排除、条件组合的题目,Hermes 4 处理得很漂亮。
比如经典的”五个人住不同颜色的房子”这类约束满足问题,Hermes 4 会在 think 中建立约束表,逐步排除,最终给出答案。过程清晰,基本不犯错。
和直出模式的对比
一个自然的问题是:开启思考模式后,答案质量提升了多少?
我做了个简单的对比实验:选了 50 道涵盖数学、代码、逻辑的题目,分别用 think 模式和强制直出模式(在 system prompt 中要求模型不要使用 think 标签)回答。
结果很明显:
| 类别 | Think 模式正确率 | 直出模式正确率 | 提升幅度 |
|---|---|---|---|
| 数学题 | 88% | 62% | +26% |
| 代码 debug | 82% | 70% | +12% |
| 逻辑推理 | 90% | 68% | +22% |
| 知识问答 | 94% | 92% | +2% |
| 创意写作 | 无法量化 | 无法量化 | - |
数学和逻辑推理的提升最大,这完全在预期之内。知识问答几乎没差别——这类题目不需要推理,模型要么知道要么不知道,想再久也没用。
但 think 模式也有代价:推理 token 数量会增加,意味着响应时间更长、成本更高。一般来说,think 部分的 token 数在几百到几千不等,最多可以到 30K tokens。在时间敏感的应用场景里,这个额外开销需要权衡。
5000 万训练样本的底气
Hermes 4 的训练数据量相比前代有了质的飞跃——从之前的几十万样本级别扩展到了 5000 万个训练样本。这个数据量在开源微调模型中是极其罕见的。
数据的构成大致包括:
- 大规模合成的推理链数据(让模型学会”怎么想”)
- 经过验证的数学解题过程
- 代码生成和 debug 的成对数据
- 多轮对话和 ChatML格式 的交互数据
- function calling 和 agent 场景数据
这也是为什么 Hermes 4 能同时在推理和对话两个方向上都表现出色的原因——训练数据足够多样和充分。cocoloop 社区有人分析过,5000 万样本如果全部用人工标注的话,成本会是天文数字,所以合成数据在其中占了很大比例,但合成的质量控制做得不错。
和其他推理模型的横向比较
既然 Hermes 4 的推理能力这么强,那和其他推理模型比起来如何?
vs OpenAI o1:o1 的推理能力目前仍然是天花板级别的,特别是在数学和科学领域。Hermes 4 在中等难度问题上和 o1 差距不大,但在顶级竞赛难度的题目上还有差距。不过 Hermes 4 胜在开源、可部署、推理过程透明。
vs DeepSeek-R1:两者定位很像,都是强调推理的开源模型。在大部分基准测试上互有胜负。Hermes 4 在 function calling 和 agent 场景上更强,DeepSeek-R1 在纯数学和科学推理上稍有优势。
vs QwQ:通义千问的 QwQ 也是混合推理路线。从社区反馈来看,两者各有千秋,但 Hermes 4 的 多版本覆盖 让用户有更多选择空间。
实际使用建议
用了两周之后,我总结了一些实际使用的心得:
适合开启 think 模式的场景:
- 数学作业批改和辅导
- 代码审查和 bug 定位
- 需要逻辑严密的文案(合同、法律文书等)
- 复杂的数据分析
建议关闭 think 模式的场景:
- 实时聊天机器人(响应速度优先)
- 简单的翻译和文本处理
- 批量化的模板生成任务
部署建议:
- 14B 版本适合个人和小团队,量化后可以在单卡上跑
- 70B 版本是生产环境的首选平衡点
- 405B 版本适合追求极致质量且不差算力预算的场景
还有哪些不足
客观说,Hermes 4 也不是没有问题:
- 思考过程偶尔冗余:有些简单问题模型也会进入长篇思考,浪费 token
- think 标签偶尔格式混乱:极少数情况下,think 标签没有正确闭合,导致思考内容泄露到正式回答里
- 中文推理能力弱于英文:虽然基础对话的中文很流畅,但在复杂数学推理中,英文 prompt 的表现明显好于中文
- 推理链偶尔自相矛盾:在特别复杂的问题上,think 中的推理过程偶尔会前后矛盾,但最终答案可能碰巧是对的
这些问题不算致命,但在生产环境中需要注意。特别是 think 标签的格式问题,如果你在做后处理解析的话需要做好容错。
我的整体评价
Hermes 4 的混合推理模式是开源模型的一个重要里程碑。它让普通开发者也能用上类似 o1 的推理能力,而且还能看到完整的思考过程。
如果你的应用场景对推理质量有要求,Hermes 4 大概是目前开源方案中的最优选择之一。如果对 Hermes 的基准测试成绩 感兴趣,可以参考我另一篇文章,那里有更详细的跑分解读。
一句话概括:Hermes 4 把”会想”这件事做到了开源模型的前列,虽然还不完美,但已经足够实用。
延伸阅读:OpenClaw 社区资源
本文由 CocoLoop 中文社区出品。如果你在研究 AI Agent 与主流模型的工程化落地,姊妹站 OpenClaw 中文社区 也许会有帮助: