2024 年 9 月,OpenAI 发布 o1 模型,整个行业第一次见识到了”让模型花时间想一想”能带来多大的提升。o1 在数学竞赛题上的表现让一堆研究者大呼看不懂——一个语言模型怎么能做对这么难的数学题?
答案就两个字:推理。
o1 在生成最终答案之前,会先进行一段长长的内部推理过程。这个过程消耗大量的 token(也就是更多的计算时间),但换来的是质量上的巨大跃升。
这个思路很快被开源社区学了过去。DeepHermes 和 Hermes 4 就是 Nous Research 在这个方向上的尝试。今天来聊聊它们的推理机制到底是怎么工作的。
从 Chain-of-Thought 到 Think 标签
推理模型的概念并不是 o1 发明的。早在 2022 年,Google 的研究者就提出了 Chain-of-Thought(CoT,思维链)技术——通过在提示词中加入”请一步一步思考”之类的引导,让模型在回答之前先展示推理步骤。
CoT 的效果很明显:在需要多步推理的数学题和逻辑题上,加了 CoT 提示的模型比直接回答的模型准确率高出一大截。
但传统的 CoT 有一个问题——它是提示级别的(prompt-level)。你需要在提示词中告诉模型”请先想再答”,模型才会这么做。如果你不提示,模型就直接输出答案。而且,不同的提示措辞效果差异很大,这让 CoT 的表现不够稳定。
o1 做的事情本质上是把 CoT “内化”到了模型里——不需要用户提示,模型自己就知道什么时候该想、怎么想。推理过程被集成到了模型的前向传播中,而不是依赖于外部提示。
DeepHermes 和 Hermes 4 走的也是类似的路线,但实现方式有所不同。
Think 标签的技术实现
Hermes 4 和 DeepHermes 使用 <think> 和 </think> 标签来标记推理过程。模型的输出结构是这样的:
1 | <think> |
这种设计有几个好处:
透明性:用户(或开发者)可以看到完整的推理过程,方便调试和验证。o1 的推理过程是隐藏的,用户只能看到最终结果。这在某些场景下是个劣势——你无法判断模型的答案是怎么推出来的。
可控性:通过系统提示,用户可以控制模型是否使用 think 模式。比如在时间敏感的场景中,可以要求模型跳过推理直接回答。
灵活性:think 标签内的内容格式自由,模型可以根据问题类型选择不同的推理策略——数学题就列算式,逻辑题就做排除法,代码题就模拟执行。
训练过程
要让模型学会在 think 标签里做推理,训练数据需要精心构建。Nous Research 的做法是:
第一步:构造推理链数据
用强模型(GPT-4、Claude 等)生成带有完整推理过程的回答。每条训练样本包含三个部分:用户问题、think 标签内的推理过程、最终答案。
生成后需要严格验证——推理过程必须逻辑连贯,最终答案必须正确。对于数学题,答案可以程序化验证;对于其他类型的问题,需要更复杂的评估方法。
第二步:加入不需要推理的样本
如果训练数据里全是带 think 标签的样本,模型就会变成”什么问题都要想半天”的状态。所以训练数据中需要混入大量不需要推理的简单对话,让模型学会判断什么时候该思考、什么时候该直出。
这就是 Hermes 4 被称为”混合推理”模型的原因——它不是一个纯推理模型,而是一个能在推理模式和直出模式之间灵活切换的模型。
第三步:强化学习微调
在 SFT 之后,可能还会用某种形式的强化学习来优化推理策略。比如,奖励那些推理过程简洁且答案正确的样本,惩罚那些推理冗长但答案错误的样本。这让模型学会”高效地思考”而不是”磨洋工”。
30K Token 的推理上限
Hermes 4 的推理 token 上限是 30K。这意味着 think 标签内的推理过程最多可以包含约 30,000 个 token(大约 2 万多中文字)。
30K 够用吗?对于绝大多数问题来说,绰绰有余。即使是非常复杂的数学竞赛题,推理过程通常也在几千 token 以内。30K 更多是一个安全边界——防止模型在某些极端情况下陷入无限推理循环。
但也有一些场景可能接近这个上限:
- 需要大量枚举的组合问题
- 需要逐行分析的长代码 debug
- 需要多次自我验证和修正的复杂问题
当推理过程被截断时(达到 30K 上限),模型会被迫在不完整的推理基础上给出答案。这时候答案质量可能会下降。
DeepHermes vs Hermes 4:两种推理哲学
DeepHermes 和 Hermes 4 都能做推理,但它们的定位不同。
Hermes 4:混合型选手
Hermes 4 是一个全面的模型。它可以推理,但也擅长普通对话、创意写作、角色扮演等非推理任务。think 标签只在需要的时候才出现。
适合的场景:需要一个”万能助手”,既能帮你做数学题,也能帮你写邮件。
DeepHermes:推理特化型
DeepHermes 默认就会进行深度推理,即使是相对简单的问题也会走一遍思考过程。它在数学、科学、编程这些对逻辑严密性要求高的领域表现更好。
适合的场景:主要用模型来解决技术问题、做分析、写代码。不需要它陪你聊天,只需要它给出准确的答案。
用一个类比来说:Hermes 4 像是一个能文能武的全科生,DeepHermes 像是一个理科竞赛选手。
和 OpenAI o1 的正面比较
既然灵感来自 o1,那就不得不做个比较。
推理深度
o1 的推理深度目前仍然是天花板级别的。在国际数学奥林匹克(IMO)难度的题目上,o1 的表现远超目前所有开源模型,包括 DeepHermes。
但在中等难度范围内(MATH-500、AIME 2024),差距要小得多。Hermes 4 在 MATH-500 上的 96.3% 已经非常接近 o1 的水平。在 AIME 2024 上的 81.9% 也是一个相当有竞争力的成绩。
推理效率
o1 的推理 token 消耗通常很高——对于复杂问题可能会消耗几万甚至十几万 token 的推理过程。Hermes 4 的推理相对更”克制”,大多数情况下在几百到几千 token 就能完成。
从成本角度看,Hermes 4 的推理效率更高。当然,如果你追求极致的推理质量且不在乎成本,o1 仍然是更好的选择。
透明度
这是 Hermes 系列的绝对优势。o1 的推理过程是完全黑箱的,OpenAI 在 API 中只会返回少量的推理摘要(reasoning summary),不会展示原始的推理过程。
DeepHermes 和 Hermes 4 的推理过程完全透明——think 标签内的所有内容都原样输出。这对于学术研究、教育场景、以及需要可解释性的应用来说,是一个巨大的优势。
部署灵活性
o1 只能通过 OpenAI 的 API 使用,受限于 OpenAI 的使用条款和定价。DeepHermes 和 Hermes 4 是开源的,可以本地部署、自定义修改、不受任何使用限制。
这对于企业用户来说特别重要——很多企业不愿意把敏感数据发送到第三方 API,本地部署是刚需。
推理模型的核心挑战
开发推理模型不是简单地”加个 think 标签”就完事了。这里面有几个核心的技术挑战:
推理质量的一致性
模型有时候会在 think 标签里走弯路——花了很多 token 分析了一个错误的方向,最后不得不推翻重来。更糟的情况是推理过程前后矛盾——前面得出的结论和后面的推导相矛盾。
要解决这个问题,需要在训练数据中加入大量”自我纠正”的样本——模型发现错误后主动修正,而不是将错就错。
什么时候该停止思考
推理不是越多越好。对于简单问题,过度推理是浪费;对于无解的问题,无限推理更是灾难。模型需要学会判断”想够了”——推理已经充分,可以给出答案了。
30K 的 token 上限是一个硬性保护,但更好的方案是让模型自己学会”到此为止”。这需要在训练中加入推理长度的奖励信号——鼓励在保证质量的前提下尽量简洁。
推理和最终答案的一致性
有时候会出现一个奇怪的现象:think 标签里的推理过程是对的,但最终答案是错的(或者反过来)。这说明推理过程和答案生成之间的耦合还不够紧密。
这是一个活跃的研究方向,目前还没有完美的解决方案。
开源推理模型的生态
DeepHermes 不是唯一的开源推理模型。这个赛道上还有几个重要的玩家:
DeepSeek-R1:DeepSeek 的推理模型,在数学和科学领域表现很强。它的特点是推理链非常长且详细,适合需要精确推理的场景。
QwQ:通义千问推出的推理模型。对中文场景的支持比较好,在中文数学题上的表现很有竞争力。
Skywork-o1:昆仑万维的推理模型系列,也是 think 标签路线。
这些模型各有优劣,但共同的趋势是明确的:推理能力正在成为开源模型的标配功能,而不是少数模型的专属特性。
cocoloop 社区有用户做过横向对比测试,结论是:在综合能力上 Hermes 4 和 DeepSeek-R1 互有胜负,但 Hermes 4 在 Function Calling 和 agent 场景上有明显优势——毕竟推理只是 Hermes 的能力之一,不是全部。
实际使用中的体会
用了一段时间 DeepHermes 之后,有几点感受比较深:
推理过程本身就很有价值。即使最终答案是错的,推理过程也能帮你理解问题的结构和可能的解法方向。这在学习和研究场景中特别有用。
不同问题选不同模型。对于需要精确推理的硬核问题(数学、逻辑、代码),用 DeepHermes。对于日常对话和创意任务,用 Hermes 4 的直出模式。没必要一个模型打天下。
推理结果需要验证。再强的推理模型也会犯错。把推理过程当作”参考意见”而不是”标准答案”,用自己的判断做最终决策。
长推理不等于好推理。有时候模型会在 think 标签里绕弯子,写了几千 token 的推理但大部分是无用信息。推理质量比推理长度重要得多。
推理能力的未来
从 o1 的发布到现在(2026 年),推理模型已经从一个新奇概念变成了行业标配。未来的方向可能包括:
更高效的推理:用更少的 token 完成同等质量的推理。现在的推理模型普遍”话多”,有很大的优化空间。
多模态推理:在图像、图表、公式上做推理,而不只是纯文本。这对于科学和工程领域尤其重要。
推理过程的可控性:让用户能更精细地控制推理的深度和方向。比如指定”只用代数方法解这道题”或”推理过程不超过 500 token”。
推理和行动的结合:让推理模型不只是”想”,还能”做”——在推理过程中调用工具、检索信息、执行代码。这是 agent 和推理的结合方向。
如果想了解 Hermes 4 的 基准测试成绩 具体是什么水平,以及各项跑分代表什么含义,另一篇文章有详细的解读。
推理能力的加入让开源模型迈上了一个新台阶。DeepHermes 和 Hermes 4 证明了:你不需要每个月花几千块的 API 费用,也能用上有推理能力的大模型。这对于个人开发者和小团队来说,是实实在在的福音。