DeepHermes 与深度推理:开源模型也能像 o1 一样思考

深入解析 DeepHermes 和 Hermes 4 的混合推理机制,包括 think 标签的技术实现、30K 推理 token 上限、与 OpenAI o1 的对比,以及开源推理模型的发展前景。

目录

  1. 从 Chain-of-Thought 到 Think 标签
  2. Think 标签的技术实现
    1. 训练过程
    2. 30K Token 的推理上限
  3. DeepHermes vs Hermes 4:两种推理哲学
  4. 和 OpenAI o1 的正面比较
    1. 推理深度
    2. 推理效率
    3. 透明度
    4. 部署灵活性
  5. 推理模型的核心挑战
    1. 推理质量的一致性
    2. 什么时候该停止思考
    3. 推理和最终答案的一致性
  6. 开源推理模型的生态
  7. 实际使用中的体会
  8. 推理能力的未来

2024 年 9 月,OpenAI 发布 o1 模型,整个行业第一次见识到了”让模型花时间想一想”能带来多大的提升。o1 在数学竞赛题上的表现让一堆研究者大呼看不懂——一个语言模型怎么能做对这么难的数学题?

答案就两个字:推理。

o1 在生成最终答案之前,会先进行一段长长的内部推理过程。这个过程消耗大量的 token(也就是更多的计算时间),但换来的是质量上的巨大跃升。

这个思路很快被开源社区学了过去。DeepHermes 和 Hermes 4 就是 Nous Research 在这个方向上的尝试。今天来聊聊它们的推理机制到底是怎么工作的。

从 Chain-of-Thought 到 Think 标签

推理模型的概念并不是 o1 发明的。早在 2022 年,Google 的研究者就提出了 Chain-of-Thought(CoT,思维链)技术——通过在提示词中加入”请一步一步思考”之类的引导,让模型在回答之前先展示推理步骤。

CoT 的效果很明显:在需要多步推理的数学题和逻辑题上,加了 CoT 提示的模型比直接回答的模型准确率高出一大截。

但传统的 CoT 有一个问题——它是提示级别的(prompt-level)。你需要在提示词中告诉模型”请先想再答”,模型才会这么做。如果你不提示,模型就直接输出答案。而且,不同的提示措辞效果差异很大,这让 CoT 的表现不够稳定。

o1 做的事情本质上是把 CoT “内化”到了模型里——不需要用户提示,模型自己就知道什么时候该想、怎么想。推理过程被集成到了模型的前向传播中,而不是依赖于外部提示。

DeepHermes 和 Hermes 4 走的也是类似的路线,但实现方式有所不同。

Think 标签的技术实现

Hermes 4 和 DeepHermes 使用 <think></think> 标签来标记推理过程。模型的输出结构是这样的:

1
2
3
4
5
<think>
[推理过程,可能包含多步分析、计算、验证]
</think>

[基于推理得出的最终答案]

这种设计有几个好处:

透明性:用户(或开发者)可以看到完整的推理过程,方便调试和验证。o1 的推理过程是隐藏的,用户只能看到最终结果。这在某些场景下是个劣势——你无法判断模型的答案是怎么推出来的。

可控性:通过系统提示,用户可以控制模型是否使用 think 模式。比如在时间敏感的场景中,可以要求模型跳过推理直接回答。

灵活性:think 标签内的内容格式自由,模型可以根据问题类型选择不同的推理策略——数学题就列算式,逻辑题就做排除法,代码题就模拟执行。

训练过程

要让模型学会在 think 标签里做推理,训练数据需要精心构建。Nous Research 的做法是:

第一步:构造推理链数据

用强模型(GPT-4、Claude 等)生成带有完整推理过程的回答。每条训练样本包含三个部分:用户问题、think 标签内的推理过程、最终答案。

生成后需要严格验证——推理过程必须逻辑连贯,最终答案必须正确。对于数学题,答案可以程序化验证;对于其他类型的问题,需要更复杂的评估方法。

第二步:加入不需要推理的样本

如果训练数据里全是带 think 标签的样本,模型就会变成”什么问题都要想半天”的状态。所以训练数据中需要混入大量不需要推理的简单对话,让模型学会判断什么时候该思考、什么时候该直出。

这就是 Hermes 4 被称为”混合推理”模型的原因——它不是一个纯推理模型,而是一个能在推理模式和直出模式之间灵活切换的模型。

第三步:强化学习微调

在 SFT 之后,可能还会用某种形式的强化学习来优化推理策略。比如,奖励那些推理过程简洁且答案正确的样本,惩罚那些推理冗长但答案错误的样本。这让模型学会”高效地思考”而不是”磨洋工”。

30K Token 的推理上限

Hermes 4 的推理 token 上限是 30K。这意味着 think 标签内的推理过程最多可以包含约 30,000 个 token(大约 2 万多中文字)。

30K 够用吗?对于绝大多数问题来说,绰绰有余。即使是非常复杂的数学竞赛题,推理过程通常也在几千 token 以内。30K 更多是一个安全边界——防止模型在某些极端情况下陷入无限推理循环。

但也有一些场景可能接近这个上限:

  • 需要大量枚举的组合问题
  • 需要逐行分析的长代码 debug
  • 需要多次自我验证和修正的复杂问题

当推理过程被截断时(达到 30K 上限),模型会被迫在不完整的推理基础上给出答案。这时候答案质量可能会下降。

DeepHermes vs Hermes 4:两种推理哲学

DeepHermes 和 Hermes 4 都能做推理,但它们的定位不同。

Hermes 4:混合型选手

Hermes 4 是一个全面的模型。它可以推理,但也擅长普通对话、创意写作、角色扮演等非推理任务。think 标签只在需要的时候才出现。

适合的场景:需要一个”万能助手”,既能帮你做数学题,也能帮你写邮件。

DeepHermes:推理特化型

DeepHermes 默认就会进行深度推理,即使是相对简单的问题也会走一遍思考过程。它在数学、科学、编程这些对逻辑严密性要求高的领域表现更好。

适合的场景:主要用模型来解决技术问题、做分析、写代码。不需要它陪你聊天,只需要它给出准确的答案。

用一个类比来说:Hermes 4 像是一个能文能武的全科生,DeepHermes 像是一个理科竞赛选手。

和 OpenAI o1 的正面比较

既然灵感来自 o1,那就不得不做个比较。

推理深度

o1 的推理深度目前仍然是天花板级别的。在国际数学奥林匹克(IMO)难度的题目上,o1 的表现远超目前所有开源模型,包括 DeepHermes。

但在中等难度范围内(MATH-500、AIME 2024),差距要小得多。Hermes 4 在 MATH-500 上的 96.3% 已经非常接近 o1 的水平。在 AIME 2024 上的 81.9% 也是一个相当有竞争力的成绩。

推理效率

o1 的推理 token 消耗通常很高——对于复杂问题可能会消耗几万甚至十几万 token 的推理过程。Hermes 4 的推理相对更”克制”,大多数情况下在几百到几千 token 就能完成。

从成本角度看,Hermes 4 的推理效率更高。当然,如果你追求极致的推理质量且不在乎成本,o1 仍然是更好的选择。

透明度

这是 Hermes 系列的绝对优势。o1 的推理过程是完全黑箱的,OpenAI 在 API 中只会返回少量的推理摘要(reasoning summary),不会展示原始的推理过程。

DeepHermes 和 Hermes 4 的推理过程完全透明——think 标签内的所有内容都原样输出。这对于学术研究、教育场景、以及需要可解释性的应用来说,是一个巨大的优势。

部署灵活性

o1 只能通过 OpenAI 的 API 使用,受限于 OpenAI 的使用条款和定价。DeepHermes 和 Hermes 4 是开源的,可以本地部署、自定义修改、不受任何使用限制。

这对于企业用户来说特别重要——很多企业不愿意把敏感数据发送到第三方 API,本地部署是刚需。

推理模型的核心挑战

开发推理模型不是简单地”加个 think 标签”就完事了。这里面有几个核心的技术挑战:

推理质量的一致性

模型有时候会在 think 标签里走弯路——花了很多 token 分析了一个错误的方向,最后不得不推翻重来。更糟的情况是推理过程前后矛盾——前面得出的结论和后面的推导相矛盾。

要解决这个问题,需要在训练数据中加入大量”自我纠正”的样本——模型发现错误后主动修正,而不是将错就错。

什么时候该停止思考

推理不是越多越好。对于简单问题,过度推理是浪费;对于无解的问题,无限推理更是灾难。模型需要学会判断”想够了”——推理已经充分,可以给出答案了。

30K 的 token 上限是一个硬性保护,但更好的方案是让模型自己学会”到此为止”。这需要在训练中加入推理长度的奖励信号——鼓励在保证质量的前提下尽量简洁。

推理和最终答案的一致性

有时候会出现一个奇怪的现象:think 标签里的推理过程是对的,但最终答案是错的(或者反过来)。这说明推理过程和答案生成之间的耦合还不够紧密。

这是一个活跃的研究方向,目前还没有完美的解决方案。

开源推理模型的生态

DeepHermes 不是唯一的开源推理模型。这个赛道上还有几个重要的玩家:

DeepSeek-R1:DeepSeek 的推理模型,在数学和科学领域表现很强。它的特点是推理链非常长且详细,适合需要精确推理的场景。

QwQ:通义千问推出的推理模型。对中文场景的支持比较好,在中文数学题上的表现很有竞争力。

Skywork-o1:昆仑万维的推理模型系列,也是 think 标签路线。

这些模型各有优劣,但共同的趋势是明确的:推理能力正在成为开源模型的标配功能,而不是少数模型的专属特性。

cocoloop 社区有用户做过横向对比测试,结论是:在综合能力上 Hermes 4 和 DeepSeek-R1 互有胜负,但 Hermes 4 在 Function Calling 和 agent 场景上有明显优势——毕竟推理只是 Hermes 的能力之一,不是全部。

实际使用中的体会

用了一段时间 DeepHermes 之后,有几点感受比较深:

推理过程本身就很有价值。即使最终答案是错的,推理过程也能帮你理解问题的结构和可能的解法方向。这在学习和研究场景中特别有用。

不同问题选不同模型。对于需要精确推理的硬核问题(数学、逻辑、代码),用 DeepHermes。对于日常对话和创意任务,用 Hermes 4 的直出模式。没必要一个模型打天下。

推理结果需要验证。再强的推理模型也会犯错。把推理过程当作”参考意见”而不是”标准答案”,用自己的判断做最终决策。

长推理不等于好推理。有时候模型会在 think 标签里绕弯子,写了几千 token 的推理但大部分是无用信息。推理质量比推理长度重要得多。

推理能力的未来

从 o1 的发布到现在(2026 年),推理模型已经从一个新奇概念变成了行业标配。未来的方向可能包括:

更高效的推理:用更少的 token 完成同等质量的推理。现在的推理模型普遍”话多”,有很大的优化空间。

多模态推理:在图像、图表、公式上做推理,而不只是纯文本。这对于科学和工程领域尤其重要。

推理过程的可控性:让用户能更精细地控制推理的深度和方向。比如指定”只用代数方法解这道题”或”推理过程不超过 500 token”。

推理和行动的结合:让推理模型不只是”想”,还能”做”——在推理过程中调用工具、检索信息、执行代码。这是 agent 和推理的结合方向。

如果想了解 Hermes 4 的 基准测试成绩 具体是什么水平,以及各项跑分代表什么含义,另一篇文章有详细的解读。

推理能力的加入让开源模型迈上了一个新台阶。DeepHermes 和 Hermes 4 证明了:你不需要每个月花几千块的 API 费用,也能用上有推理能力的大模型。这对于个人开发者和小团队来说,是实实在在的福音。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →