DeepHermes 与深度推理：开源模型也能像 o1 一样思考

2024 年 9 月，OpenAI 发布 o1 模型，整个行业第一次见识到了”让模型花时间想一想”能带来多大的提升。o1 在数学竞赛题上的表现让一堆研究者大呼看不懂——一个语言模型怎么能做对这么难的数学题？

答案就两个字：推理。

o1 在生成最终答案之前，会先进行一段长长的内部推理过程。这个过程消耗大量的 token（也就是更多的计算时间），但换来的是质量上的巨大跃升。

这个思路很快被开源社区学了过去。DeepHermes 和 Hermes 4 就是 Nous Research 在这个方向上的尝试。今天来聊聊它们的推理机制到底是怎么工作的。

从 Chain-of-Thought 到 Think 标签

推理模型的概念并不是 o1 发明的。早在 2022 年，Google 的研究者就提出了 Chain-of-Thought（CoT，思维链）技术——通过在提示词中加入”请一步一步思考”之类的引导，让模型在回答之前先展示推理步骤。

CoT 的效果很明显：在需要多步推理的数学题和逻辑题上，加了 CoT 提示的模型比直接回答的模型准确率高出一大截。

但传统的 CoT 有一个问题——它是提示级别的（prompt-level）。你需要在提示词中告诉模型”请先想再答”，模型才会这么做。如果你不提示，模型就直接输出答案。而且，不同的提示措辞效果差异很大，这让 CoT 的表现不够稳定。

o1 做的事情本质上是把 CoT “内化”到了模型里——不需要用户提示，模型自己就知道什么时候该想、怎么想。推理过程被集成到了模型的前向传播中，而不是依赖于外部提示。

DeepHermes 和 Hermes 4 走的也是类似的路线，但实现方式有所不同。

Think 标签的技术实现

Hermes 4 和 DeepHermes 使用 <think> 和 </think> 标签来标记推理过程。模型的输出结构是这样的：

<think>
[推理过程，可能包含多步分析、计算、验证]
</think>

[基于推理得出的最终答案]

这种设计有几个好处：

透明性：用户（或开发者）可以看到完整的推理过程，方便调试和验证。o1 的推理过程是隐藏的，用户只能看到最终结果。这在某些场景下是个劣势——你无法判断模型的答案是怎么推出来的。

可控性：通过系统提示，用户可以控制模型是否使用 think 模式。比如在时间敏感的场景中，可以要求模型跳过推理直接回答。

灵活性：think 标签内的内容格式自由，模型可以根据问题类型选择不同的推理策略——数学题就列算式，逻辑题就做排除法，代码题就模拟执行。

训练过程

要让模型学会在 think 标签里做推理，训练数据需要精心构建。Nous Research 的做法是：

第一步：构造推理链数据

用强模型（GPT-4、Claude 等）生成带有完整推理过程的回答。每条训练样本包含三个部分：用户问题、think 标签内的推理过程、最终答案。

生成后需要严格验证——推理过程必须逻辑连贯，最终答案必须正确。对于数学题，答案可以程序化验证；对于其他类型的问题，需要更复杂的评估方法。

第二步：加入不需要推理的样本

如果训练数据里全是带 think 标签的样本，模型就会变成”什么问题都要想半天”的状态。所以训练数据中需要混入大量不需要推理的简单对话，让模型学会判断什么时候该思考、什么时候该直出。

这就是 Hermes 4 被称为”混合推理”模型的原因——它不是一个纯推理模型，而是一个能在推理模式和直出模式之间灵活切换的模型。

第三步：强化学习微调

在 SFT 之后，可能还会用某种形式的强化学习来优化推理策略。比如，奖励那些推理过程简洁且答案正确的样本，惩罚那些推理冗长但答案错误的样本。这让模型学会”高效地思考”而不是”磨洋工”。

30K Token 的推理上限

Hermes 4 的推理 token 上限是 30K。这意味着 think 标签内的推理过程最多可以包含约 30,000 个 token（大约 2 万多中文字）。

30K 够用吗？对于绝大多数问题来说，绰绰有余。即使是非常复杂的数学竞赛题，推理过程通常也在几千 token 以内。30K 更多是一个安全边界——防止模型在某些极端情况下陷入无限推理循环。

但也有一些场景可能接近这个上限：

需要大量枚举的组合问题
需要逐行分析的长代码 debug
需要多次自我验证和修正的复杂问题

当推理过程被截断时（达到 30K 上限），模型会被迫在不完整的推理基础上给出答案。这时候答案质量可能会下降。

DeepHermes vs Hermes 4：两种推理哲学

DeepHermes 和 Hermes 4 都能做推理，但它们的定位不同。

Hermes 4：混合型选手

Hermes 4 是一个全面的模型。它可以推理，但也擅长普通对话、创意写作、角色扮演等非推理任务。think 标签只在需要的时候才出现。

适合的场景：需要一个”万能助手”，既能帮你做数学题，也能帮你写邮件。

DeepHermes：推理特化型

DeepHermes 默认就会进行深度推理，即使是相对简单的问题也会走一遍思考过程。它在数学、科学、编程这些对逻辑严密性要求高的领域表现更好。

适合的场景：主要用模型来解决技术问题、做分析、写代码。不需要它陪你聊天，只需要它给出准确的答案。

用一个类比来说：Hermes 4 像是一个能文能武的全科生，DeepHermes 像是一个理科竞赛选手。

和 OpenAI o1 的正面比较

既然灵感来自 o1，那就不得不做个比较。

推理深度

o1 的推理深度目前仍然是天花板级别的。在国际数学奥林匹克（IMO）难度的题目上，o1 的表现远超目前所有开源模型，包括 DeepHermes。

但在中等难度范围内（MATH-500、AIME 2024），差距要小得多。Hermes 4 在 MATH-500 上的 96.3% 已经非常接近 o1 的水平。在 AIME 2024 上的 81.9% 也是一个相当有竞争力的成绩。

推理效率

o1 的推理 token 消耗通常很高——对于复杂问题可能会消耗几万甚至十几万 token 的推理过程。Hermes 4 的推理相对更”克制”，大多数情况下在几百到几千 token 就能完成。

从成本角度看，Hermes 4 的推理效率更高。当然，如果你追求极致的推理质量且不在乎成本，o1 仍然是更好的选择。

透明度

这是 Hermes 系列的绝对优势。o1 的推理过程是完全黑箱的，OpenAI 在 API 中只会返回少量的推理摘要（reasoning summary），不会展示原始的推理过程。

DeepHermes 和 Hermes 4 的推理过程完全透明——think 标签内的所有内容都原样输出。这对于学术研究、教育场景、以及需要可解释性的应用来说，是一个巨大的优势。

部署灵活性

o1 只能通过 OpenAI 的 API 使用，受限于 OpenAI 的使用条款和定价。DeepHermes 和 Hermes 4 是开源的，可以本地部署、自定义修改、不受任何使用限制。

这对于企业用户来说特别重要——很多企业不愿意把敏感数据发送到第三方 API，本地部署是刚需。

推理模型的核心挑战

开发推理模型不是简单地”加个 think 标签”就完事了。这里面有几个核心的技术挑战：

推理质量的一致性

模型有时候会在 think 标签里走弯路——花了很多 token 分析了一个错误的方向，最后不得不推翻重来。更糟的情况是推理过程前后矛盾——前面得出的结论和后面的推导相矛盾。

要解决这个问题，需要在训练数据中加入大量”自我纠正”的样本——模型发现错误后主动修正，而不是将错就错。

什么时候该停止思考

推理不是越多越好。对于简单问题，过度推理是浪费；对于无解的问题，无限推理更是灾难。模型需要学会判断”想够了”——推理已经充分，可以给出答案了。

30K 的 token 上限是一个硬性保护，但更好的方案是让模型自己学会”到此为止”。这需要在训练中加入推理长度的奖励信号——鼓励在保证质量的前提下尽量简洁。

推理和最终答案的一致性

有时候会出现一个奇怪的现象：think 标签里的推理过程是对的，但最终答案是错的（或者反过来）。这说明推理过程和答案生成之间的耦合还不够紧密。

这是一个活跃的研究方向，目前还没有完美的解决方案。

开源推理模型的生态

DeepHermes 不是唯一的开源推理模型。这个赛道上还有几个重要的玩家：

DeepSeek-R1：DeepSeek 的推理模型，在数学和科学领域表现很强。它的特点是推理链非常长且详细，适合需要精确推理的场景。

QwQ：通义千问推出的推理模型。对中文场景的支持比较好，在中文数学题上的表现很有竞争力。

Skywork-o1：昆仑万维的推理模型系列，也是 think 标签路线。

这些模型各有优劣，但共同的趋势是明确的：推理能力正在成为开源模型的标配功能，而不是少数模型的专属特性。

cocoloop 社区有用户做过横向对比测试，结论是：在综合能力上 Hermes 4 和 DeepSeek-R1 互有胜负，但 Hermes 4 在 Function Calling 和 agent 场景上有明显优势——毕竟推理只是 Hermes 的能力之一，不是全部。

实际使用中的体会

用了一段时间 DeepHermes 之后，有几点感受比较深：

推理过程本身就很有价值。即使最终答案是错的，推理过程也能帮你理解问题的结构和可能的解法方向。这在学习和研究场景中特别有用。

不同问题选不同模型。对于需要精确推理的硬核问题（数学、逻辑、代码），用 DeepHermes。对于日常对话和创意任务，用 Hermes 4 的直出模式。没必要一个模型打天下。

推理结果需要验证。再强的推理模型也会犯错。把推理过程当作”参考意见”而不是”标准答案”，用自己的判断做最终决策。

长推理不等于好推理。有时候模型会在 think 标签里绕弯子，写了几千 token 的推理但大部分是无用信息。推理质量比推理长度重要得多。

推理能力的未来

从 o1 的发布到现在（2026 年），推理模型已经从一个新奇概念变成了行业标配。未来的方向可能包括：

更高效的推理：用更少的 token 完成同等质量的推理。现在的推理模型普遍”话多”，有很大的优化空间。

多模态推理：在图像、图表、公式上做推理，而不只是纯文本。这对于科学和工程领域尤其重要。

推理过程的可控性：让用户能更精细地控制推理的深度和方向。比如指定”只用代数方法解这道题”或”推理过程不超过 500 token”。

推理和行动的结合：让推理模型不只是”想”，还能”做”——在推理过程中调用工具、检索信息、执行代码。这是 agent 和推理的结合方向。

如果想了解 Hermes 4 的基准测试成绩具体是什么水平，以及各项跑分代表什么含义，另一篇文章有详细的解读。

推理能力的加入让开源模型迈上了一个新台阶。DeepHermes 和 Hermes 4 证明了：你不需要每个月花几千块的 API 费用，也能用上有推理能力的大模型。这对于个人开发者和小团队来说，是实实在在的福音。