Hermes 模型进化全记录：从 13B 到 405B 的每一次跃迁

如果要在开源大模型领域选一个”连续剧”，Hermes 系列绝对排得上号。从 2023 年中到 2025 年，Ryan Teknium 带领的 Nous Research 团队一路迭代，把 Hermes 从一个小众微调模型做成了下载量超过 3300 万次的社区顶流。

这篇文章把 Hermes 的每一个重要版本按时间线梳理一遍，看看每次跃迁背后做了哪些关键决策。

2023 年中：初代 Hermes（LLaMA 13B）

故事要从 2023 年 Meta 泄露 LLaMA 权重说起。当时整个开源社区都炸了锅——第一次有商业级别的大模型权重流入社区，各种微调模型如雨后春笋般冒出来。

Ryan Teknium 在这个时间点推出了初代 Hermes，基座是 LLaMA 13B。在当时几十个微调模型中，Hermes 能脱颖而出有几个原因：

训练数据质量高：Ryan 花了大量时间手动策划和清洗训练数据，而不是随便抓一堆网上的指令数据就开训。在那个年代，很多微调模型的质量问题不出在方法上，而出在数据上。

对话质量出众：Hermes 在自由对话和角色扮演方面表现特别好。它不像很多模型那样死板地遵循指令格式，而是能进行更自然、更流畅的对话。这让它在 Reddit 和 Discord 社区里迅速积累了口碑。

减少不必要的拒绝：初代 Hermes 就已经体现了 Nous Research 的核心理念——模型应该尽量回答用户的问题，而不是动不动就拒绝。当时很多模型因为安全对齐做得太严格，经常拒绝回答完全正常的问题。Hermes 在这方面的表现明显更好。

这个阶段的 Hermes 还比较原始——没有 Function Calling、没有特殊的对话格式、也没有做偏好优化。但它在对话质量上的优势已经足够让它在社区里站稳了脚跟。

2023 年底：OpenHermes 和数据集的开源

Ryan Teknium 做了一个对整个社区影响很大的决定——开源 OpenHermes 数据集。

这个数据集包含了 300K+ 条合成指令数据，使用 GPT-4 等强模型生成。它不仅是 Hermes 系列的训练基础，也成为了社区里最被广泛使用的合成数据集之一。

OpenHermes 数据集的开源意味着：其他研究者可以基于它来训练自己的模型，也可以分析它来理解好的训练数据长什么样。这大大推动了整个社区在合成数据方面的研究和实践。

同期，基于这个数据集训练的 OpenHermes 2.5 模型也获得了大量关注。

2024 年初：Hermes 2 Pro（Mistral 7B）

2024 年初，Hermes 迎来了一个重要的功能性转折——Hermes 2 Pro 的发布。

这个版本基于 Mistral 7B，最大的亮点是引入了 Function Calling 能力，在评估中拿到了约 90% 的得分。

关键改进：

Function Calling：模型能根据用户意图选择正确的工具并生成合法的 JSON 调用请求
JSON Mode：强制输出合法 JSON 格式的能力
ChatML 格式：全面采用 ChatML 作为对话模板，为后续的 agent 生态打下基础

Hermes 2 Pro 的意义不只是一个更好的模型——它标志着 Hermes 从”对话模型”向”agent 模型”的战略转型。从这个版本开始，工具调用成为了 Hermes 系列的核心竞争力之一。

这个阶段还有一个有趣的细节：Hermes 2 Pro 选择了 Mistral 7B 而不是 Llama 2 作为基座。在那个时间点，Mistral 7B 在同参数量级确实表现更好。这也说明 Nous Research 在基座选择上不盲目追随主流，而是根据实际性能做决策。

2024 年 8 月：Hermes 3（Llama 3.1 8B/70B/405B）

Hermes 3 是整个系列最具里程碑意义的一次更新。

基于 Meta 在 2024 年 7 月发布的 Llama 3.1，Hermes 3 推出了 8B、70B 和 405B 三个版本。其中 405B 是开源社区首个 Llama 3.1 405B 的全参数微调模型。

关键改进：

405B 全参数微调：使用 Lambda Cloud 的 H100 集群完成，证明了开源团队也能训练最大规模的模型
Individual Alignment：正式提出”个体对齐”理念，通过系统提示让用户控制模型行为边界
多步 DPO 优化：在 SFT 之后加入了 Direct Preference Optimization，提升了对话质量和指令跟随能力
多语言增强：受益于 Llama 3.1 基座的多语言能力，中文等非英语表现有明显改善

Hermes 3 的 405B 版本让整个社区看到了一种可能性：开源模型不仅能在小模型上做出好的微调，在数百亿参数的超大模型上也可以。

从下载量来看，Hermes 3 系列也是整个 Hermes 家族中被使用最多的版本之一。截至到现在，8B 版本由于部署友好，下载量远超 70B 和 405B。

2025 年初：Hermes 4（Llama 3.1 14B/70B/405B）

如果说 Hermes 3 的主题是”规模”，那 Hermes 4 的主题就是”推理”。

Hermes 4 引入了混合推理模式（Hybrid Reasoning），这是整个系列最大的架构级创新。模型可以在 <think> 标签中进行内部推理，然后再给出最终答案。

关键改进：

混合推理模式：自动判断问题复杂度，决定是否启动深度思考
推理 token 上限 30K：支持长达 30,000 tokens 的推理过程
训练数据扩展到 5000 万样本：相比前代有数量级的提升
新增 14B 版本：填补了 8B 和 70B 之间的空白
基准测试大幅提升：MATH-500 得分 96.3%，AIME 2024 得分 81.9%

Hermes 4 还有一个值得关注的点：它在 RefusalBench 上的表现（57.1%，远超 GPT-4o 的 17.67%），进一步强化了 Hermes 系列”减少不必要拒绝”的品牌定位。

5000 万训练样本的数据量也是一个里程碑。这背后涉及到大规模的数据合成、清洗和质量验证流水线，这些基础设施的建设本身就是很大的工程投入。

2025 年中：DeepHermes

在 Hermes 4 发布不久后，Nous Research 还推出了 DeepHermes——一个专门强化了深度推理能力的变体。

DeepHermes 和 Hermes 4 的区别在于：Hermes 4 的推理是”混合”的（可以选择是否思考），而 DeepHermes 默认就会进行深度推理。它更适合数学、科学、编程这些对推理质量要求极高的场景。

可以把 DeepHermes 理解为 Hermes 4 的”理科生”版本——牺牲了一些闲聊的自然度，换取更强的推理表现。

2025 年：Hermes 4.3（Seed-OSS-36B + Psyche）

最新的 Hermes 4.3 同时在两个维度上做了突破：

基座模型的突破：首次离开 Llama 家族，采用 ByteDance 的 Seed-OSS-36B 作为基座。36B 参数量的模型在多项测试上打平了 Hermes 4 70B。

训练方式的突破：首次使用 Psyche 去中心化训练网络完成训练，24 个分布式节点通过 Solana 区块链进行协调。

关键改进：

512K 上下文窗口：Hermes 系列最长，足以处理整本书级别的文本
36B 参数打平 70B 性能：部署成本大幅降低
去中心化训练验证：证明了非集中式 GPU 集群也能训练出高质量模型

Hermes 4.3 代表了 Nous Research 对未来两个方向的探索：更高效的模型架构，和更开放的训练基础设施。

各版本关键参数一览

版本	时间	基座	参数量	上下文长度	核心特性
Hermes (初代)	2023 年中	LLaMA 13B	13B	2K	高质量对话
OpenHermes 2.5	2023 年底	多个基座	7B-13B	4K	开源数据集
Hermes 2 Pro	2024 年初	Mistral 7B	7B	8K	Function Calling
Hermes 3	2024 年 8 月	Llama 3.1	8B/70B/405B	128K	全参数微调
Hermes 4	2025 年初	Llama 3.1	14B/70B/405B	128K	混合推理
DeepHermes	2025 年	Llama 3.1	多版本	128K	深度推理
Hermes 4.3	2025 年	Seed-OSS-36B	36B	512K	去中心化训练

几条贯穿始终的线索

纵观 Hermes 的进化史，有几条线索始终没变：

数据为王：从初代 Hermes 的精心策划数据，到 OpenHermes 的 300K 合成指令，再到 Hermes 4 的 5000 万样本。Nous Research 在训练数据上的投入始终是核心竞争力。

用户自由优先：从初代减少不必要拒绝，到 Hermes 3 的 Individual Alignment，到 Hermes 4 在 RefusalBench 上的突出表现。让用户有更多的控制权，一直是 Hermes 的设计哲学。

实用导向：每次更新都有明确的”能让用户多做一件事”。Hermes 2 Pro 让用户能做 Function Calling，Hermes 4 让用户能做深度推理，Hermes 4.3 让用户能处理超长文本。不是为了刷分而刷分。

基座选择灵活：LLaMA → Mistral → Llama 3.1 → Seed-OSS-36B。Nous Research 不绑定任何一个基座模型厂商，哪个好用就用哪个。

Hermes 的社区影响

在 cocoloop 社区里，Hermes 一直是讨论度最高的开源模型系列之一。原因很简单——它的每个版本都有足够多的”谈资”：

Hermes 3 发布时，大家讨论的是”405B 全参数微调”的可行性
Hermes 4 发布时，大家讨论的是”开源模型也能思考了”
Hermes 4.3 发布时，大家讨论的是”去中心化训练”和”512K 上下文”

这种持续产出话题的能力，让 Hermes 在社区里保持了很高的存在感。

从更宏观的角度看，Hermes 系列的进化也反映了整个开源 LLM 社区的发展轨迹：从简单的指令微调，到 Function Calling 和 agent 能力，到深度推理，到去中心化训练。每一步 Hermes 不一定是第一个做的，但每一步它都做到了社区里最好的水平之一。

如果你是 Hermes 的新用户，建议从最新的 Hermes 4 或 4.3 开始体验。但了解这段进化史，会帮助你更好地理解这些模型为什么是现在这个样子。

Hermes 模型进化全记录：从 13B 到 405B 的每一次跃迁

目录

2023 年中：初代 Hermes（LLaMA 13B）

2023 年底：OpenHermes 和数据集的开源

2024 年初：Hermes 2 Pro（Mistral 7B）

2024 年 8 月：Hermes 3（Llama 3.1 8B/70B/405B）

2025 年初：Hermes 4（Llama 3.1 14B/70B/405B）

2025 年中：DeepHermes

2025 年：Hermes 4.3（Seed-OSS-36B + Psyche）

各版本关键参数一览

几条贯穿始终的线索

Hermes 的社区影响

参与讨论