如果要在开源大模型领域选一个”连续剧”,Hermes 系列绝对排得上号。从 2023 年中到 2025 年,Ryan Teknium 带领的 Nous Research 团队一路迭代,把 Hermes 从一个小众微调模型做成了下载量超过 3300 万次的社区顶流。
这篇文章把 Hermes 的每一个重要版本按时间线梳理一遍,看看每次跃迁背后做了哪些关键决策。
2023 年中:初代 Hermes(LLaMA 13B)
故事要从 2023 年 Meta 泄露 LLaMA 权重说起。当时整个开源社区都炸了锅——第一次有商业级别的大模型权重流入社区,各种微调模型如雨后春笋般冒出来。
Ryan Teknium 在这个时间点推出了初代 Hermes,基座是 LLaMA 13B。在当时几十个微调模型中,Hermes 能脱颖而出有几个原因:
训练数据质量高:Ryan 花了大量时间手动策划和清洗训练数据,而不是随便抓一堆网上的指令数据就开训。在那个年代,很多微调模型的质量问题不出在方法上,而出在数据上。
对话质量出众:Hermes 在自由对话和角色扮演方面表现特别好。它不像很多模型那样死板地遵循指令格式,而是能进行更自然、更流畅的对话。这让它在 Reddit 和 Discord 社区里迅速积累了口碑。
减少不必要的拒绝:初代 Hermes 就已经体现了 Nous Research 的核心理念——模型应该尽量回答用户的问题,而不是动不动就拒绝。当时很多模型因为安全对齐做得太严格,经常拒绝回答完全正常的问题。Hermes 在这方面的表现明显更好。
这个阶段的 Hermes 还比较原始——没有 Function Calling、没有特殊的对话格式、也没有做偏好优化。但它在对话质量上的优势已经足够让它在社区里站稳了脚跟。
2023 年底:OpenHermes 和数据集的开源
Ryan Teknium 做了一个对整个社区影响很大的决定——开源 OpenHermes 数据集。
这个数据集包含了 300K+ 条合成指令数据,使用 GPT-4 等强模型生成。它不仅是 Hermes 系列的训练基础,也成为了社区里最被广泛使用的合成数据集之一。
OpenHermes 数据集的开源意味着:其他研究者可以基于它来训练自己的模型,也可以分析它来理解好的训练数据长什么样。这大大推动了整个社区在合成数据方面的研究和实践。
同期,基于这个数据集训练的 OpenHermes 2.5 模型也获得了大量关注。
2024 年初:Hermes 2 Pro(Mistral 7B)
2024 年初,Hermes 迎来了一个重要的功能性转折——Hermes 2 Pro 的发布。
这个版本基于 Mistral 7B,最大的亮点是引入了 Function Calling 能力,在评估中拿到了约 90% 的得分。
关键改进:
- Function Calling:模型能根据用户意图选择正确的工具并生成合法的 JSON 调用请求
- JSON Mode:强制输出合法 JSON 格式的能力
- ChatML 格式:全面采用 ChatML 作为对话模板,为后续的 agent 生态打下基础
Hermes 2 Pro 的意义不只是一个更好的模型——它标志着 Hermes 从”对话模型”向”agent 模型”的战略转型。从这个版本开始,工具调用成为了 Hermes 系列的核心竞争力之一。
这个阶段还有一个有趣的细节:Hermes 2 Pro 选择了 Mistral 7B 而不是 Llama 2 作为基座。在那个时间点,Mistral 7B 在同参数量级确实表现更好。这也说明 Nous Research 在基座选择上不盲目追随主流,而是根据实际性能做决策。
2024 年 8 月:Hermes 3(Llama 3.1 8B/70B/405B)
Hermes 3 是整个系列最具里程碑意义的一次更新。
基于 Meta 在 2024 年 7 月发布的 Llama 3.1,Hermes 3 推出了 8B、70B 和 405B 三个版本。其中 405B 是开源社区首个 Llama 3.1 405B 的全参数微调模型。
关键改进:
- 405B 全参数微调:使用 Lambda Cloud 的 H100 集群完成,证明了开源团队也能训练最大规模的模型
- Individual Alignment:正式提出”个体对齐”理念,通过系统提示让用户控制模型行为边界
- 多步 DPO 优化:在 SFT 之后加入了 Direct Preference Optimization,提升了对话质量和指令跟随能力
- 多语言增强:受益于 Llama 3.1 基座的多语言能力,中文等非英语表现有明显改善
Hermes 3 的 405B 版本让整个社区看到了一种可能性:开源模型不仅能在小模型上做出好的微调,在数百亿参数的超大模型上也可以。
从下载量来看,Hermes 3 系列也是整个 Hermes 家族中被使用最多的版本之一。截至到现在,8B 版本由于部署友好,下载量远超 70B 和 405B。
2025 年初:Hermes 4(Llama 3.1 14B/70B/405B)
如果说 Hermes 3 的主题是”规模”,那 Hermes 4 的主题就是”推理”。
Hermes 4 引入了混合推理模式(Hybrid Reasoning),这是整个系列最大的架构级创新。模型可以在 <think> 标签中进行内部推理,然后再给出最终答案。
关键改进:
- 混合推理模式:自动判断问题复杂度,决定是否启动深度思考
- 推理 token 上限 30K:支持长达 30,000 tokens 的推理过程
- 训练数据扩展到 5000 万样本:相比前代有数量级的提升
- 新增 14B 版本:填补了 8B 和 70B 之间的空白
- 基准测试大幅提升:MATH-500 得分 96.3%,AIME 2024 得分 81.9%
Hermes 4 还有一个值得关注的点:它在 RefusalBench 上的表现(57.1%,远超 GPT-4o 的 17.67%),进一步强化了 Hermes 系列”减少不必要拒绝”的品牌定位。
5000 万训练样本的数据量也是一个里程碑。这背后涉及到大规模的数据合成、清洗和质量验证流水线,这些基础设施的建设本身就是很大的工程投入。
2025 年中:DeepHermes
在 Hermes 4 发布不久后,Nous Research 还推出了 DeepHermes——一个专门强化了深度推理能力的变体。
DeepHermes 和 Hermes 4 的区别在于:Hermes 4 的推理是”混合”的(可以选择是否思考),而 DeepHermes 默认就会进行深度推理。它更适合数学、科学、编程这些对推理质量要求极高的场景。
可以把 DeepHermes 理解为 Hermes 4 的”理科生”版本——牺牲了一些闲聊的自然度,换取更强的推理表现。
2025 年:Hermes 4.3(Seed-OSS-36B + Psyche)
最新的 Hermes 4.3 同时在两个维度上做了突破:
基座模型的突破:首次离开 Llama 家族,采用 ByteDance 的 Seed-OSS-36B 作为基座。36B 参数量的模型在多项测试上打平了 Hermes 4 70B。
训练方式的突破:首次使用 Psyche 去中心化训练网络完成训练,24 个分布式节点通过 Solana 区块链进行协调。
关键改进:
- 512K 上下文窗口:Hermes 系列最长,足以处理整本书级别的文本
- 36B 参数打平 70B 性能:部署成本大幅降低
- 去中心化训练验证:证明了非集中式 GPU 集群也能训练出高质量模型
Hermes 4.3 代表了 Nous Research 对未来两个方向的探索:更高效的模型架构,和更开放的训练基础设施。
各版本关键参数一览
| 版本 | 时间 | 基座 | 参数量 | 上下文长度 | 核心特性 |
|---|---|---|---|---|---|
| Hermes (初代) | 2023 年中 | LLaMA 13B | 13B | 2K | 高质量对话 |
| OpenHermes 2.5 | 2023 年底 | 多个基座 | 7B-13B | 4K | 开源数据集 |
| Hermes 2 Pro | 2024 年初 | Mistral 7B | 7B | 8K | Function Calling |
| Hermes 3 | 2024 年 8 月 | Llama 3.1 | 8B/70B/405B | 128K | 全参数微调 |
| Hermes 4 | 2025 年初 | Llama 3.1 | 14B/70B/405B | 128K | 混合推理 |
| DeepHermes | 2025 年 | Llama 3.1 | 多版本 | 128K | 深度推理 |
| Hermes 4.3 | 2025 年 | Seed-OSS-36B | 36B | 512K | 去中心化训练 |
几条贯穿始终的线索
纵观 Hermes 的进化史,有几条线索始终没变:
数据为王:从初代 Hermes 的精心策划数据,到 OpenHermes 的 300K 合成指令,再到 Hermes 4 的 5000 万样本。Nous Research 在训练数据上的投入始终是核心竞争力。
用户自由优先:从初代减少不必要拒绝,到 Hermes 3 的 Individual Alignment,到 Hermes 4 在 RefusalBench 上的突出表现。让用户有更多的控制权,一直是 Hermes 的设计哲学。
实用导向:每次更新都有明确的”能让用户多做一件事”。Hermes 2 Pro 让用户能做 Function Calling,Hermes 4 让用户能做深度推理,Hermes 4.3 让用户能处理超长文本。不是为了刷分而刷分。
基座选择灵活:LLaMA → Mistral → Llama 3.1 → Seed-OSS-36B。Nous Research 不绑定任何一个基座模型厂商,哪个好用就用哪个。
Hermes 的社区影响
在 cocoloop 社区里,Hermes 一直是讨论度最高的开源模型系列之一。原因很简单——它的每个版本都有足够多的”谈资”:
- Hermes 3 发布时,大家讨论的是”405B 全参数微调”的可行性
- Hermes 4 发布时,大家讨论的是”开源模型也能思考了”
- Hermes 4.3 发布时,大家讨论的是”去中心化训练”和”512K 上下文”
这种持续产出话题的能力,让 Hermes 在社区里保持了很高的存在感。
从更宏观的角度看,Hermes 系列的进化也反映了整个开源 LLM 社区的发展轨迹:从简单的指令微调,到 Function Calling 和 agent 能力,到深度推理,到去中心化训练。每一步 Hermes 不一定是第一个做的,但每一步它都做到了社区里最好的水平之一。
如果你是 Hermes 的新用户,建议从最新的 Hermes 4 或 4.3 开始体验。但了解这段进化史,会帮助你更好地理解这些模型为什么是现在这个样子。