新手最常见的困惑
你打开 Hugging Face,搜索 Hermes,出来一堆结果:
- Hermes-2-Pro-Mistral-7B
- Hermes-3-Llama-3.1-8B
- Hermes-3-Llama-3.1-70B
- Hermes-3-Llama-3.1-405B
- Hermes-4-Scout
- Hermes-4.3-Seed
看到这些名字,是不是一头雾水?
别慌。这些名字其实有非常清晰的规律,一旦你搞懂了命名规则,看到任何一个新版本都能立刻知道它大概是个什么东西。
这篇文章就是专门帮你解决这个问题的。
命名的基本结构
Hermes 模型的命名一般遵循这个格式:
1 | Hermes-[版本号]-[底座模型名]-[参数量] |
拆开来看:
- Hermes:品牌名,代表这是 Nous Research 出品的微调模型
- 版本号:比如 2、2 Pro、3、4、4.3,代表微调方法和数据的迭代版本
- 底座模型名:比如 Llama-3.1、Mistral、Qwen,代表用了谁的底座
- 参数量:比如 7B、8B、70B、405B,代表模型的规模
举个例子:Hermes-3-Llama-3.1-70B
- Hermes 品牌
- 第 3 代微调方法
- 基于 Meta 的 Llama 3.1 底座
- 70B(700亿)参数规模
这就像汽车的命名:品牌(宝马)+ 代际(第8代)+ 平台(CLAR平台)+ 排量(3.0T)。知道了规则,新出一个型号你也能快速定位。
什么是「底座模型」
在详细讲各个版本之前,先确保你理解「底座模型」这个概念。
大语言模型的训练分两个大阶段:
预训练(Pre-training):用海量文本数据(几万亿个token)从零训练一个模型。这一步需要巨量的计算资源,通常只有大公司才做得起。产出的模型叫做「基座模型」或「底座模型」(Base Model)。
微调(Fine-tuning):在预训练好的底座上,用相对较少但更高质量的数据继续训练,让模型学会遵从指令、对话、使用工具等具体能力。
Hermes 做的就是第二步。它不自己做预训练(那太烧钱了),而是拿别人训练好的底座来做精细的微调。
所以你看到名字里的 Llama、Mistral、Qwen、Seed 这些,就是指底座的来源。如果你对底座模型的开源情况感兴趣,可以看看 开源模型到底「开源」了什么 这篇科普。
Hermes 各大版本详解
Hermes 1(2023年)
底座:Llama 1 / Llama 2
参数量:7B、13B
微调方法:标准 SFT(监督微调)
上下文窗口:2K - 4K tokens
Hermes 1 是开山之作。在 2023 年的开源微调模型中,它的数据质量和输出质量都是顶级的。但以今天的标准看,能力上已经明显落后了——上下文窗口太短,没有工具调用能力,对复杂指令的理解也有限。
你现在还需要用 Hermes 1 吗? 基本不需要。除非你在研究早期模型的历史演变。
Hermes 2(2023年末-2024年初)
底座:Mistral 7B、Mixtral 8x7B、Yi 34B、Solar 10.7B 等
参数量:7B - 34B
微调方法:SFT
上下文窗口:4K - 32K tokens
Hermes 2 的最大变化是多底座支持。Nous Research 证明了自己的微调方法论是通用的,不依赖特定底座。
这个阶段值得一提的几个版本:
- Hermes-2-Mistral-7B:基于 Mistral 7B,当时性价比极高的选择
- Hermes-2-Mixtral-8x7B:基于 MoE 架构,第一次在 Hermes 系列中使用 MoE
- Hermes-2-Yi-34B:基于零一万物的 Yi 34B,在中文能力上有加成
Hermes 2 Pro(2024年)
底座:Mistral 7B、Llama 3 8B 等
参数量:7B - 8B
微调方法:SFT + 特殊能力训练
上下文窗口:8K - 32K tokens
Hermes 2 Pro 是 Hermes 2 的「加强版」,主要增加了:
- Function Calling:可以按规范格式输出函数调用
- JSON Mode:能稳定输出合法 JSON
- 增强的 System Prompt 遵从
这些能力让 Hermes 2 Pro 从「聊天模型」变成了「可以做应用开发的模型」。对于做 AI Agent 的开发者来说,这是一个里程碑。
cocoloop 社区的开发者们在 Hermes 2 Pro 阶段开始大量采用 Hermes 系列做项目开发,反馈非常积极——特别是在函数调用的准确率方面,很多人说不输同期的商业 API。
Hermes 3(2024年中后期)
底座:Llama 3.1
参数量:8B、70B、405B
微调方法:SFT + DPO
上下文窗口:128K tokens
Hermes 3 是整个系列最重要的版本。 几个关键升级:
参数规模跨越:从之前最大 34B 一下子跳到了 405B。这意味着 Nous Research 有能力处理超大规模模型的微调了。
DPO 引入:首次在训练中使用 DPO(直接偏好优化)。这让模型的输出更贴合人类偏好,同时避免了传统 RLHF 的一些问题。想了解这些方法的区别?去看 什么是模型微调 吧。
128K 上下文:继承了 Llama 3.1 的 128K 上下文能力。处理长文档、长对话不再是问题。
个体对齐理念:正式提出了 Individual Alignment 的概念,让用户通过 system prompt 来定义模型的行为边界。
在各个参数规模上的选择建议:
- 8B:个人使用、本地部署的首选。一张消费级显卡就能跑。
- 70B:需要更高质量输出时的选择。需要较好的硬件或云服务。
- 405B:追求极致效果。基本只能在云端跑。
Hermes 4 / Hermes 4 Scout(2025年初)
底座:Qwen 2.5 系列
参数量:Scout 版本为 8B+16 Experts MoE
微调方法:SFT + DPO + 思考增强
上下文窗口:128K tokens
Hermes 4 换了底座方向,从 Meta 的 Llama 转向了阿里的 Qwen 2.5。
为什么换底座? 因为 Qwen 2.5 在多语言支持(特别是中文)和代码能力上有明显优势。Hermes 4 选择 Qwen 底座,意味着在这些维度上天然就更强。
MoE 架构:Hermes 4 Scout 使用了 Mixture of Experts(混合专家)架构。简单说就是模型的总参数量很大,但每次推理只激活其中一部分「专家」。这样既有大模型的能力,又有小模型的推理速度。
思考能力:Hermes 4 增加了「思考模式」,模型可以在回答前先做内部推理。这对数学、逻辑、编程等需要多步思考的任务帮助很大。
Hermes 4.3(2025年中)
底座:Bytedance Seed 1.5
参数量:总参数 200B,活跃参数约 20B(MoE 架构)
微调方法:SFT + DPO + 推理增强
上下文窗口:128K+ tokens
Hermes 4.3 是目前最新的版本,选择了字节跳动的 Seed 1.5 作为底座。
Seed 1.5 底座的优势:这个底座在数学推理、代码生成方面特别突出,而且是 MoE 架构(200B 总参数,约 20B 活跃),推理效率很不错。
Hermes 4.3 的增强:
- 更强的通用指令遵从
- 改进的角色扮演和创意写作
- 增强的函数调用能力
- 更好的长上下文理解
在 cocoloop 论坛上的反馈来看,Hermes 4.3 的中文表现有了明显进步,这主要得益于 Seed 底座本身对中文的优化。不少用户表示日常使用中文对话和写作的体验已经很流畅了。
参数量到底意味着什么
新手经常看到 7B、8B、70B、405B 这些数字,但不太理解它们的实际含义。
简单说:
- B = Billion = 十亿
- 7B = 70亿参数
- 70B = 700亿参数
- 405B = 4050亿参数
参数量越大,模型理论上越强,但代价也越大:
| 参数量 | 大致 FP16 显存需求 | 适合的场景 |
|---|---|---|
| 7B-8B | 约14-16 GB | 个人本地使用 |
| 13B | 约26 GB | 高端消费卡或入门服务器 |
| 34B | 约68 GB | 专业服务器 |
| 70B | 约140 GB | 多卡服务器或云端 |
| 405B | 约810 GB | 只能云端大集群 |
但要注意,实际使用中可以通过量化(Quantization)来大幅降低显存需求。比如 8B 模型用 4-bit 量化后,只需要大约 5-6 GB 显存,一张 RTX 3060 就能跑。关于这些硬件知识的详细讲解,推荐看 参数量、显存和推理速度 那篇。
版本关系速查表
怕你看完还是绕晕,做一张总结表:
| 版本 | 发布时间 | 主要底座 | 参数规模 | 核心特点 |
|---|---|---|---|---|
| Hermes 1 | 2023年中 | Llama 1/2 | 7B-13B | 奠基之作,高质量数据 |
| Hermes 2 | 2023年末 | Mistral/Yi/等 | 7B-34B | 多底座支持 |
| Hermes 2 Pro | 2024年初 | Mistral/Llama 3 | 7B-8B | 函数调用、JSON模式 |
| Hermes 3 | 2024年中 | Llama 3.1 | 8B-405B | DPO训练、128K上下文、个体对齐 |
| Hermes 4 Scout | 2025年初 | Qwen 2.5 | MoE | 思考模式、MoE架构 |
| Hermes 4.3 | 2025年中 | Seed 1.5 | 200B MoE | 最强推理、中文提升 |
我该选哪个版本
最后回答一个最实际的问题:作为新手,我该选哪个版本?
如果你想本地跑:选 Hermes 3 Llama 3.1 8B(稳定、生态好、教程多)或 Hermes 4.3(更新更强但生态还在建设中)。
如果你通过 API 用:直接选最新的 Hermes 4.3,通过 OpenRouter 等平台调用,省心省力。
如果你做 Agent/工具调用开发:Hermes 3 70B 或 Hermes 4.3 都是好选择,函数调用能力成熟可靠。
如果你预算有限、显卡一般:Hermes 3 8B 量化版,4-bit 量化后 6GB 显存就能跑,是入门最佳选择。
别纠结太久,先跑起来再说。实际使用中你很快就能感受到不同版本的差异,到时候再换也不迟。