Hermes 模型版本怎么看：命名规则与版本关系全解读

新手最常见的困惑

你打开 Hugging Face，搜索 Hermes，出来一堆结果：

Hermes-2-Pro-Mistral-7B
Hermes-3-Llama-3.1-8B
Hermes-3-Llama-3.1-70B
Hermes-3-Llama-3.1-405B
Hermes-4-Scout
Hermes-4.3-Seed

看到这些名字，是不是一头雾水？

别慌。这些名字其实有非常清晰的规律，一旦你搞懂了命名规则，看到任何一个新版本都能立刻知道它大概是个什么东西。

这篇文章就是专门帮你解决这个问题的。

命名的基本结构

Hermes 模型的命名一般遵循这个格式：

1	Hermes-[版本号]-[底座模型名]-[参数量]

拆开来看：

Hermes：品牌名，代表这是 Nous Research 出品的微调模型
版本号：比如 2、2 Pro、3、4、4.3，代表微调方法和数据的迭代版本
底座模型名：比如 Llama-3.1、Mistral、Qwen，代表用了谁的底座
参数量：比如 7B、8B、70B、405B，代表模型的规模

举个例子：Hermes-3-Llama-3.1-70B

Hermes 品牌
第 3 代微调方法
基于 Meta 的 Llama 3.1 底座
70B（700亿）参数规模

这就像汽车的命名：品牌（宝马）+ 代际（第8代）+ 平台（CLAR平台）+ 排量（3.0T）。知道了规则，新出一个型号你也能快速定位。

什么是「底座模型」

在详细讲各个版本之前，先确保你理解「底座模型」这个概念。

大语言模型的训练分两个大阶段：

预训练（Pre-training）：用海量文本数据（几万亿个token）从零训练一个模型。这一步需要巨量的计算资源，通常只有大公司才做得起。产出的模型叫做「基座模型」或「底座模型」（Base Model）。
微调（Fine-tuning）：在预训练好的底座上，用相对较少但更高质量的数据继续训练，让模型学会遵从指令、对话、使用工具等具体能力。

Hermes 做的就是第二步。它不自己做预训练（那太烧钱了），而是拿别人训练好的底座来做精细的微调。

所以你看到名字里的 Llama、Mistral、Qwen、Seed 这些，就是指底座的来源。如果你对底座模型的开源情况感兴趣，可以看看开源模型到底「开源」了什么这篇科普。

Hermes 各大版本详解

Hermes 1（2023年）

底座：Llama 1 / Llama 2
参数量：7B、13B
微调方法：标准 SFT（监督微调）
上下文窗口：2K - 4K tokens

Hermes 1 是开山之作。在 2023 年的开源微调模型中，它的数据质量和输出质量都是顶级的。但以今天的标准看，能力上已经明显落后了——上下文窗口太短，没有工具调用能力，对复杂指令的理解也有限。

你现在还需要用 Hermes 1 吗？ 基本不需要。除非你在研究早期模型的历史演变。

Hermes 2（2023年末-2024年初）

底座：Mistral 7B、Mixtral 8x7B、Yi 34B、Solar 10.7B 等
参数量：7B - 34B
微调方法：SFT
上下文窗口：4K - 32K tokens

Hermes 2 的最大变化是多底座支持。Nous Research 证明了自己的微调方法论是通用的，不依赖特定底座。

这个阶段值得一提的几个版本：

Hermes-2-Mistral-7B：基于 Mistral 7B，当时性价比极高的选择
Hermes-2-Mixtral-8x7B：基于 MoE 架构，第一次在 Hermes 系列中使用 MoE
Hermes-2-Yi-34B：基于零一万物的 Yi 34B，在中文能力上有加成

Hermes 2 Pro（2024年）

底座：Mistral 7B、Llama 3 8B 等
参数量：7B - 8B
微调方法：SFT + 特殊能力训练
上下文窗口：8K - 32K tokens

Hermes 2 Pro 是 Hermes 2 的「加强版」，主要增加了：

Function Calling：可以按规范格式输出函数调用
JSON Mode：能稳定输出合法 JSON
增强的 System Prompt 遵从

这些能力让 Hermes 2 Pro 从「聊天模型」变成了「可以做应用开发的模型」。对于做 AI Agent 的开发者来说，这是一个里程碑。

cocoloop 社区的开发者们在 Hermes 2 Pro 阶段开始大量采用 Hermes 系列做项目开发，反馈非常积极——特别是在函数调用的准确率方面，很多人说不输同期的商业 API。

Hermes 3（2024年中后期）

底座：Llama 3.1
参数量：8B、70B、405B
微调方法：SFT + DPO
上下文窗口：128K tokens

Hermes 3 是整个系列最重要的版本。 几个关键升级：

参数规模跨越：从之前最大 34B 一下子跳到了 405B。这意味着 Nous Research 有能力处理超大规模模型的微调了。

DPO 引入：首次在训练中使用 DPO（直接偏好优化）。这让模型的输出更贴合人类偏好，同时避免了传统 RLHF 的一些问题。想了解这些方法的区别？去看什么是模型微调吧。

128K 上下文：继承了 Llama 3.1 的 128K 上下文能力。处理长文档、长对话不再是问题。

个体对齐理念：正式提出了 Individual Alignment 的概念，让用户通过 system prompt 来定义模型的行为边界。

在各个参数规模上的选择建议：

8B：个人使用、本地部署的首选。一张消费级显卡就能跑。
70B：需要更高质量输出时的选择。需要较好的硬件或云服务。
405B：追求极致效果。基本只能在云端跑。

Hermes 4 / Hermes 4 Scout（2025年初）

底座：Qwen 2.5 系列
参数量：Scout 版本为 8B+16 Experts MoE
微调方法：SFT + DPO + 思考增强
上下文窗口：128K tokens

Hermes 4 换了底座方向，从 Meta 的 Llama 转向了阿里的 Qwen 2.5。

为什么换底座？ 因为 Qwen 2.5 在多语言支持（特别是中文）和代码能力上有明显优势。Hermes 4 选择 Qwen 底座，意味着在这些维度上天然就更强。

MoE 架构：Hermes 4 Scout 使用了 Mixture of Experts（混合专家）架构。简单说就是模型的总参数量很大，但每次推理只激活其中一部分「专家」。这样既有大模型的能力，又有小模型的推理速度。

思考能力：Hermes 4 增加了「思考模式」，模型可以在回答前先做内部推理。这对数学、逻辑、编程等需要多步思考的任务帮助很大。

Hermes 4.3（2025年中）

底座：Bytedance Seed 1.5
参数量：总参数 200B，活跃参数约 20B（MoE 架构）
微调方法：SFT + DPO + 推理增强
上下文窗口：128K+ tokens

Hermes 4.3 是目前最新的版本，选择了字节跳动的 Seed 1.5 作为底座。

Seed 1.5 底座的优势：这个底座在数学推理、代码生成方面特别突出，而且是 MoE 架构（200B 总参数，约 20B 活跃），推理效率很不错。

Hermes 4.3 的增强：

更强的通用指令遵从
改进的角色扮演和创意写作
增强的函数调用能力
更好的长上下文理解

在 cocoloop 论坛上的反馈来看，Hermes 4.3 的中文表现有了明显进步，这主要得益于 Seed 底座本身对中文的优化。不少用户表示日常使用中文对话和写作的体验已经很流畅了。

参数量到底意味着什么

新手经常看到 7B、8B、70B、405B 这些数字，但不太理解它们的实际含义。

简单说：

B = Billion = 十亿
7B = 70亿参数
70B = 700亿参数
405B = 4050亿参数

参数量越大，模型理论上越强，但代价也越大：

参数量	大致 FP16 显存需求	适合的场景
7B-8B	约14-16 GB	个人本地使用
13B	约26 GB	高端消费卡或入门服务器
34B	约68 GB	专业服务器
70B	约140 GB	多卡服务器或云端
405B	约810 GB	只能云端大集群

但要注意，实际使用中可以通过量化（Quantization）来大幅降低显存需求。比如 8B 模型用 4-bit 量化后，只需要大约 5-6 GB 显存，一张 RTX 3060 就能跑。关于这些硬件知识的详细讲解，推荐看参数量、显存和推理速度那篇。

版本关系速查表

怕你看完还是绕晕，做一张总结表：

版本	发布时间	主要底座	参数规模	核心特点
Hermes 1	2023年中	Llama 1/2	7B-13B	奠基之作，高质量数据
Hermes 2	2023年末	Mistral/Yi/等	7B-34B	多底座支持
Hermes 2 Pro	2024年初	Mistral/Llama 3	7B-8B	函数调用、JSON模式
Hermes 3	2024年中	Llama 3.1	8B-405B	DPO训练、128K上下文、个体对齐
Hermes 4 Scout	2025年初	Qwen 2.5	MoE	思考模式、MoE架构
Hermes 4.3	2025年中	Seed 1.5	200B MoE	最强推理、中文提升

我该选哪个版本

最后回答一个最实际的问题：作为新手，我该选哪个版本？

如果你想本地跑：选 Hermes 3 Llama 3.1 8B（稳定、生态好、教程多）或 Hermes 4.3（更新更强但生态还在建设中）。

如果你通过 API 用：直接选最新的 Hermes 4.3，通过 OpenRouter 等平台调用，省心省力。

如果你做 Agent/工具调用开发：Hermes 3 70B 或 Hermes 4.3 都是好选择，函数调用能力成熟可靠。

如果你预算有限、显卡一般：Hermes 3 8B 量化版，4-bit 量化后 6GB 显存就能跑，是入门最佳选择。

别纠结太久，先跑起来再说。实际使用中你很快就能感受到不同版本的差异，到时候再换也不迟。