Hermes 模型版本怎么看:命名规则与版本关系全解读

Hermes 2 Pro、Hermes 3、Hermes 4、Hermes 4.3 到底有什么区别?底座模型是什么?参数量怎么看?这篇帮你把版本关系理清楚。

目录

  1. 新手最常见的困惑
  2. 命名的基本结构
  3. 什么是「底座模型」
  4. Hermes 各大版本详解
    1. Hermes 1(2023年)
    2. Hermes 2(2023年末-2024年初)
    3. Hermes 2 Pro(2024年)
    4. Hermes 3(2024年中后期)
    5. Hermes 4 / Hermes 4 Scout(2025年初)
    6. Hermes 4.3(2025年中)
  5. 参数量到底意味着什么
  6. 版本关系速查表
  7. 我该选哪个版本

新手最常见的困惑

你打开 Hugging Face,搜索 Hermes,出来一堆结果:

  • Hermes-2-Pro-Mistral-7B
  • Hermes-3-Llama-3.1-8B
  • Hermes-3-Llama-3.1-70B
  • Hermes-3-Llama-3.1-405B
  • Hermes-4-Scout
  • Hermes-4.3-Seed

看到这些名字,是不是一头雾水?

别慌。这些名字其实有非常清晰的规律,一旦你搞懂了命名规则,看到任何一个新版本都能立刻知道它大概是个什么东西。

这篇文章就是专门帮你解决这个问题的。

命名的基本结构

Hermes 模型的命名一般遵循这个格式:

1
Hermes-[版本号]-[底座模型名]-[参数量]

拆开来看:

  • Hermes:品牌名,代表这是 Nous Research 出品的微调模型
  • 版本号:比如 2、2 Pro、3、4、4.3,代表微调方法和数据的迭代版本
  • 底座模型名:比如 Llama-3.1、Mistral、Qwen,代表用了谁的底座
  • 参数量:比如 7B、8B、70B、405B,代表模型的规模

举个例子:Hermes-3-Llama-3.1-70B

  • Hermes 品牌
  • 第 3 代微调方法
  • 基于 Meta 的 Llama 3.1 底座
  • 70B(700亿)参数规模

这就像汽车的命名:品牌(宝马)+ 代际(第8代)+ 平台(CLAR平台)+ 排量(3.0T)。知道了规则,新出一个型号你也能快速定位。

什么是「底座模型」

在详细讲各个版本之前,先确保你理解「底座模型」这个概念。

大语言模型的训练分两个大阶段:

  1. 预训练(Pre-training):用海量文本数据(几万亿个token)从零训练一个模型。这一步需要巨量的计算资源,通常只有大公司才做得起。产出的模型叫做「基座模型」或「底座模型」(Base Model)。

  2. 微调(Fine-tuning):在预训练好的底座上,用相对较少但更高质量的数据继续训练,让模型学会遵从指令、对话、使用工具等具体能力。

Hermes 做的就是第二步。它不自己做预训练(那太烧钱了),而是拿别人训练好的底座来做精细的微调。

所以你看到名字里的 Llama、Mistral、Qwen、Seed 这些,就是指底座的来源。如果你对底座模型的开源情况感兴趣,可以看看 开源模型到底「开源」了什么 这篇科普。

Hermes 各大版本详解

Hermes 1(2023年)

底座:Llama 1 / Llama 2
参数量:7B、13B
微调方法:标准 SFT(监督微调)
上下文窗口:2K - 4K tokens

Hermes 1 是开山之作。在 2023 年的开源微调模型中,它的数据质量和输出质量都是顶级的。但以今天的标准看,能力上已经明显落后了——上下文窗口太短,没有工具调用能力,对复杂指令的理解也有限。

你现在还需要用 Hermes 1 吗? 基本不需要。除非你在研究早期模型的历史演变。

Hermes 2(2023年末-2024年初)

底座:Mistral 7B、Mixtral 8x7B、Yi 34B、Solar 10.7B 等
参数量:7B - 34B
微调方法:SFT
上下文窗口:4K - 32K tokens

Hermes 2 的最大变化是多底座支持。Nous Research 证明了自己的微调方法论是通用的,不依赖特定底座。

这个阶段值得一提的几个版本:

  • Hermes-2-Mistral-7B:基于 Mistral 7B,当时性价比极高的选择
  • Hermes-2-Mixtral-8x7B:基于 MoE 架构,第一次在 Hermes 系列中使用 MoE
  • Hermes-2-Yi-34B:基于零一万物的 Yi 34B,在中文能力上有加成

Hermes 2 Pro(2024年)

底座:Mistral 7B、Llama 3 8B 等
参数量:7B - 8B
微调方法:SFT + 特殊能力训练
上下文窗口:8K - 32K tokens

Hermes 2 Pro 是 Hermes 2 的「加强版」,主要增加了:

  • Function Calling:可以按规范格式输出函数调用
  • JSON Mode:能稳定输出合法 JSON
  • 增强的 System Prompt 遵从

这些能力让 Hermes 2 Pro 从「聊天模型」变成了「可以做应用开发的模型」。对于做 AI Agent 的开发者来说,这是一个里程碑。

cocoloop 社区的开发者们在 Hermes 2 Pro 阶段开始大量采用 Hermes 系列做项目开发,反馈非常积极——特别是在函数调用的准确率方面,很多人说不输同期的商业 API。

Hermes 3(2024年中后期)

底座:Llama 3.1
参数量:8B、70B、405B
微调方法:SFT + DPO
上下文窗口:128K tokens

Hermes 3 是整个系列最重要的版本。 几个关键升级:

参数规模跨越:从之前最大 34B 一下子跳到了 405B。这意味着 Nous Research 有能力处理超大规模模型的微调了。

DPO 引入:首次在训练中使用 DPO(直接偏好优化)。这让模型的输出更贴合人类偏好,同时避免了传统 RLHF 的一些问题。想了解这些方法的区别?去看 什么是模型微调 吧。

128K 上下文:继承了 Llama 3.1 的 128K 上下文能力。处理长文档、长对话不再是问题。

个体对齐理念:正式提出了 Individual Alignment 的概念,让用户通过 system prompt 来定义模型的行为边界。

在各个参数规模上的选择建议:

  • 8B:个人使用、本地部署的首选。一张消费级显卡就能跑。
  • 70B:需要更高质量输出时的选择。需要较好的硬件或云服务。
  • 405B:追求极致效果。基本只能在云端跑。

Hermes 4 / Hermes 4 Scout(2025年初)

底座:Qwen 2.5 系列
参数量:Scout 版本为 8B+16 Experts MoE
微调方法:SFT + DPO + 思考增强
上下文窗口:128K tokens

Hermes 4 换了底座方向,从 Meta 的 Llama 转向了阿里的 Qwen 2.5。

为什么换底座? 因为 Qwen 2.5 在多语言支持(特别是中文)和代码能力上有明显优势。Hermes 4 选择 Qwen 底座,意味着在这些维度上天然就更强。

MoE 架构:Hermes 4 Scout 使用了 Mixture of Experts(混合专家)架构。简单说就是模型的总参数量很大,但每次推理只激活其中一部分「专家」。这样既有大模型的能力,又有小模型的推理速度。

思考能力:Hermes 4 增加了「思考模式」,模型可以在回答前先做内部推理。这对数学、逻辑、编程等需要多步思考的任务帮助很大。

Hermes 4.3(2025年中)

底座:Bytedance Seed 1.5
参数量:总参数 200B,活跃参数约 20B(MoE 架构)
微调方法:SFT + DPO + 推理增强
上下文窗口:128K+ tokens

Hermes 4.3 是目前最新的版本,选择了字节跳动的 Seed 1.5 作为底座。

Seed 1.5 底座的优势:这个底座在数学推理、代码生成方面特别突出,而且是 MoE 架构(200B 总参数,约 20B 活跃),推理效率很不错。

Hermes 4.3 的增强

  • 更强的通用指令遵从
  • 改进的角色扮演和创意写作
  • 增强的函数调用能力
  • 更好的长上下文理解

在 cocoloop 论坛上的反馈来看,Hermes 4.3 的中文表现有了明显进步,这主要得益于 Seed 底座本身对中文的优化。不少用户表示日常使用中文对话和写作的体验已经很流畅了。

参数量到底意味着什么

新手经常看到 7B、8B、70B、405B 这些数字,但不太理解它们的实际含义。

简单说:

  • B = Billion = 十亿
  • 7B = 70亿参数
  • 70B = 700亿参数
  • 405B = 4050亿参数

参数量越大,模型理论上越强,但代价也越大:

参数量 大致 FP16 显存需求 适合的场景
7B-8B 约14-16 GB 个人本地使用
13B 约26 GB 高端消费卡或入门服务器
34B 约68 GB 专业服务器
70B 约140 GB 多卡服务器或云端
405B 约810 GB 只能云端大集群

但要注意,实际使用中可以通过量化(Quantization)来大幅降低显存需求。比如 8B 模型用 4-bit 量化后,只需要大约 5-6 GB 显存,一张 RTX 3060 就能跑。关于这些硬件知识的详细讲解,推荐看 参数量、显存和推理速度 那篇。

版本关系速查表

怕你看完还是绕晕,做一张总结表:

版本 发布时间 主要底座 参数规模 核心特点
Hermes 1 2023年中 Llama 1/2 7B-13B 奠基之作,高质量数据
Hermes 2 2023年末 Mistral/Yi/等 7B-34B 多底座支持
Hermes 2 Pro 2024年初 Mistral/Llama 3 7B-8B 函数调用、JSON模式
Hermes 3 2024年中 Llama 3.1 8B-405B DPO训练、128K上下文、个体对齐
Hermes 4 Scout 2025年初 Qwen 2.5 MoE 思考模式、MoE架构
Hermes 4.3 2025年中 Seed 1.5 200B MoE 最强推理、中文提升

我该选哪个版本

最后回答一个最实际的问题:作为新手,我该选哪个版本?

如果你想本地跑:选 Hermes 3 Llama 3.1 8B(稳定、生态好、教程多)或 Hermes 4.3(更新更强但生态还在建设中)。

如果你通过 API 用:直接选最新的 Hermes 4.3,通过 OpenRouter 等平台调用,省心省力。

如果你做 Agent/工具调用开发:Hermes 3 70B 或 Hermes 4.3 都是好选择,函数调用能力成熟可靠。

如果你预算有限、显卡一般:Hermes 3 8B 量化版,4-bit 量化后 6GB 显存就能跑,是入门最佳选择。

别纠结太久,先跑起来再说。实际使用中你很快就能感受到不同版本的差异,到时候再换也不迟。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →