Hermes 是什么:一篇讲透 Nous Research 的开源模型家族

全面解读 Hermes 模型家族:从 Nous Research 的第一个微调模型到 Hermes 4.3,搞清楚这个开源社区最受欢迎的模型系列到底是什么,为什么值得关注。

目录

  1. 先回答一个最基本的问题
  2. Nous Research 又是谁
  3. 从 Hermes 1 到 Hermes 4.3:一条清晰的进化线
    1. Hermes 1:起步阶段
    2. Hermes 2 / Hermes 2 Pro:成熟期
    3. Hermes 3:里程碑式的突破
    4. Hermes 4:基座换代
    5. Hermes 4.3:最新进展
  4. 为什么 Hermes 在开源社区这么火
    1. 第一,数据质量的执念
    2. 第二,不过度对齐
    3. 第三,持续迭代,不掉队
    4. 第四,社区驱动,反馈闭环
  5. Hermes 的核心使用场景
    1. 通用对话助手
    2. Agent / 工具调用
    3. 角色扮演与创意写作
    4. 本地部署
  6. 和其他开源模型的区别
  7. 怎么开始使用 Hermes
  8. 写在最后

先回答一个最基本的问题

如果你最近刚开始关注大模型领域,大概率会在各种排行榜、Reddit帖子、Hugging Face热门下载里反复看到一个名字——Hermes

那 Hermes 到底是什么?

简单粗暴地说:Hermes 是由 Nous Research 这家机构做的一系列经过精心微调的开源大语言模型。它不是从零训练的基座模型,而是拿别人训练好的底座(比如 Meta 的 Llama、Mistral 的模型等),通过高质量数据做微调,让模型变得更好用、更听话、更能干。

打个比方:如果 Llama 是一块没雕琢过的璞玉,那 Hermes 就是经过精细雕刻后的成品。底子是别人的,但手艺是 Nous Research 自己的,而这个手艺水平,在开源社区里算得上顶尖。

Nous Research 又是谁

在聊 Hermes 各个版本之前,有必要先说说背后的团队。

Nous Research 是一家专注于开源 AI 研究的机构,创始人是 Ryan Teknium(也叫 Teknium1)。这哥们最早在 Discord 社区里搞开源模型微调,算是最早一批做「社区驱动」AI研究的人。关于 Nous Research 的详细创业经历,我在 Nous Research 的创业故事 里写得比较完整,这里就不展开了。

核心要知道的就一件事:Nous Research 不是大厂,但他们做出来的东西不输大厂。Discord 社区七万多人,在 AI 开源圈子里是真正意义上的头部。

从 Hermes 1 到 Hermes 4.3:一条清晰的进化线

Hermes 1:起步阶段

2023年中,Hermes 的第一个版本诞生了。那时候 Meta 刚放出 Llama 1(后来是 Llama 2),整个开源社区都在疯狂地做微调实验。

Hermes 1 基于 Llama 1/2 底座,用 Nous Research 自己收集和筛选的高质量指令数据进行微调。当时的微调方法相对简单,主要就是标准的监督微调(SFT)。但 Hermes 1 有个非常突出的特点:数据质量极高

Ryan Teknium 本人花了大量时间做数据筛选和清洗,这在当时那个「大力出奇迹、数据越多越好」的氛围里显得很另类。事实证明这个思路是对的——Hermes 1 在同期的微调模型中脱颖而出,在 Hugging Face 上的下载量一骑绝尘。

Hermes 2 / Hermes 2 Pro:成熟期

到了 Hermes 2 阶段,事情开始变得更有意思。

Hermes 2 系列扩展到了多个底座模型,不再只是 Llama。Mistral 7B、Mixtral、Yi 34B 等底座都有对应的 Hermes 2 版本。这说明 Nous Research 的微调方法论已经成熟了,不依赖某一个特定底座。

Hermes 2 Pro 是这个阶段的代表作,它在 Hermes 2 的基础上增加了几个关键能力:

  • Function Calling(函数调用):模型可以按照指定格式输出结构化的函数调用结果,这对做 Agent 应用非常关键
  • JSON Mode(结构化输出):可以稳定地输出合法 JSON
  • 改进的系统提示词遵从:更好地执行系统角色设定

这些能力让 Hermes 从一个「聊天好用」的模型升级成了一个「可以做应用开发」的模型。cocoloop社区的不少开发者在那个阶段开始把 Hermes 2 Pro 集成到自己的项目里,反馈普遍很正面。

Hermes 3:里程碑式的突破

2024年,Hermes 3 发布,这是整个系列最重要的一次升级。

Hermes 3 基于 Meta 的 Llama 3.1 系列底座,覆盖了 8B、70B、405B 三个参数规模。没错,405B——这是开源社区里最大的经过高质量微调的模型之一。如果你想深入了解 Hermes 3 的具体技术细节,可以看看 Hermes 模型版本怎么看 那篇文章,里面有更详细的版本对比。

Hermes 3 的核心升级点:

训练方法升级:从单纯的 SFT 升级为 SFT + DPO 的组合。DPO(直接偏好优化)让模型在保持能力的同时,输出更符合人类偏好。关于这些微调方法的区别,可以参考 什么是模型微调 那篇科普。

个体对齐(Individual Alignment):这是 Hermes 最有辨识度的特色。简单说就是——Hermes 不会像某些被过度对齐的模型那样,动不动就拒绝回答你的问题。它会尽量根据你的 system prompt 来决定自己的行为边界,把主动权交给使用者。

Agentic 能力全面增强:更强的函数调用、更好的多轮对话一致性、更可靠的指令遵从。

上下文窗口扩展:支持 128K token 的上下文长度,处理长文档不在话下。

Hermes 4:基座换代

进入 2025 年,Hermes 4 在底座选择上走了不同的路。

Hermes 4 基于 Qwen 2.5 底座(阿里巴巴的千问系列),推出了 Hermes 4 Scout(8B+16 Experts MoE 架构)等版本。这是 Hermes 首次大规模使用 MoE(Mixture of Experts)架构的底座,意味着模型在保持较少「活跃参数」的情况下拥有更大的总参数量,推理效率更高。

Hermes 4 的另一个亮点是对思考/推理能力的增强。模型可以在回答前进行内部思考(类似 Chain-of-Thought),在复杂问题上的表现提升很明显。

Hermes 4.3:最新进展

Hermes 4.3 是目前最新的版本,基于 Bytedance 的 Seed 1.5 底座,这是一个 MoE 架构的模型(总参数 200B,活跃参数约 20B)。

为什么选 Seed 1.5?因为这个底座在代码、数学和推理方面特别强,而 Nous Research 在此基础上进一步增强了:

  • 通用指令遵从
  • 角色扮演和创意写作
  • 函数调用和工具使用
  • 长上下文理解

在 cocoloop 论坛上有不少关于 Hermes 4.3 的讨论帖,大家的反馈集中在两点:推理能力确实强了,然后对中文的支持也比之前的版本好了不少(毕竟底座本身就对中文做了优化)。

为什么 Hermes 在开源社区这么火

讲完了历史,我们来聊聊一个更本质的问题:开源模型那么多,为什么 Hermes 能一直保持高人气?

第一,数据质量的执念

Nous Research 对训练数据质量的追求是出了名的。他们不是那种「把 ShareGPT、Alpaca 数据集一股脑灌进去就完事」的团队。Ryan Teknium 本人多次公开表示,数据质量比数据数量重要得多

他们会手动审核数据、过滤低质量样本、设计专门的数据管线来确保每一条训练数据都是有价值的。这种「手工活」在这个讲究规模化的时代看起来很笨,但效果实打实。

第二,不过度对齐

很多商业模型(包括一些开源模型的「官方微调版」)被训练得过于谨慎。你问个稍微敏感一点的问题,模型就开始「作为一个AI,我无法……」这套话术。

Hermes 走了另一条路。它的核心理念是「中立基座 + 用户自定义对齐」。模型本身不预设太多限制,你可以通过 system prompt 来定义模型的行为边界。这让 Hermes 在角色扮演、创意写作、开发者工具等场景中特别好用。

第三,持续迭代,不掉队

从 2023 年到 2026 年,Hermes 一直在跟进最新的底座模型和训练方法。每当有强力新底座发布(Llama 3、Qwen 2.5、Seed 1.5),Nous Research 都会在第一时间推出对应的 Hermes 版本。

这种持续迭代的节奏让用户有信心——选择 Hermes 不是选择一个「一锤子买卖」的项目,而是选择一个活跃维护的生态。

第四,社区驱动,反馈闭环

七万多人的 Discord 社区不是摆设。用户发现的问题、提出的需求,确实能影响到下一个版本的优先级。这种和社区紧密互动的开发模式,让 Hermes 能快速响应实际使用中的痛点。

Hermes 的核心使用场景

了解了 Hermes 是什么和为什么火之后,再说说它适合干什么

通用对话助手

这是最基本的用途。Hermes 在通用对话任务中的表现稳定,回答质量高,指令遵从性好。无论是日常问答、写作辅助还是代码生成,都能胜任。

Agent / 工具调用

Hermes 2 Pro 开始引入的 Function Calling 能力,到 Hermes 3/4 已经相当成熟。你可以让 Hermes 调用外部工具、查询数据库、执行代码,构建完整的 AI Agent 流程。

角色扮演与创意写作

因为 Hermes 不会过度拒绝,它在角色扮演和创意场景中表现出色。你可以给它设定复杂的角色背景,它会认真遵守设定来互动,不会突然跳出角色说「我是一个AI」。

本地部署

Hermes 的 8B 版本特别适合本地部署。在一张普通消费级显卡(比如 RTX 4060)上,量化后的 Hermes 8B 就能流畅运行。配合 Ollama 或者 llama.cpp,几分钟就能在自己电脑上跑起来。

和其他开源模型的区别

新手经常搞不清楚 Hermes 和 Llama、ChatGLM、Qwen 这些模型的关系。其实很简单:

  • Llama、Qwen、Mistral 这些是底座模型(Base Model),由 Meta、阿里巴巴、Mistral AI 等公司从零训练。
  • Hermes 是在这些底座模型上做的微调版本(Fine-tuned Model),由 Nous Research 训练。

打个不太精确但很直观的比方:底座模型像毛坯房,Hermes 是精装修过的成品房。地基结构是开发商(Meta、阿里等)打的,但室内设计和装修工艺是 Nous Research 自己的。

所以你在 Hugging Face 上看到「Hermes-3-Llama-3.1-8B」这样的名字时,它的意思是:基于 Llama 3.1 8B 底座,由 Hermes 3 方法微调。

怎么开始使用 Hermes

如果你看到这里已经对 Hermes 感兴趣了,最快的上手方式是:

  1. 在线体验:去 OpenRouter 或者 Hugging Face Spaces,搜 Hermes,很多在线可用的版本
  2. 本地部署:装一个 Ollama,然后 ollama run hermes3,几分钟搞定
  3. API 调用:通过 OpenRouter 等平台的 API,可以直接在自己的应用里调用 Hermes

关于本地部署和云端 API 的选择,我写过一篇 本地部署 vs 云端 API 的对比分析,犹豫不决的可以参考一下。

写在最后

Hermes 之所以能在开源模型的海洋里站稳脚跟,靠的不是什么花哨的营销,而是扎实的数据功夫、尊重用户自主性的对齐理念、以及持续不断的迭代

对于刚入坑大模型的新手来说,Hermes 是一个非常好的起点——它免费、开源、社区活跃、文档完善,而且从 8B 小模型到 405B 大模型都有覆盖,无论你的硬件条件如何,都能找到适合自己的版本。

在 cocoloop 社区里,Hermes 也一直是讨论度最高的开源模型之一。如果你有任何使用上的问题,去论坛搜一搜,大概率能找到答案。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →