Hermes 4 vs GPT-4o vs Claude：开源追赶闭源还差多远

每次有开源模型发布新版本，社区里总会有人问同一个问题：和 GPT-4o 比怎么样？和 Claude 比呢？

Hermes 4 是 Nous Research 最新发布的旗舰模型，基于 Llama 3.1 405B 做的微调，还引入了混合推理能力。拿它和 OpenAI、Anthropic 的闭源大模型做正面对比，虽然量级上有点”以卵击石”的意思，但看看差距到底有多大、各自在哪些维度领先，还是挺有参考价值的。

基准测试全面对比

先把数据摊开看。

数学推理

模型	MATH-500	AIME 2024
Hermes 4 405B	96.3%	81.9%
GPT-4o	76.6%	36.7%
Claude 3.5 Sonnet	78.3%	不适用

这个数据可能让不少人吃惊。Hermes 4 在数学推理上居然大幅领先两个闭源巨头？没看错，MATH-500 上 Hermes 4 拿到了 96.3%，比 GPT-4o 高了将近20个百分点。

但这里有个重要的背景信息需要说明：Hermes 4 在测试数学题时使用了”Extended Thinking”模式，也就是允许模型花更多时间进行深度推理。如果关掉这个模式，成绩会下降不少。而 GPT-4o 的测试基本是标准模式下的结果。所以这个对比并不完全在同一个条件下进行，需要理性看待。

科学推理

GPQA Diamond 这个测试衡量的是研究生级别的科学问题理解能力：

Hermes 4 405B：70.5%
GPT-4o：53.6%
Claude 3.5 Sonnet：65.0%

Hermes 4 在这个指标上也不错。但同样的道理，Extended Thinking 模式在这种需要深度分析的场景下贡献了很大一部分提升。

编程能力

LiveCodeBench 是一个比较能反映实际编码能力的基准：

Hermes 4 405B：61.3%
GPT-4o：约50%（根据公开数据估算）
Claude 3.5 Sonnet：约65%

编码领域是 Claude 传统强项。从实际使用来看，Claude 在处理复杂代码任务时的理解深度和代码质量确实更胜一筹。Hermes 4 在编码方面进步很大，已经达到了可用的水平，但和 Claude 还有差距。

安全策略：最大的分水岭

RefusalBench 是衡量模型拒绝倾向的一个测试，这里的数据非常能说明问题：

Hermes 4 405B：57.1%
GPT-4o：17.67%
Claude Sonnet：17%

这个数据反过来看。GPT-4o 和 Claude 的”拒绝率”都很低（17%左右），意味着它们在 RefusalBench 上拒绝了大量请求。而 Hermes 4 的57.1%说明它对更多请求给出了实质性回答。

这不是说 Hermes 4 不安全。Nous Research 的理念是把安全判断权交给使用者而非预设到模型中。对于企业开发者来说，这意味着你可以通过系统提示灵活控制模型的行为边界，而不是被一刀切的安全策略卡住。

但同时也意味着使用者需要承担更多的安全责任。如果你的应用面向公众用户，可能需要自己在应用层加一道安全过滤。

中文能力：闭源仍有优势

直说了吧，中文能力是 Hermes 4 和闭源模型差距最大的地方之一。

GPT-4o 和 Claude 在中文理解和生成方面都投入了大量资源。GPT-4o 的中文流畅度非常高，几乎感觉不到翻译腔。Claude 的中文表达也很自然，尤其在长文写作和微妙语义理解上表现不错。

Hermes 4 的基座是 Llama 3.1 405B，这个基座模型的中文词表覆盖有限，导致中文 token 效率偏低（同样的中文内容，Hermes 4 消耗的 token 数量比 GPT-4o 多30-50%）。在涉及中文成语、古诗词、网络用语等文化特定表达时，Hermes 4 的理解深度也不如两个闭源对手。

不过，如果你的中文使用场景主要是技术文档、代码注释、简单的对话交互，Hermes 4 完全够用。差距主要体现在需要深度中文语言理解的场景上。

多模态：不在同一条起跑线上

GPT-4o 是原生多模态模型，天然支持图片、音频的输入处理。Claude 也具备图片理解能力。

Hermes 4 目前只支持纯文本。虽然社区有人在 Hermes 4 基础上做多模态扩展的尝试，但官方版本暂时不支持图片或音频输入。

如果你的应用场景涉及图片理解、文档OCR、视觉推理等需求，这轮没法比。

成本分析：开源的核心优势

聊到成本，局面就完全反过来了。

GPT-4o 的 API 价格大约是 $5/百万输入 token + $15/百万输出 token。Claude 的价格也在类似量级。一个日调用量10万次的应用，月成本轻松破万美元。

Hermes 4 405B 是完全开源的。如果你有自己的 GPU 集群，边际成本就是电费和折旧。即便用云端 GPU 按时计费，跑 Hermes 4 的成本也只有闭源 API 的十分之一到五分之一。

更关键的是数据隐私。用闭源 API 意味着你的数据要发送到 OpenAI 或 Anthropic 的服务器上。虽然两家公司都承诺不用 API 数据训练模型，但对于金融、医疗、政务等敏感领域来说，”数据不出门”是硬需求。Hermes 4 完全本地部署，数据不会离开你的服务器。

cocoloop 社区里有不少团队分享过从闭源 API 迁移到自部署 Hermes 的经验，成本下降幅度普遍在60%以上，有些场景甚至超过90%。

实际使用体感对比

抛开跑分，说说真实使用中的感受。

日常问答：三个模型都能很好地完成，差异不大。GPT-4o 的回答风格最简洁，Claude 最细致，Hermes 4 介于两者之间。

代码辅助：Claude 最强，GPT-4o 次之，Hermes 4 排第三但差距不算特别大。主要体现在处理复杂的多文件重构、理解大型代码库上下文时，闭源模型的表现更稳定。

长文写作：GPT-4o 最工整但缺乏个性，Claude 的文笔最好（真正意义上的”好”，不只是通顺），Hermes 4 在这方面落后比较明显，长文容易出现主题漂移。

工具调用和 Agent 场景：Hermes 4 的优势领域。它的 Function Calling 支持非常成熟，配合灵活的系统提示，构建复杂 Agent 的体验比闭源 API 更好。

差距在缩小，但短期内追不上

客观地说，Hermes 4 和 GPT-4o、Claude 之间的差距比一年前缩小了很多。在数学推理等特定场景，Hermes 4 甚至实现了超越。但综合能力上，特别是中文、多模态、长文写作这些维度，闭源模型仍然领先。

不过换个角度想：一个开源社区团队做出来的模型，能在某些维度和几百亿美金投入的闭源模型掰手腕，这本身已经很了不起了。

选择 Hermes 4 还是闭源模型，归根结底取决于你的优先级。如果你最看重的是综合能力和开箱即用的体验，闭源模型目前还是更好的选择。但如果你在意成本控制、数据隐私、部署灵活性、以及对模型行为的完全掌控，Hermes 4 提供了一个真正可行的替代方案。

而且开源的追赶速度一直在加速。从 Hermes 3 到 Hermes 4 的进步幅度，远超从 Hermes 2 到 Hermes 3 的跨度。这个趋势如果持续下去，未来两年会很有看头。