每次有开源模型发布新版本,社区里总会有人问同一个问题:和 GPT-4o 比怎么样?和 Claude 比呢?
Hermes 4 是 Nous Research 最新发布的旗舰模型,基于 Llama 3.1 405B 做的微调,还引入了混合推理能力。拿它和 OpenAI、Anthropic 的闭源大模型做正面对比,虽然量级上有点”以卵击石”的意思,但看看差距到底有多大、各自在哪些维度领先,还是挺有参考价值的。
基准测试全面对比
先把数据摊开看。
数学推理
| 模型 | MATH-500 | AIME 2024 |
|---|---|---|
| Hermes 4 405B | 96.3% | 81.9% |
| GPT-4o | 76.6% | 36.7% |
| Claude 3.5 Sonnet | 78.3% | 不适用 |
这个数据可能让不少人吃惊。Hermes 4 在数学推理上居然大幅领先两个闭源巨头?没看错,MATH-500 上 Hermes 4 拿到了 96.3%,比 GPT-4o 高了将近20个百分点。
但这里有个重要的背景信息需要说明:Hermes 4 在测试数学题时使用了”Extended Thinking”模式,也就是允许模型花更多时间进行深度推理。如果关掉这个模式,成绩会下降不少。而 GPT-4o 的测试基本是标准模式下的结果。所以这个对比并不完全在同一个条件下进行,需要理性看待。
科学推理
GPQA Diamond 这个测试衡量的是研究生级别的科学问题理解能力:
- Hermes 4 405B:70.5%
- GPT-4o:53.6%
- Claude 3.5 Sonnet:65.0%
Hermes 4 在这个指标上也不错。但同样的道理,Extended Thinking 模式在这种需要深度分析的场景下贡献了很大一部分提升。
编程能力
LiveCodeBench 是一个比较能反映实际编码能力的基准:
- Hermes 4 405B:61.3%
- GPT-4o:约50%(根据公开数据估算)
- Claude 3.5 Sonnet:约65%
编码领域是 Claude 传统强项。从实际使用来看,Claude 在处理复杂代码任务时的理解深度和代码质量确实更胜一筹。Hermes 4 在编码方面进步很大,已经达到了可用的水平,但和 Claude 还有差距。
安全策略:最大的分水岭
RefusalBench 是衡量模型拒绝倾向的一个测试,这里的数据非常能说明问题:
- Hermes 4 405B:57.1%
- GPT-4o:17.67%
- Claude Sonnet:17%
这个数据反过来看。GPT-4o 和 Claude 的”拒绝率”都很低(17%左右),意味着它们在 RefusalBench 上拒绝了大量请求。而 Hermes 4 的57.1%说明它对更多请求给出了实质性回答。
这不是说 Hermes 4 不安全。Nous Research 的理念是把安全判断权交给使用者而非预设到模型中。对于企业开发者来说,这意味着你可以通过系统提示灵活控制模型的行为边界,而不是被一刀切的安全策略卡住。
但同时也意味着使用者需要承担更多的安全责任。如果你的应用面向公众用户,可能需要自己在应用层加一道安全过滤。
中文能力:闭源仍有优势
直说了吧,中文能力是 Hermes 4 和闭源模型差距最大的地方之一。
GPT-4o 和 Claude 在中文理解和生成方面都投入了大量资源。GPT-4o 的中文流畅度非常高,几乎感觉不到翻译腔。Claude 的中文表达也很自然,尤其在长文写作和微妙语义理解上表现不错。
Hermes 4 的基座是 Llama 3.1 405B,这个基座模型的中文词表覆盖有限,导致中文 token 效率偏低(同样的中文内容,Hermes 4 消耗的 token 数量比 GPT-4o 多30-50%)。在涉及中文成语、古诗词、网络用语等文化特定表达时,Hermes 4 的理解深度也不如两个闭源对手。
不过,如果你的中文使用场景主要是技术文档、代码注释、简单的对话交互,Hermes 4 完全够用。差距主要体现在需要深度中文语言理解的场景上。
多模态:不在同一条起跑线上
GPT-4o 是原生多模态模型,天然支持图片、音频的输入处理。Claude 也具备图片理解能力。
Hermes 4 目前只支持纯文本。虽然社区有人在 Hermes 4 基础上做多模态扩展的尝试,但官方版本暂时不支持图片或音频输入。
如果你的应用场景涉及图片理解、文档OCR、视觉推理等需求,这轮没法比。
成本分析:开源的核心优势
聊到成本,局面就完全反过来了。
GPT-4o 的 API 价格大约是 $5/百万输入 token + $15/百万输出 token。Claude 的价格也在类似量级。一个日调用量10万次的应用,月成本轻松破万美元。
Hermes 4 405B 是完全开源的。如果你有自己的 GPU 集群,边际成本就是电费和折旧。即便用云端 GPU 按时计费,跑 Hermes 4 的成本也只有闭源 API 的十分之一到五分之一。
更关键的是数据隐私。用闭源 API 意味着你的数据要发送到 OpenAI 或 Anthropic 的服务器上。虽然两家公司都承诺不用 API 数据训练模型,但对于金融、医疗、政务等敏感领域来说,”数据不出门”是硬需求。Hermes 4 完全本地部署,数据不会离开你的服务器。
cocoloop 社区里有不少团队分享过从闭源 API 迁移到自部署 Hermes 的经验,成本下降幅度普遍在60%以上,有些场景甚至超过90%。
实际使用体感对比
抛开跑分,说说真实使用中的感受。
日常问答:三个模型都能很好地完成,差异不大。GPT-4o 的回答风格最简洁,Claude 最细致,Hermes 4 介于两者之间。
代码辅助:Claude 最强,GPT-4o 次之,Hermes 4 排第三但差距不算特别大。主要体现在处理复杂的多文件重构、理解大型代码库上下文时,闭源模型的表现更稳定。
长文写作:GPT-4o 最工整但缺乏个性,Claude 的文笔最好(真正意义上的”好”,不只是通顺),Hermes 4 在这方面落后比较明显,长文容易出现主题漂移。
工具调用和 Agent 场景:Hermes 4 的优势领域。它的 Function Calling 支持 非常成熟,配合灵活的系统提示,构建复杂 Agent 的体验比闭源 API 更好。
差距在缩小,但短期内追不上
客观地说,Hermes 4 和 GPT-4o、Claude 之间的差距比一年前缩小了很多。在数学推理等特定场景,Hermes 4 甚至实现了超越。但综合能力上,特别是中文、多模态、长文写作这些维度,闭源模型仍然领先。
不过换个角度想:一个开源社区团队做出来的模型,能在某些维度和几百亿美金投入的闭源模型掰手腕,这本身已经很了不起了。
选择 Hermes 4 还是闭源模型,归根结底取决于你的优先级。如果你最看重的是综合能力和开箱即用的体验,闭源模型目前还是更好的选择。但如果你在意成本控制、数据隐私、部署灵活性、以及对模型行为的完全掌控,Hermes 4 提供了一个真正可行的替代方案。
而且开源的追赶速度一直在加速。从 Hermes 3 到 Hermes 4 的进步幅度,远超从 Hermes 2 到 Hermes 3 的跨度。这个趋势如果持续下去,未来两年会很有看头。