2025到2026年的开源模型格局,和两年前完全不是一个画风。那时候讨论开源模型基本就是在讨论 Llama,偶尔提一嘴 Mistral。现在?中国这边直接杀出了 Qwen 和 DeepSeek 两个重量级选手,加上老牌的 Hermes 系列,三方角力的态势已经很明显了。
对于中文用户来说,这三个模型的选择直接关系到日常生产力。今天就把它们拉到一起,认真比一比。
三个模型的基本定位
先理清楚各自的背景和定位。
Hermes 4 405B:Nous Research 出品,基于 Llama 3.1 405B 微调。核心卖点是超强的工具调用能力、灵活的安全策略、以及混合推理模式。MATH-500 跑到了 96.3%,AIME 2024 拿了 81.9%。这个数学成绩相当能打。
Qwen 2.5:阿里通义千问团队的作品,从底层就为中文场景做了深度优化。词表专门针对中文做了扩展,中文 token 效率比基于 Llama 的模型高出不少。有从 0.5B 到 72B 的完整尺寸覆盖。
DeepSeek V3:深度求索的旗舰模型,采用 MoE(混合专家)架构,总参数量达到 671B,但激活参数只有 37B。以极低的训练成本(据称约 560 万美元)实现了惊人的性能,在数学推理和代码生成上尤其强悍。
三个模型来自完全不同的技术路线,这让对比更有意思。
中文能力:正面硬刚
先聊最关心的中文能力。
词表和 Token 效率
这是一个很容易被忽略但实际影响巨大的因素。Qwen 2.5 的词表包含超过15万个 token,其中大量是中文专用 token。同样一段中文文本,Qwen 2.5 消耗的 token 数量大约只有 Hermes 4 的60-70%。
这意味着什么?意味着同样的上下文窗口长度,Qwen 2.5 能塞进去更多的中文内容。在处理长文档、多轮对话等场景时,这个优势会不断累积。
DeepSeek V3 的词表设计也考虑了中文,效率介于 Qwen 和 Hermes 之间。
中文语义理解
让三个模型处理一些需要深度中文理解的任务——文言文翻译、中文成语解释、歧义句分析、方言理解。
Qwen 2.5 在这些场景下表现最稳。它对中文语义的把握最准确,很少出现理解偏差。一个典型例子:让三个模型解释”这个人很阴”在不同上下文中的含义,Qwen 2.5 能准确区分出”阴险””阴沉””阴柔”等不同语义,而 Hermes 4 有时会混淆。
DeepSeek V3 的中文理解能力也相当不错,特别是在技术和学术领域的中文表达上。它能很好地处理中英文混杂的技术文档,这在国内开发者的日常场景中非常实用。
Hermes 4 的中文表现嘛,说好听点是”还行”,说直接点是”能用但不惊艳”。简单的中文对话、技术讨论没问题,但涉及到文化内涵丰富的中文内容时,会暴露底座模型中文训练不足的短板。
中文写作质量
Qwen 2.5 写出来的中文最地道,用词选择和句式结构都很自然,基本看不出机器生成的痕迹。DeepSeek V3 的中文写作稍显正式,但质量也很高。Hermes 4 的中文写作偶尔会有翻译腔,长文中这个问题更明显。
数学和推理:Hermes 4 的逆袭
中文不行,那就比数学。
| 测试项 | Hermes 4 405B | Qwen 2.5 72B | DeepSeek V3 |
|---|---|---|---|
| MATH-500 | 96.3% | 83.1% | 89.7% |
| AIME 2024 | 81.9% | 约30% | 约40% |
| GPQA Diamond | 70.5% | 49.0% | 59.1% |
数学推理是 Hermes 4 的拿手好戏。96.3% 的 MATH-500 成绩,加上 81.9% 的 AIME 2024,这个表现放在整个开源模型阵营里都是顶尖水平。
但需要再次强调,Hermes 4 的数学强项很大程度上来自它的 Extended Thinking 模式。这个模式允许模型在回答前进行长时间的内部推理,相当于给了模型”打草稿”的时间。关掉这个模式后,成绩会有显著下降。
DeepSeek V3 在数学方面也相当能打,特别是考虑到它的激活参数只有 37B。MoE 架构在数学推理场景下展现了出色的参数效率。
Qwen 2.5 72B 的数学能力在同尺寸模型中算是中上水平,但和 405B 级别的模型比确实有差距。不过 Qwen 2.5 Max 版本(非开源)在数学上的表现要好得多。
代码生成:三足鼎立
编程能力的对比比较复杂,因为不同编程语言和任务类型下的表现差异很大。
Python/JavaScript 等主流语言:三个模型都很能打,差距不大。DeepSeek V3 在代码生成的准确性上可能有微弱优势,但不到能感知的程度。
中文技术文档 + 代码混合场景:这是国内开发者的典型使用场景——用中文描述需求,让模型生成代码。Qwen 2.5 和 DeepSeek V3 在理解中文技术需求方面更准确,生成的代码注释也更自然。Hermes 4 有时会把中文需求中的细节理解错。
复杂架构设计:涉及到系统设计、架构决策等高层次编程任务时,Hermes 4 的 Agent 能力 反而成了加分项。它可以通过多步骤的工具调用来辅助复杂的代码分析和重构。
LiveCodeBench 成绩:Hermes 4 拿到了 61.3%,DeepSeek V3 约 64%,Qwen 2.5 72B 约 55%。
工具调用和 Agent 能力
这个领域 Hermes 4 有明显优势。
Hermes 系列从 Hermes 2 Pro 就开始重点打磨工具调用能力,到了 Hermes 4 已经相当成熟。支持复杂的嵌套函数调用、多步骤工具链、以及并行工具调用。
Qwen 2.5 也支持 Function Calling,但实现的深度和稳定性不如 Hermes 4。特别是在多步骤的 Agent 场景中,Qwen 2.5 偶尔会在中间步骤丢失上下文。
DeepSeek V3 的工具调用支持相对较弱。它更像是一个”纯对话”模型,在 Agent 场景下的适配需要更多的工程化工作。
如果你的项目核心是构建 AI Agent 或者需要频繁使用工具调用,Hermes 4 是最省心的选择。
部署成本和硬件需求
这个维度的对比直接关系到钱包。
Hermes 4 405B:全参数 FP16 需要约 810GB 显存,量化到 INT4 需要约 200GB。这基本意味着你需要多卡服务器,不是个人开发者能轻松玩得转的。
Qwen 2.5 72B:FP16 需要约 144GB,INT4 约 40GB。两张 A100 或者一张 H100 就能跑,友好很多。而且 Qwen 2.5 还有 7B、14B 等小尺寸版本,消费级显卡也能玩。
DeepSeek V3:虽然总参数671B 听着吓人,但 MoE 架构下激活参数只有 37B,实际推理时的显存占用比想象中低。不过 MoE 模型对推理框架的要求更高,不是所有框架都能很好地支持。
从性价比角度看,Qwen 2.5 的尺寸覆盖最友好。你可以根据实际需求选择不同尺寸的版本,在性能和成本之间找到最佳平衡点。
社区生态和文档支持
Hermes 4:Nous Research 的社区以英文为主,但 cocoloop 社区为中文用户提供了不少资源和讨论空间。Discord 社区活跃度很高,技术讨论的质量也不错。
Qwen 2.5:阿里的官方文档做得很全,中文支持自然不用多说。HuggingFace 上的模型卡片和示例代码也比较完善。国内各大云平台基本都第一时间支持了 Qwen 的部署。
DeepSeek V3:深度求索的文档质量在国内开源项目中属于上乘。论文写得很详细,技术报告的透明度很高。社区规模在快速增长中。
选择建议
总结一下各自的最佳使用场景:
选 Hermes 4 如果你:
- 核心需求是构建 Agent 系统或使用工具调用
- 需要灵活的安全策略控制
- 数学和推理任务是主要应用场景
- 有足够的算力资源
选 Qwen 2.5 如果你:
- 中文是主要使用语言
- 需要从小到大多种尺寸的灵活选择
- 硬件资源有限,需要控制部署成本
- 对中文写作质量有较高要求
选 DeepSeek V3 如果你:
- 看重整体性价比(激活参数少但性能强)
- 代码生成是核心需求
- 需要处理大量中英混合的技术内容
- 对数学推理有较高要求但算力有限
三个模型不存在谁全面碾压谁的情况。开源生态的健康发展恰恰需要这种多元竞争。作为使用者,能有这么多高质量的开源选项可以挑选,这在两年前是不敢想的。
选模型就像选工具——没有最好的,只有最合适的。搞清楚自己的核心需求,再对号入座,比盲目追跑分有意义得多。