Hermes vs Yi vs 百川：海外开源模型在中文场景下的表现

做中文 AI 应用的时候，很多人有一个朴素的想法：中文场景当然该用中文模型。Yi（零一万物）和百川（百川智能）都是国内专注于中文的开源模型，训练数据和优化方向天然倾向中文。而 Hermes 基于 Llama 这个英文底座，中文只能算”附带”能力。

但事情没有这么简单。模型的综合能力、工具调用、推理深度等维度，不是”中文训练多”就能解决的。今天就来好好看看，在中文场景下，Hermes 和两个国产模型各自表现如何。

三个模型的中文基因

先了解各自的中文基础设施差异。

Hermes（基于 Llama 3.1）：Llama 3.1 的词表以英文为主，中文 token 覆盖有限。同样一句中文，Hermes 消耗的 token 数量比国产模型多30-50%。这不只是效率问题——token 效率低意味着同等上下文长度下能处理的中文内容更少，也意味着推理成本更高。Nous Research 在微调 Hermes 时加入了一些中文数据，但比例不大。

Yi（零一万物）：Yi 系列从基座模型开始就对中文做了深度优化。词表中包含大量中文 token，中文 token 效率和 Qwen 系列在同一水平线上。Yi 的训练数据中包含了大量高质量中文语料，覆盖学术、新闻、百科、社交媒体等多种文体。

百川（Baichuan）：百川也是从零开始训练的中文大模型，词表设计充分考虑了中文特性。百川的一个特色是在训练数据中加入了大量中文搜索数据，这让它在理解中文搜索查询和信息检索场景下有独特优势。

中文理解深度测试

设计了四组测试来衡量中文理解的深度。

第一组：歧义消解

中文是一种高度依赖上下文的语言，同一个词在不同语境下含义可能完全不同。

测试用例：”这个方案确实不行”——根据上下文判断说话者是在否定方案还是在认同方案（反讽用法）。

20个歧义场景的测试结果：

模型	正确识别率
Yi 34B	85%
百川 13B	78%
Hermes 3 70B	70%

Yi 在中文歧义消解上表现最好。它对中文语言的微妙之处更敏感，能更准确地从上下文中推断说话者的真实意图。百川也不错。Hermes 3 在涉及到中文特有的修辞手法（反讽、委婉、隐喻）时，理解准确度会下降。

第二组：文化知识理解

测试模型对中国文化、历史、社会常识的理解程度。

50个涉及中国文化知识的问题（从传统节日到网络用语）：

模型	传统文化	现代社会	网络用语
Yi 34B	92%	88%	72%
百川 13B	88%	85%	78%
Hermes 3 70B	72%	68%	45%

传统文化和现代社会知识方面，国产模型优势明显。Hermes 3 能回答一些基本的中国文化问题，但深度不够——比如它知道春节，但对各地不同的春节习俗了解有限。

网络用语是个有趣的维度。百川在这方面居然比 Yi 更好，可能和它训练数据中包含大量社交媒体内容有关。而 Hermes 3 对中文网络用语几乎一无所知——你跟它说”YYDS”或者”绝绝子”，它可能会一脸困惑。

第三组：长文档理解

给三个模型一篇5000字的中文技术文档，然后问一些需要全文理解才能回答的问题。

模型	细节提取	逻辑推理	总结概括
Yi 34B	85%	78%	88%
百川 13B	80%	72%	82%
Hermes 3 70B	82%	80%	78%

有意思的是，Hermes 3 在逻辑推理这个子项上反而最好。虽然它的中文理解不如国产模型精确，但它的推理能力可以在一定程度上弥补这个短板——即使漏掉了一些中文细节，它仍然能通过逻辑推理得出正确结论。

中文写作质量

让三个模型各写三种不同风格的中文文章：技术博客、产品文案、知识科普。

技术博客

Yi 34B 写出来的技术博客最自然。用词精准、逻辑清晰、段落衔接流畅。你把它的输出贴到知乎上，不仔细看几乎分辨不出是AI写的。

百川 13B 的技术写作也不错，但风格偏正式，更像是报告而不是博客。对于需要轻松口吻的场景（比如个人技术博客），百川的文风可能显得过于严肃。

Hermes 3 70B 写中文技术博客的问题前面提过——翻译腔。一些英文思维模式会渗透到中文表达中，比如大量使用被动语态、句子结构偏长偏复杂。能读，但读着累。

产品文案

这个场景差距最大。产品文案需要戳到用户的点，需要对中文用户的消费心理有深层理解。

Yi 34B 写的文案能抓住卖点，措辞也比较到位，但偶尔会显得”套路化”。百川写的文案有时候会蹦出一些很接地气的表达，让人眼前一亮。Hermes 3 写的中文产品文案基本没法直接用，需要大幅修改。

知识科普

三个模型在知识科普方面的差距相对较小。科普文章需要的是准确性和可读性，不太依赖文化特定的表达。Hermes 3 在事实准确性上不输国产模型（毕竟参数量摆在那里），只是语言表达不如另外两个地道。

工具调用和 Agent 场景

到了这个环节，局面就反过来了。

能力	Hermes 3 70B	Yi 34B	百川 13B
Function Calling	强	弱	弱
多步工具链	强	极弱	极弱
Agent 场景	成熟可用	需要大量适配	需要大量适配

Hermes 的 Function Calling 能力在这里体现出碾压级优势。Yi 和百川虽然也能做简单的工具调用，但准确率和稳定性差很多。在多步骤工具链场景下，Yi 和百川基本不可用——它们没有在训练中充分覆盖这类数据。

这个差距意味着什么？如果你要做的是一个纯对话型的中文 AI 应用（客服、问答、写作辅助），国产模型是更好的选择。但如果你要做的是一个能执行任务的 Agent 系统——比如能帮用户查询数据、操作API、自动化流程——Hermes 的优势就很大了。

推理和数学：参数量说话

Hermes 3 70B 在推理和数学方面比 Yi 34B 和百川 13B 都要强不少。但这主要是参数量的差距——70B 对 34B 和 13B，本身就不是同一量级的比较。

如果拿同等参数量的版本对比（都用8B左右），Yi 8B 和百川 8B 在推理能力上和 Hermes 3 8B 差距不大。Hermes 3 8B 略强，但优势不像70B那么明显。

部署和生态

Hermes：依托 Llama 生态，各大推理框架的支持最完善。无论是 vLLM、TGI 还是 llama.cpp，Hermes 都是第一时间被兼容的。国际社区资源丰富，cocoloop 社区也提供了不少中文使用指南。

Yi：模型格式标准，主流框架都支持。零一万物提供了官方的部署文档和API服务。国内云平台（阿里云、腾讯云等）大多有 Yi 的一键部署方案。

百川：支持主流推理框架，国内的部署文档做得不错。百川的 API 服务在国内可以直接使用，不需要翻墙，这对很多国内用户来说是实际的便利。

混合使用的思路

聊了这么多对比，其实有一个可能被忽略的方案：混合使用。

在一个中文 AI 应用中，对话和内容生成部分用 Yi 或 Qwen 这样的中文强势模型，工具调用和 Agent 部分用 Hermes。两个模型各司其职，取长补短。

这种方案的工程复杂度确实更高——需要一个路由层来判断当前请求应该分发给哪个模型。但在一些对体验要求很高的场景下，这种”组合拳”的效果可能比单一模型好得多。

选择建议

做中文内容为主的应用 → Yi 或百川

如果你的应用核心是中文对话、中文写作、中文知识问答，国产模型的体验好太多了。中文理解的深度和写作的自然度不是靠参数量能补的，这需要大量高质量的中文训练数据。

做需要工具调用的中文 Agent → Hermes

如果你的应用需要调用API、执行操作、进行多步骤任务编排，Hermes 在工具调用方面的成熟度是国产模型目前达不到的。中文不够地道的问题，可以通过前后处理来一定程度上弥补。

做面向全球用户的多语言应用 → Hermes

如果你的用户分布在多个语言区域，Hermes 基于 Llama 的多语言基础会比国产模型的覆盖面更广。

选模型不是选信仰。中文强不代表别的方面也强，工具调用强不代表中文也强。认清自己的核心需求，做出理性的选择。