做中文 AI 应用的时候,很多人有一个朴素的想法:中文场景当然该用中文模型。Yi(零一万物)和百川(百川智能)都是国内专注于中文的开源模型,训练数据和优化方向天然倾向中文。而 Hermes 基于 Llama 这个英文底座,中文只能算”附带”能力。
但事情没有这么简单。模型的综合能力、工具调用、推理深度等维度,不是”中文训练多”就能解决的。今天就来好好看看,在中文场景下,Hermes 和两个国产模型各自表现如何。
三个模型的中文基因
先了解各自的中文基础设施差异。
Hermes(基于 Llama 3.1):Llama 3.1 的词表以英文为主,中文 token 覆盖有限。同样一句中文,Hermes 消耗的 token 数量比国产模型多30-50%。这不只是效率问题——token 效率低意味着同等上下文长度下能处理的中文内容更少,也意味着推理成本更高。Nous Research 在微调 Hermes 时加入了一些中文数据,但比例不大。
Yi(零一万物):Yi 系列从基座模型开始就对中文做了深度优化。词表中包含大量中文 token,中文 token 效率和 Qwen 系列在同一水平线上。Yi 的训练数据中包含了大量高质量中文语料,覆盖学术、新闻、百科、社交媒体等多种文体。
百川(Baichuan):百川也是从零开始训练的中文大模型,词表设计充分考虑了中文特性。百川的一个特色是在训练数据中加入了大量中文搜索数据,这让它在理解中文搜索查询和信息检索场景下有独特优势。
中文理解深度测试
设计了四组测试来衡量中文理解的深度。
第一组:歧义消解
中文是一种高度依赖上下文的语言,同一个词在不同语境下含义可能完全不同。
测试用例:”这个方案确实不行”——根据上下文判断说话者是在否定方案还是在认同方案(反讽用法)。
20个歧义场景的测试结果:
| 模型 | 正确识别率 |
|---|---|
| Yi 34B | 85% |
| 百川 13B | 78% |
| Hermes 3 70B | 70% |
Yi 在中文歧义消解上表现最好。它对中文语言的微妙之处更敏感,能更准确地从上下文中推断说话者的真实意图。百川也不错。Hermes 3 在涉及到中文特有的修辞手法(反讽、委婉、隐喻)时,理解准确度会下降。
第二组:文化知识理解
测试模型对中国文化、历史、社会常识的理解程度。
50个涉及中国文化知识的问题(从传统节日到网络用语):
| 模型 | 传统文化 | 现代社会 | 网络用语 |
|---|---|---|---|
| Yi 34B | 92% | 88% | 72% |
| 百川 13B | 88% | 85% | 78% |
| Hermes 3 70B | 72% | 68% | 45% |
传统文化和现代社会知识方面,国产模型优势明显。Hermes 3 能回答一些基本的中国文化问题,但深度不够——比如它知道春节,但对各地不同的春节习俗了解有限。
网络用语是个有趣的维度。百川在这方面居然比 Yi 更好,可能和它训练数据中包含大量社交媒体内容有关。而 Hermes 3 对中文网络用语几乎一无所知——你跟它说”YYDS”或者”绝绝子”,它可能会一脸困惑。
第三组:长文档理解
给三个模型一篇5000字的中文技术文档,然后问一些需要全文理解才能回答的问题。
| 模型 | 细节提取 | 逻辑推理 | 总结概括 |
|---|---|---|---|
| Yi 34B | 85% | 78% | 88% |
| 百川 13B | 80% | 72% | 82% |
| Hermes 3 70B | 82% | 80% | 78% |
有意思的是,Hermes 3 在逻辑推理这个子项上反而最好。虽然它的中文理解不如国产模型精确,但它的推理能力可以在一定程度上弥补这个短板——即使漏掉了一些中文细节,它仍然能通过逻辑推理得出正确结论。
中文写作质量
让三个模型各写三种不同风格的中文文章:技术博客、产品文案、知识科普。
技术博客
Yi 34B 写出来的技术博客最自然。用词精准、逻辑清晰、段落衔接流畅。你把它的输出贴到知乎上,不仔细看几乎分辨不出是AI写的。
百川 13B 的技术写作也不错,但风格偏正式,更像是报告而不是博客。对于需要轻松口吻的场景(比如个人技术博客),百川的文风可能显得过于严肃。
Hermes 3 70B 写中文技术博客的问题前面提过——翻译腔。一些英文思维模式会渗透到中文表达中,比如大量使用被动语态、句子结构偏长偏复杂。能读,但读着累。
产品文案
这个场景差距最大。产品文案需要戳到用户的点,需要对中文用户的消费心理有深层理解。
Yi 34B 写的文案能抓住卖点,措辞也比较到位,但偶尔会显得”套路化”。百川写的文案有时候会蹦出一些很接地气的表达,让人眼前一亮。Hermes 3 写的中文产品文案基本没法直接用,需要大幅修改。
知识科普
三个模型在知识科普方面的差距相对较小。科普文章需要的是准确性和可读性,不太依赖文化特定的表达。Hermes 3 在事实准确性上不输国产模型(毕竟参数量摆在那里),只是语言表达不如另外两个地道。
工具调用和 Agent 场景
到了这个环节,局面就反过来了。
| 能力 | Hermes 3 70B | Yi 34B | 百川 13B |
|---|---|---|---|
| Function Calling | 强 | 弱 | 弱 |
| 多步工具链 | 强 | 极弱 | 极弱 |
| Agent 场景 | 成熟可用 | 需要大量适配 | 需要大量适配 |
Hermes 的 Function Calling 能力 在这里体现出碾压级优势。Yi 和百川虽然也能做简单的工具调用,但准确率和稳定性差很多。在多步骤工具链场景下,Yi 和百川基本不可用——它们没有在训练中充分覆盖这类数据。
这个差距意味着什么?如果你要做的是一个纯对话型的中文 AI 应用(客服、问答、写作辅助),国产模型是更好的选择。但如果你要做的是一个能执行任务的 Agent 系统——比如能帮用户查询数据、操作API、自动化流程——Hermes 的优势就很大了。
推理和数学:参数量说话
Hermes 3 70B 在推理和数学方面比 Yi 34B 和百川 13B 都要强不少。但这主要是参数量的差距——70B 对 34B 和 13B,本身就不是同一量级的比较。
如果拿同等参数量的版本对比(都用8B左右),Yi 8B 和百川 8B 在推理能力上和 Hermes 3 8B 差距不大。Hermes 3 8B 略强,但优势不像70B那么明显。
部署和生态
Hermes:依托 Llama 生态,各大推理框架的支持最完善。无论是 vLLM、TGI 还是 llama.cpp,Hermes 都是第一时间被兼容的。国际社区资源丰富,cocoloop 社区也提供了不少中文使用指南。
Yi:模型格式标准,主流框架都支持。零一万物提供了官方的部署文档和API服务。国内云平台(阿里云、腾讯云等)大多有 Yi 的一键部署方案。
百川:支持主流推理框架,国内的部署文档做得不错。百川的 API 服务在国内可以直接使用,不需要翻墙,这对很多国内用户来说是实际的便利。
混合使用的思路
聊了这么多对比,其实有一个可能被忽略的方案:混合使用。
在一个中文 AI 应用中,对话和内容生成部分用 Yi 或 Qwen 这样的中文强势模型,工具调用和 Agent 部分用 Hermes。两个模型各司其职,取长补短。
这种方案的工程复杂度确实更高——需要一个路由层来判断当前请求应该分发给哪个模型。但在一些对体验要求很高的场景下,这种”组合拳”的效果可能比单一模型好得多。
选择建议
做中文内容为主的应用 → Yi 或百川
如果你的应用核心是中文对话、中文写作、中文知识问答,国产模型的体验好太多了。中文理解的深度和写作的自然度不是靠参数量能补的,这需要大量高质量的中文训练数据。
做需要工具调用的中文 Agent → Hermes
如果你的应用需要调用API、执行操作、进行多步骤任务编排,Hermes 在工具调用方面的成熟度是国产模型目前达不到的。中文不够地道的问题,可以通过前后处理来一定程度上弥补。
做面向全球用户的多语言应用 → Hermes
如果你的用户分布在多个语言区域,Hermes 基于 Llama 的多语言基础会比国产模型的覆盖面更广。
选模型不是选信仰。中文强不代表别的方面也强,工具调用强不代表中文也强。认清自己的核心需求,做出理性的选择。