Hermes vs Yi vs 百川:海外开源模型在中文场景下的表现

对比 Hermes、Yi 和百川三个模型在中文理解、中文写作、中文对话等场景下的实际表现,分析海外开源模型在中文赛道的竞争力。

目录

  1. 三个模型的中文基因
  2. 中文理解深度测试
  3. 中文写作质量
  4. 工具调用和 Agent 场景
  5. 推理和数学:参数量说话
  6. 部署和生态
  7. 混合使用的思路
  8. 选择建议

做中文 AI 应用的时候,很多人有一个朴素的想法:中文场景当然该用中文模型。Yi(零一万物)和百川(百川智能)都是国内专注于中文的开源模型,训练数据和优化方向天然倾向中文。而 Hermes 基于 Llama 这个英文底座,中文只能算”附带”能力。

但事情没有这么简单。模型的综合能力、工具调用、推理深度等维度,不是”中文训练多”就能解决的。今天就来好好看看,在中文场景下,Hermes 和两个国产模型各自表现如何。

三个模型的中文基因

先了解各自的中文基础设施差异。

Hermes(基于 Llama 3.1):Llama 3.1 的词表以英文为主,中文 token 覆盖有限。同样一句中文,Hermes 消耗的 token 数量比国产模型多30-50%。这不只是效率问题——token 效率低意味着同等上下文长度下能处理的中文内容更少,也意味着推理成本更高。Nous Research 在微调 Hermes 时加入了一些中文数据,但比例不大。

Yi(零一万物):Yi 系列从基座模型开始就对中文做了深度优化。词表中包含大量中文 token,中文 token 效率和 Qwen 系列在同一水平线上。Yi 的训练数据中包含了大量高质量中文语料,覆盖学术、新闻、百科、社交媒体等多种文体。

百川(Baichuan):百川也是从零开始训练的中文大模型,词表设计充分考虑了中文特性。百川的一个特色是在训练数据中加入了大量中文搜索数据,这让它在理解中文搜索查询和信息检索场景下有独特优势。

中文理解深度测试

设计了四组测试来衡量中文理解的深度。

第一组:歧义消解

中文是一种高度依赖上下文的语言,同一个词在不同语境下含义可能完全不同。

测试用例:”这个方案确实不行”——根据上下文判断说话者是在否定方案还是在认同方案(反讽用法)。

20个歧义场景的测试结果:

模型 正确识别率
Yi 34B 85%
百川 13B 78%
Hermes 3 70B 70%

Yi 在中文歧义消解上表现最好。它对中文语言的微妙之处更敏感,能更准确地从上下文中推断说话者的真实意图。百川也不错。Hermes 3 在涉及到中文特有的修辞手法(反讽、委婉、隐喻)时,理解准确度会下降。

第二组:文化知识理解

测试模型对中国文化、历史、社会常识的理解程度。

50个涉及中国文化知识的问题(从传统节日到网络用语):

模型 传统文化 现代社会 网络用语
Yi 34B 92% 88% 72%
百川 13B 88% 85% 78%
Hermes 3 70B 72% 68% 45%

传统文化和现代社会知识方面,国产模型优势明显。Hermes 3 能回答一些基本的中国文化问题,但深度不够——比如它知道春节,但对各地不同的春节习俗了解有限。

网络用语是个有趣的维度。百川在这方面居然比 Yi 更好,可能和它训练数据中包含大量社交媒体内容有关。而 Hermes 3 对中文网络用语几乎一无所知——你跟它说”YYDS”或者”绝绝子”,它可能会一脸困惑。

第三组:长文档理解

给三个模型一篇5000字的中文技术文档,然后问一些需要全文理解才能回答的问题。

模型 细节提取 逻辑推理 总结概括
Yi 34B 85% 78% 88%
百川 13B 80% 72% 82%
Hermes 3 70B 82% 80% 78%

有意思的是,Hermes 3 在逻辑推理这个子项上反而最好。虽然它的中文理解不如国产模型精确,但它的推理能力可以在一定程度上弥补这个短板——即使漏掉了一些中文细节,它仍然能通过逻辑推理得出正确结论。

中文写作质量

让三个模型各写三种不同风格的中文文章:技术博客、产品文案、知识科普。

技术博客

Yi 34B 写出来的技术博客最自然。用词精准、逻辑清晰、段落衔接流畅。你把它的输出贴到知乎上,不仔细看几乎分辨不出是AI写的。

百川 13B 的技术写作也不错,但风格偏正式,更像是报告而不是博客。对于需要轻松口吻的场景(比如个人技术博客),百川的文风可能显得过于严肃。

Hermes 3 70B 写中文技术博客的问题前面提过——翻译腔。一些英文思维模式会渗透到中文表达中,比如大量使用被动语态、句子结构偏长偏复杂。能读,但读着累。

产品文案

这个场景差距最大。产品文案需要戳到用户的点,需要对中文用户的消费心理有深层理解。

Yi 34B 写的文案能抓住卖点,措辞也比较到位,但偶尔会显得”套路化”。百川写的文案有时候会蹦出一些很接地气的表达,让人眼前一亮。Hermes 3 写的中文产品文案基本没法直接用,需要大幅修改。

知识科普

三个模型在知识科普方面的差距相对较小。科普文章需要的是准确性和可读性,不太依赖文化特定的表达。Hermes 3 在事实准确性上不输国产模型(毕竟参数量摆在那里),只是语言表达不如另外两个地道。

工具调用和 Agent 场景

到了这个环节,局面就反过来了。

能力 Hermes 3 70B Yi 34B 百川 13B
Function Calling
多步工具链 极弱 极弱
Agent 场景 成熟可用 需要大量适配 需要大量适配

Hermes 的 Function Calling 能力 在这里体现出碾压级优势。Yi 和百川虽然也能做简单的工具调用,但准确率和稳定性差很多。在多步骤工具链场景下,Yi 和百川基本不可用——它们没有在训练中充分覆盖这类数据。

这个差距意味着什么?如果你要做的是一个纯对话型的中文 AI 应用(客服、问答、写作辅助),国产模型是更好的选择。但如果你要做的是一个能执行任务的 Agent 系统——比如能帮用户查询数据、操作API、自动化流程——Hermes 的优势就很大了。

推理和数学:参数量说话

Hermes 3 70B 在推理和数学方面比 Yi 34B 和百川 13B 都要强不少。但这主要是参数量的差距——70B 对 34B 和 13B,本身就不是同一量级的比较。

如果拿同等参数量的版本对比(都用8B左右),Yi 8B 和百川 8B 在推理能力上和 Hermes 3 8B 差距不大。Hermes 3 8B 略强,但优势不像70B那么明显。

部署和生态

Hermes:依托 Llama 生态,各大推理框架的支持最完善。无论是 vLLM、TGI 还是 llama.cpp,Hermes 都是第一时间被兼容的。国际社区资源丰富,cocoloop 社区也提供了不少中文使用指南。

Yi:模型格式标准,主流框架都支持。零一万物提供了官方的部署文档和API服务。国内云平台(阿里云、腾讯云等)大多有 Yi 的一键部署方案。

百川:支持主流推理框架,国内的部署文档做得不错。百川的 API 服务在国内可以直接使用,不需要翻墙,这对很多国内用户来说是实际的便利。

混合使用的思路

聊了这么多对比,其实有一个可能被忽略的方案:混合使用。

在一个中文 AI 应用中,对话和内容生成部分用 Yi 或 Qwen 这样的中文强势模型,工具调用和 Agent 部分用 Hermes。两个模型各司其职,取长补短。

这种方案的工程复杂度确实更高——需要一个路由层来判断当前请求应该分发给哪个模型。但在一些对体验要求很高的场景下,这种”组合拳”的效果可能比单一模型好得多。

选择建议

做中文内容为主的应用 → Yi 或百川

如果你的应用核心是中文对话、中文写作、中文知识问答,国产模型的体验好太多了。中文理解的深度和写作的自然度不是靠参数量能补的,这需要大量高质量的中文训练数据。

做需要工具调用的中文 Agent → Hermes

如果你的应用需要调用API、执行操作、进行多步骤任务编排,Hermes 在工具调用方面的成熟度是国产模型目前达不到的。中文不够地道的问题,可以通过前后处理来一定程度上弥补。

做面向全球用户的多语言应用 → Hermes

如果你的用户分布在多个语言区域,Hermes 基于 Llama 的多语言基础会比国产模型的覆盖面更广。

选模型不是选信仰。中文强不代表别的方面也强,工具调用强不代表中文也强。认清自己的核心需求,做出理性的选择。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →