Hermes 4.3 与 Psyche 网络:去中心化训练真能行?

解析 Hermes 4.3 如何利用 Psyche 去中心化训练网络完成训练,基于 ByteDance Seed-OSS-36B 基座,实现 512K 超长上下文,以及用一半参数达到 Hermes 4 70B 的性能水平。

目录

  1. Hermes 4.3 的基本参数
  2. 为什么选 ByteDance Seed-OSS-36B
  3. Psyche 网络:去中心化训练的原理
    1. 这和联邦学习有什么区别?
    2. 24 个节点怎么协同工作
    3. Solana 区块链在这里干什么
  4. 512K 上下文窗口的实际意义
  5. 性能对比:36B 打平 70B
  6. 去中心化训练的局限性
  7. 对未来的影响
  8. 怎么看这个模型

2025 年,Nous Research 做了一件很多人没预料到的事——他们没有继续用传统的集中式 GPU 集群来训练下一代 Hermes,而是选择了一条完全不同的路:用去中心化的 Psyche 训练网络来完成 Hermes 4.3 的训练。

这件事为什么值得深聊?因为它触及了一个根本性的问题:大模型训练一定要靠集中的算力巨头吗?

Hermes 4.3 的基本参数

先把基本情况交代清楚:

  • 基座模型:ByteDance Seed-OSS-36B
  • 参数量:36B
  • 上下文窗口:512K tokens
  • 训练方式:Psyche 去中心化训练网络
  • 训练节点:24 个分布式节点
  • 共识机制:基于 Solana 区块链

看到这些参数,可能很多人的第一反应是”什么?字节的模型?还区块链?”别急,一个一个说。

为什么选 ByteDance Seed-OSS-36B

Hermes 系列之前一直用 Meta 的 Llama 系列作为基座。从初代 Hermes 的 LLaMA 13B,到 Hermes 3 的 Llama 3.1 405B,一路走来和 Llama 家族深度绑定。

Hermes 4.3 换到 ByteDance 的 Seed-OSS-36B,这个选择背后有几层考量:

参数效率:Seed-OSS-36B 的架构在 36B 参数量下就能达到很高的基础能力。Nous Research 的测试显示,在这个基座上微调后的 Hermes 4.3 性能可以和 Hermes 4 70B 持平——用一半参数达到同等效果,这在推理部署成本上是实打实的优势。

架构创新:Seed-OSS-36B 在注意力机制和 FFN 层的设计上有一些独到的优化,特别是在处理长序列时效率更高。这也是为什么 Hermes 4.3 能支持 512K 上下文窗口的基础之一。

开源许可:Seed-OSS 系列采用的开源许可证对商业使用比较友好,这和 Nous Research 推动开源 AI 的理念一致。

cocoloop 社区里讨论过这个选择,不少人最初持怀疑态度——毕竟 Llama 才是社区公认的”国民基座”。但从结果来看,换基座的决策是成功的。

Psyche 网络:去中心化训练的原理

好了,重头戏来了。Psyche 是什么?

简单说,Psyche 是一个去中心化的模型训练网络。传统的模型训练需要把所有 GPU 集中在一个数据中心里,通过高速互联(比如 NVLink、InfiniBand)连接起来。但 Psyche 的思路不同——它把训练任务分发到地理上分散的多个节点,每个节点贡献自己的算力,共同完成一个模型的训练。

这和联邦学习有什么区别?

很多人一听”去中心化训练”就想到联邦学习(Federated Learning)。但 Psyche 和联邦学习有本质区别:

联邦学习的核心是数据不出本地,各节点用本地数据训练本地模型,然后把梯度或模型更新发送到中心服务器做聚合。它解决的是数据隐私问题。

Psyche 解决的是另一个问题——算力的去中心化获取。训练数据是统一分发的(Nous Research 准备好了训练数据集),各节点看到的是同一批数据,但计算过程是分布式的。

24 个节点怎么协同工作

Hermes 4.3 的训练使用了 24 个 Psyche 节点。每个节点配备了高端 GPU(主要是 H100 和 A100),但这些节点分布在不同的地理位置,网络延迟和带宽都和传统数据中心内部差很多。

要让这些节点高效协同,Psyche 做了几个关键设计:

异步梯度聚合:不要求所有节点同步更新梯度。每个节点按自己的速度计算,完成一个 batch 后就提交梯度更新。系统会智能地处理不同节点之间的进度差异。

梯度压缩:节点之间传输的不是完整的梯度张量,而是经过压缩的梯度信息。这大幅减少了网络传输量,让低带宽连接也能参与训练。

容错机制:如果某个节点掉线或出错,系统会自动把它的工作重新分配给其他节点,不会导致整个训练中断。

Solana 区块链在这里干什么

这可能是最让人困惑的部分。为什么模型训练要扯上区块链?

Psyche 使用 Solana 区块链作为共识层,主要解决的是”信任”问题。具体来说:

训练记录的不可篡改:每一轮训练的关键信息(比如哪些节点参与了、每个节点提交了什么梯度更新、最终的聚合结果是什么)都会记录在 Solana 链上。这确保了训练过程的透明和可追溯。

节点激励机制:参与训练的节点需要获得报酬。Solana 的智能合约可以根据节点的实际贡献(算力贡献、在线时长等)自动分配奖励,不需要人工干预。

防作弊:去中心化训练的一个风险是有节点可能提交虚假的梯度更新来骗取奖励。Solana 上的验证机制可以检测和惩罚这类行为。

选择 Solana 而不是以太坊或其他链,主要是因为 Solana 的交易速度快(出块时间约 400 毫秒)、Gas 费低,适合训练过程中高频率的记录操作。

512K 上下文窗口的实际意义

Hermes 4.3 支持 512K tokens 的上下文窗口,这是 Hermes 系列上下文长度进化 中的最新里程碑。

512K tokens 有多长?大概相当于一本 40-50 万字的中文小说,或者一个中型代码项目的全部源代码。

但数字好看是一回事,实际能不能用好是另一回事。长上下文的常见问题有两个:

“中间遗忘”问题:很多声称支持长上下文的模型,实际上在中间段落的信息检索和利用上会大幅下降。只有开头和结尾的信息能被可靠地使用。

推理成本:上下文越长,注意力计算的成本越高(理论上是 O(n^2))。512K 的推理成本会比 8K 高出很多。

Hermes 4.3 在这两个问题上做了针对性优化。Seed-OSS-36B 基座本身在长序列建模上就有架构级别的改进,再加上 Nous Research 在微调阶段加入的长文档训练数据,512K 不是一个纸面数字——在实际的”大海捞针”(Needle-in-a-Haystack)测试中,Hermes 4.3 的检索准确率在整个 512K 范围内都保持在相当高的水平。

实际使用中,512K 上下文最有价值的场景包括:

  • 完整代码库的分析和重构
  • 长文档的总结和问答
  • 多文件的交叉引用分析
  • 超长对话的上下文保持

性能对比:36B 打平 70B

这是 Hermes 4.3 最让人印象深刻的地方。

Nous Research 公布的基准测试数据显示,Hermes 4.3(36B 参数)在多项测试上和 Hermes 4 70B 打平,个别项目甚至超出。

这意味着什么?对于部署来说,36B 的模型比 70B 小了将近一半:

  • 显存需求降低:BF16 下大约 72GB vs 140GB
  • 推理速度提升:更小的模型意味着更快的 token 生成速度
  • 部署成本降低:可以用更少的 GPU 卡来服务

对于实际用户来说,能用一台 A100 80GB(或两张 A6000 48GB)跑起来的 Hermes 4.3,提供的质量和需要两台 A100 的 Hermes 4 70B 差不多,这在成本效益上是很大的进步。

当然,”打平 70B”需要加一些限定条件。在某些特定任务上(比如顶级难度的数学题、极度复杂的逻辑推理),70B 的额外参数量还是能带来可感知的优势。36B 打平 70B 更多体现在综合能力的平均水平上。

去中心化训练的局限性

虽然 Hermes 4.3 的训练成功证明了去中心化的可行性,但这条路目前还有不少限制:

训练效率:和传统的数据中心内部训练相比,去中心化训练的效率还是低不少。节点间的网络延迟、梯度压缩带来的信息损失、异步更新的收敛速度等问题,都会让总训练时间更长。

适用规模:Hermes 4.3 的 36B 参数量在去中心化训练的范畴里已经算大的了。如果要训练更大的模型(比如 100B+),目前的 Psyche 网络架构可能需要做重大升级。

数据传输:虽然梯度可以压缩传输,但训练数据本身的分发仍然是个挑战。5000 万训练样本的总数据量不小,需要高效的分发机制。

节点质量参差不齐:不同节点的 GPU 型号、显存大小、网络条件都不一样,如何高效地在异构环境中做负载均衡是个技术难题。

对未来的影响

Hermes 4.3 是第一个用 Psyche 去中心化网络训练出来的 production-grade 模型。它的成功意味着几件事:

算力民主化:不一定非得有自己的 GPU 集群或者租得起大型云计算实例才能训练大模型。分散的算力资源也可以聚合起来完成任务。

新的合作模式:想象一下,多个中小机构各自贡献一部分算力,共同训练一个大模型,然后共享使用权。这种合作模式在之前是不可能的。

对算力垄断的挑战:目前大模型训练的算力高度集中在几家大型云服务商手里。去中心化训练如果成熟起来,可能会改变这个格局。

但也要清醒地认识到,去中心化训练目前还在非常早期的阶段。Hermes 4.3 的 24 个节点训练更像是一个概念验证(proof of concept),距离成为主流训练方式还有很长的路要走。

如果你对 Hermes 入门 知识感兴趣,建议从基础概念开始了解,再来看这些前沿的训练技术会更容易理解。

怎么看这个模型

Hermes 4.3 在产品层面是一个很实用的模型——36B 参数、512K 上下文、性能对标 70B,部署友好。无论你是不是对去中心化训练感兴趣,光看模型本身的素质,它都是一个值得试试的选择。

而在技术层面,它是 Nous Research 对”模型训练的未来应该是什么样”这个问题给出的一个大胆回答。去中心化训练能不能成为主流?现在判断还太早。但至少 Hermes 4.3 证明了,这条路是走得通的。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →