Hermes 3 技术报告解读:405B 全参数微调到底做了什么
2024年8月,Nous Research 发布了 Hermes 3,这是当时开源社区里最大胆的一步棋——直接对 Meta 的 Llama 3.1 405B 做全参数微调。要知道,405B 参数量的模型,光是推理就够呛了,居然还有人想把它完...
共 10 篇文章
2024年8月,Nous Research 发布了 Hermes 3,这是当时开源社区里最大胆的一步棋——直接对 Meta 的 Llama 3.1 405B 做全参数微调。要知道,405B 参数量的模型,光是推理就够呛了,居然还有人想把它完...
Hermes 4 是 Nous Research 在 2025 年推出的重磅升级,基于 Llama 3.1 架构,提供 14B、70B 和 405B 三个版本。但真正让人兴奋的不是参数量的变化,而是它引入的混合推理模式——模型在回答之前,可...
2025 年,Nous Research 做了一件很多人没预料到的事——他们没有继续用传统的集中式 GPU 集群来训练下一代 Hermes,而是选择了一条完全不同的路:用去中心化的 Psyche 训练网络来完成 Hermes 4.3 的训练...
在大模型的发展历程中,有些模型因为参数量大而被记住,有些因为跑分高而被记住。Hermes 2 Pro 被记住的理由不太一样——它是开源社区第一批把 Function Calling(函数调用/工具调用)做到真正可用的模型之一。 今...
如果要在开源大模型领域选一个”连续剧”,Hermes 系列绝对排得上号。从 2023 年中到 2025 年,Ryan Teknium 带领的 Nous Research 团队一路迭代,把 Hermes 从一个小众微调模型做成了下载量超过 3...
当一个 AI 模型拒绝回答你的正常问题时,你会是什么感受? 可能你只是想问一个关于化学反应的问题,模型却说”我不能提供可能被用于制造危险物质的信息”。或者你想写一个虚构的犯罪小说场景,模型告诉你”我无法协助创作涉及暴力的内容”。 这种现象叫...
在大模型领域有句老话:”模型好不好,七分靠数据,三分靠算法。” 这话可能有点夸张,但数据的重要性确实怎么强调都不为过。 Hermes 系列能从一众微调模型中脱颖而出,训练数据的质量是最关键的因素之一。今天就来聊聊 Hermes 背后的数据工...
上下文窗口(Context Window)可能是普通用户最容易感知到的一个模型参数。你往对话框里粘贴一篇长文章,模型说”太长了处理不了”——这就是上下文窗口的限制。 Hermes 系列从最初的 2K 一路扩展到 512K,每次扩展背后都涉及...
2024 年 9 月,OpenAI 发布 o1 模型,整个行业第一次见识到了”让模型花时间想一想”能带来多大的提升。o1 在数学竞赛题上的表现让一堆研究者大呼看不懂——一个语言模型怎么能做对这么难的数学题? 答案就两个字:推理。 o1 在生...
每次有新模型发布,铺天盖地的跑分数据就来了:MATH-500 得了多少分、AIME 多少分、GPQA 多少分……一堆缩写看得人头大。 这些测试到底在测什么?Hermes 4 的那些分数代表什么水平?普通人应该怎么看待这些跑分? 这篇文章尽量...