读懂 Hermes 的跑分：MATH-500、AIME、GPQA 各是什么

每次有新模型发布，铺天盖地的跑分数据就来了：MATH-500 得了多少分、AIME 多少分、GPQA 多少分……一堆缩写看得人头大。

这些测试到底在测什么？Hermes 4 的那些分数代表什么水平？普通人应该怎么看待这些跑分？

这篇文章尽量用大白话把这些事儿说清楚。

为什么需要基准测试

先说一个基本问题：为什么需要给模型跑分？

原因很简单——你没法用一句话说清楚一个大模型”好不好用”。不同模型在不同任务上的表现差异很大：有的数学好但写作差，有的代码强但常识弱。基准测试就是把”好不好用”这个模糊的问题拆解成一系列具体的、可量化的任务来评估。

就像高考——你不能用一句话评价一个学生的学力水平，但可以用语数外理化生的单科成绩来描绘一个相对完整的画像。

但也和高考一样，跑分有很多局限性。这一点在后面会详细说。

MATH-500：竞赛级数学题

这是什么

MATH-500 是从 MATH 数据集中抽取的 500 道数学题。MATH 数据集本身包含 12,500 道竞赛级数学题，覆盖七个大类：

预代数（Prealgebra）：基础算术和初等代数
代数（Algebra）：方程、不等式、函数
数论（Number Theory）：整除性、素数、同余
计数与概率（Counting & Probability）：排列组合、概率计算
几何（Geometry）：平面几何、解析几何
中级代数（Intermediate Algebra）：多项式、复数、对数
初级数论（Precalculus）：三角函数、向量、极坐标

每道题有 1-5 的难度等级。MATH-500 是随机抽样的 500 道题子集，基本保持了原始数据集的难度分布。

怎么测的

测试时给模型一道数学题，模型需要给出最终答案。答案格式是标准化的（比如分数用 \frac{a}{b}，根号用 \sqrt{}），通过字符串匹配来判断对错。

评估指标很简单：正确率。500 道题答对了多少道。

Hermes 4 的表现

Hermes 4 在 MATH-500 上的得分是 96.3%。

这个分数是什么水平？

GPT-4o 大约在 76-80% 之间
Claude 3.5 Sonnet 大约在 78% 左右
o1-preview 在 94.8% 左右
o1 正式版在 96.4% 左右

96.3% 基本追平了 o1 正式版，远超 GPT-4o 和 Claude 3.5 Sonnet。对于一个开源模型来说，这个成绩非常亮眼。

但需要注意的是，这是 Hermes 4 开启推理模式后的成绩。在直出模式下（不使用 think 标签），分数会低不少。这说明推理过程对数学题的解答确实有很大帮助。

这个分数说明什么

96.3% 意味着：在竞赛级难度的数学题中，模型有超过 96% 的概率给出正确答案。剩下不到 4% 的错误大多集中在难度 4-5 的高难度题目上。

对于普通用户来说，如果你用 Hermes 4 来辅导数学作业或者解决工作中的数学计算问题，它基本上是非常可靠的。

AIME 2024：数学邀请赛

这是什么

AIME 全称 American Invitational Mathematics Examination（美国数学邀请赛），是美国数学竞赛体系中的第二关（AMC → AIME → USAMO → IMO）。参加 AIME 的都是在 AMC 10/12 中表现优异的学生。

AIME 2024 指的是 2024 年的 AIME 试题。每场 AIME 有 15 道题，答案都是 000-999 之间的整数。考试时间 3 小时。

AIME 的难度比 MATH-500 高出不少。MATH-500 覆盖了从容易到困难的各种难度，而 AIME 的每一道题都有相当的挑战性。前几题可能比较平和，但后面的题目经常需要很巧妙的思路才能解出来。

Hermes 4 的表现

Hermes 4 在 AIME 2024 上的得分是 81.9%。

换算一下：15 道题答对了大约 12-13 道。在 AIME 中，满分是 15 分。12-13 分在人类考生中属于非常高的水平——很多入选 USAMO 的选手的 AIME 成绩也就在这个范围。

对比一下：

GPT-4o 在 AIME 2024 上大约只能做对 3-5 道
o1 大约能做对 12-14 道

Hermes 4 在 AIME 上的表现和 o1 基本在同一档，远远超过了不具备推理能力的模型。

为什么 AIME 更有参考价值

相比 MATH-500，AIME 的优点是更难”刷分”。

MATH-500 中有相当比例的中低难度题目，这些题目即使模型记住了类似的解题模式也能做对。但 AIME 的题目每年都是全新的，而且难度高，很难通过记忆模式来蒙混过关。模型必须有真正的推理能力才能拿高分。

所以，在评估模型的推理能力时，AIME 的成绩比 MATH-500 更有说服力。

GPQA：研究生级别的科学问答

这是什么

GPQA（Graduate-Level Google-Proof Q&A）是一个研究生难度的科学问答测试集。它包含 448 道多选题，涵盖物理、化学和生物三个领域。

GPQA 的特点是”Google-Proof”——这些题目即使你能用 Google 搜索，普通人也不太能做对。因为它们需要深层的学科知识和推理能力，不是简单搜索就能找到答案的。

题目的设计流程也很严格：由各领域的博士生和研究人员出题，确保题目质量和难度。

测试方式

给模型一道多选题（通常有 4 个选项），模型需要选出正确答案。评估指标是正确率。

由于是多选题，随机猜测的基线准确率是 25%。

为什么这个测试重要

GPQA 测的是模型在专业学科上的深度知识和推理能力。MATH-500 和 AIME 只覆盖数学，GPQA 则扩展到了物理、化学和生物。

对于科研人员来说，这个测试的参考价值比较大——它能反映模型在专业学科问题上的可靠性。

RefusalBench：过度拒绝评估

这是什么

前面已经有专门的文章详细讲过 RefusalBench，这里简单说一下。

RefusalBench 不是测模型的知识或推理能力，而是测模型的”服务态度”——面对合法但涉及敏感话题的请求，模型是否会不合理地拒绝。

Hermes 4 的表现

Hermes 4 得分 57.1%，GPT-4o 只有 17.67%。

这意味着 Hermes 4 在面对合理但敏感的请求时，有 57.1% 的概率会正常回答，而 GPT-4o 只有不到 18%。

这个差距反映了两者完全不同的安全对齐策略——Hermes 倾向于”精准拒绝”（只拒绝真正有害的），GPT-4o 倾向于”保守拒绝”（宁可多拒绝）。

其他常见基准测试简介

除了上面几个，你可能还会在 Hermes 的评测报告中看到这些测试：

MMLU（多学科知识）

Massive Multitask Language Understanding，包含 57 个学科的多选题，从人文到理工都有。是衡量模型”博学程度”的常用指标。

Hermes 4 在这个上面的表现接近 GPT-4 水平——说明它的知识储备很扎实。

HumanEval（代码生成）

给模型一个函数签名和描述，让它写出实现代码。然后用预设的测试用例来验证代码是否正确。评估指标是 pass@1（一次生成就通过所有测试的概率）。

这个测试反映的是模型的编程能力。

MT-Bench（多轮对话）

用 GPT-4 作为裁判，对模型在多轮对话中的表现打分。涵盖写作、角色扮演、推理、数学等多个类别。

这是一个比较”主观”的测试——因为评判标准是由另一个 AI 来定的。但它对对话质量的评估比简单的正确率指标更全面。

BBH（Big-Bench Hard）

从 BIG-Bench（一个包含 200+ 任务的综合测试集）中挑选的 23 个”难题”任务。包括各种需要多步推理的任务，比如因果推理、日期计算、逻辑推理等。

这个测试主要评估模型的综合推理能力。

怎么看待跑分

讲完了各个测试的具体内容，来聊聊一个更重要的问题：普通用户应该怎么看待这些跑分？

跑分的价值

横向比较的参考：当你需要在几个模型之间做选择时，跑分至少能给你一个粗略的方向。比如你的应用场景主要涉及数学，那 MATH-500 和 AIME 的成绩就比 MT-Bench 更有参考价值。

能力短板的识别：如果一个模型在数学上表现很好但在代码上一般，你就知道不要对它的编程能力期望太高。

进步的量化：同一系列模型的新版本比旧版本跑分高了多少，能直观反映技术进步的幅度。比如 Hermes 4 比 Hermes 3 在 MATH-500 上提升了多少分。

跑分的局限

不等于实际使用体验：跑分高的模型不一定在你的具体场景下表现好。基准测试覆盖的任务和你的实际需求可能差距很大。

存在过拟合风险：有些模型可能专门针对特定基准测试做优化（在训练数据中包含类似的题目），导致跑分虚高。这在行业内被称为”benchmark hacking”。

单一维度的衡量：一个模型在 MATH-500 上 96.3% 很厉害，但如果它在实际使用中经常输出格式混乱、推理过程冗长、响应速度慢，这些跑分都体现不出来。

版本和配置的影响：同一个模型在不同的推理配置下（温度、top-p、是否开启推理模式）可能得到很不一样的跑分。发布方通常会选最好的配置来报分。

我的建议

看趋势而不是具体数字：A 模型比 B 模型在数学上好很多，这个结论大概率靠谱。但 A 模型 96.3% vs B 模型 95.8%，这种微小差距可能没什么实际意义。
结合你的使用场景：如果你主要用模型来写代码，重点看 HumanEval。如果主要用来做知识问答，看 MMLU。不需要每个跑分都关注。
自己试用比看跑分更重要：拿你实际的工作场景测几个例子，比任何跑分数据都更有说服力。跑分只是入门筛选工具，不是最终决策依据。
关注跑分背后的”how”：Hermes 4 在 MATH-500 上 96.3% 是开了推理模式的成绩。如果你的应用场景对响应速度敏感，可能不会开推理模式，那这个分数对你的参考价值就要打折。
警惕只报好的跑分：如果一个模型只公布了自己表现好的基准测试成绩，对其他测试避而不谈，这往往说明它在那些测试上表现不好。全面公布跑分的模型更值得信任。

Hermes 4 的跑分全景

把 Hermes 4 的主要跑分汇总一下：

测试	得分	水平定位
MATH-500	96.3%	接近 o1，远超 GPT-4o
AIME 2024	81.9%	和 o1 同档
RefusalBench	57.1%	远超所有主流商业模型
MMLU	接近 GPT-4	知识储备扎实
HumanEval	高水平	编程能力在线
MT-Bench	高分	对话质量优秀

综合来看，Hermes 4 是一个非常均衡的模型。没有特别明显的短板，在推理（MATH、AIME）和自由度（RefusalBench）上还有突出的长板。

对于普通用户来说，不需要记住每一个跑分数字。只需要知道：Hermes 4 是一个在开源模型中处于第一梯队的选择，数学和推理能力尤其突出。如果你对各个版本之间的差异感兴趣，Hermes 模型进化全记录那篇文章有更详细的对比。

cocoloop 社区里经常有人问该看什么跑分选模型，我的回答一直是：跑分是了解模型的起点，不是终点。用它来缩小选择范围，然后用自己的场景来做最终判断——这才是正确的打开方式。

读懂 Hermes 的跑分：MATH-500、AIME、GPQA 各是什么

目录

为什么需要基准测试

MATH-500：竞赛级数学题

这是什么

怎么测的

Hermes 4 的表现

这个分数说明什么

AIME 2024：数学邀请赛

这是什么

Hermes 4 的表现

为什么 AIME 更有参考价值

GPQA：研究生级别的科学问答

这是什么

测试方式

为什么这个测试重要

RefusalBench：过度拒绝评估

这是什么

Hermes 4 的表现

其他常见基准测试简介

MMLU（多学科知识）

HumanEval（代码生成）

MT-Bench（多轮对话）

BBH（Big-Bench Hard）

怎么看待跑分

跑分的价值

跑分的局限

我的建议

Hermes 4 的跑分全景

参与讨论