每次有新模型发布,铺天盖地的跑分数据就来了:MATH-500 得了多少分、AIME 多少分、GPQA 多少分……一堆缩写看得人头大。
这些测试到底在测什么?Hermes 4 的那些分数代表什么水平?普通人应该怎么看待这些跑分?
这篇文章尽量用大白话把这些事儿说清楚。
为什么需要基准测试
先说一个基本问题:为什么需要给模型跑分?
原因很简单——你没法用一句话说清楚一个大模型”好不好用”。不同模型在不同任务上的表现差异很大:有的数学好但写作差,有的代码强但常识弱。基准测试就是把”好不好用”这个模糊的问题拆解成一系列具体的、可量化的任务来评估。
就像高考——你不能用一句话评价一个学生的学力水平,但可以用语数外理化生的单科成绩来描绘一个相对完整的画像。
但也和高考一样,跑分有很多局限性。这一点在后面会详细说。
MATH-500:竞赛级数学题
这是什么
MATH-500 是从 MATH 数据集中抽取的 500 道数学题。MATH 数据集本身包含 12,500 道竞赛级数学题,覆盖七个大类:
- 预代数(Prealgebra):基础算术和初等代数
- 代数(Algebra):方程、不等式、函数
- 数论(Number Theory):整除性、素数、同余
- 计数与概率(Counting & Probability):排列组合、概率计算
- 几何(Geometry):平面几何、解析几何
- 中级代数(Intermediate Algebra):多项式、复数、对数
- 初级数论(Precalculus):三角函数、向量、极坐标
每道题有 1-5 的难度等级。MATH-500 是随机抽样的 500 道题子集,基本保持了原始数据集的难度分布。
怎么测的
测试时给模型一道数学题,模型需要给出最终答案。答案格式是标准化的(比如分数用 \frac{a}{b},根号用 \sqrt{}),通过字符串匹配来判断对错。
评估指标很简单:正确率。500 道题答对了多少道。
Hermes 4 的表现
Hermes 4 在 MATH-500 上的得分是 96.3%。
这个分数是什么水平?
- GPT-4o 大约在 76-80% 之间
- Claude 3.5 Sonnet 大约在 78% 左右
- o1-preview 在 94.8% 左右
- o1 正式版在 96.4% 左右
96.3% 基本追平了 o1 正式版,远超 GPT-4o 和 Claude 3.5 Sonnet。对于一个开源模型来说,这个成绩非常亮眼。
但需要注意的是,这是 Hermes 4 开启推理模式 后的成绩。在直出模式下(不使用 think 标签),分数会低不少。这说明推理过程对数学题的解答确实有很大帮助。
这个分数说明什么
96.3% 意味着:在竞赛级难度的数学题中,模型有超过 96% 的概率给出正确答案。剩下不到 4% 的错误大多集中在难度 4-5 的高难度题目上。
对于普通用户来说,如果你用 Hermes 4 来辅导数学作业或者解决工作中的数学计算问题,它基本上是非常可靠的。
AIME 2024:数学邀请赛
这是什么
AIME 全称 American Invitational Mathematics Examination(美国数学邀请赛),是美国数学竞赛体系中的第二关(AMC → AIME → USAMO → IMO)。参加 AIME 的都是在 AMC 10/12 中表现优异的学生。
AIME 2024 指的是 2024 年的 AIME 试题。每场 AIME 有 15 道题,答案都是 000-999 之间的整数。考试时间 3 小时。
AIME 的难度比 MATH-500 高出不少。MATH-500 覆盖了从容易到困难的各种难度,而 AIME 的每一道题都有相当的挑战性。前几题可能比较平和,但后面的题目经常需要很巧妙的思路才能解出来。
Hermes 4 的表现
Hermes 4 在 AIME 2024 上的得分是 81.9%。
换算一下:15 道题答对了大约 12-13 道。在 AIME 中,满分是 15 分。12-13 分在人类考生中属于非常高的水平——很多入选 USAMO 的选手的 AIME 成绩也就在这个范围。
对比一下:
- GPT-4o 在 AIME 2024 上大约只能做对 3-5 道
- o1 大约能做对 12-14 道
Hermes 4 在 AIME 上的表现和 o1 基本在同一档,远远超过了不具备推理能力的模型。
为什么 AIME 更有参考价值
相比 MATH-500,AIME 的优点是更难”刷分”。
MATH-500 中有相当比例的中低难度题目,这些题目即使模型记住了类似的解题模式也能做对。但 AIME 的题目每年都是全新的,而且难度高,很难通过记忆模式来蒙混过关。模型必须有真正的推理能力才能拿高分。
所以,在评估模型的推理能力时,AIME 的成绩比 MATH-500 更有说服力。
GPQA:研究生级别的科学问答
这是什么
GPQA(Graduate-Level Google-Proof Q&A)是一个研究生难度的科学问答测试集。它包含 448 道多选题,涵盖物理、化学和生物三个领域。
GPQA 的特点是”Google-Proof”——这些题目即使你能用 Google 搜索,普通人也不太能做对。因为它们需要深层的学科知识和推理能力,不是简单搜索就能找到答案的。
题目的设计流程也很严格:由各领域的博士生和研究人员出题,确保题目质量和难度。
测试方式
给模型一道多选题(通常有 4 个选项),模型需要选出正确答案。评估指标是正确率。
由于是多选题,随机猜测的基线准确率是 25%。
为什么这个测试重要
GPQA 测的是模型在专业学科上的深度知识和推理能力。MATH-500 和 AIME 只覆盖数学,GPQA 则扩展到了物理、化学和生物。
对于科研人员来说,这个测试的参考价值比较大——它能反映模型在专业学科问题上的可靠性。
RefusalBench:过度拒绝评估
这是什么
前面已经有 专门的文章 详细讲过 RefusalBench,这里简单说一下。
RefusalBench 不是测模型的知识或推理能力,而是测模型的”服务态度”——面对合法但涉及敏感话题的请求,模型是否会不合理地拒绝。
Hermes 4 的表现
Hermes 4 得分 57.1%,GPT-4o 只有 17.67%。
这意味着 Hermes 4 在面对合理但敏感的请求时,有 57.1% 的概率会正常回答,而 GPT-4o 只有不到 18%。
这个差距反映了两者完全不同的安全对齐策略——Hermes 倾向于”精准拒绝”(只拒绝真正有害的),GPT-4o 倾向于”保守拒绝”(宁可多拒绝)。
其他常见基准测试简介
除了上面几个,你可能还会在 Hermes 的评测报告中看到这些测试:
MMLU(多学科知识)
Massive Multitask Language Understanding,包含 57 个学科的多选题,从人文到理工都有。是衡量模型”博学程度”的常用指标。
Hermes 4 在这个上面的表现接近 GPT-4 水平——说明它的知识储备很扎实。
HumanEval(代码生成)
给模型一个函数签名和描述,让它写出实现代码。然后用预设的测试用例来验证代码是否正确。评估指标是 pass@1(一次生成就通过所有测试的概率)。
这个测试反映的是模型的编程能力。
MT-Bench(多轮对话)
用 GPT-4 作为裁判,对模型在多轮对话中的表现打分。涵盖写作、角色扮演、推理、数学等多个类别。
这是一个比较”主观”的测试——因为评判标准是由另一个 AI 来定的。但它对对话质量的评估比简单的正确率指标更全面。
BBH(Big-Bench Hard)
从 BIG-Bench(一个包含 200+ 任务的综合测试集)中挑选的 23 个”难题”任务。包括各种需要多步推理的任务,比如因果推理、日期计算、逻辑推理等。
这个测试主要评估模型的综合推理能力。
怎么看待跑分
讲完了各个测试的具体内容,来聊聊一个更重要的问题:普通用户应该怎么看待这些跑分?
跑分的价值
横向比较的参考:当你需要在几个模型之间做选择时,跑分至少能给你一个粗略的方向。比如你的应用场景主要涉及数学,那 MATH-500 和 AIME 的成绩就比 MT-Bench 更有参考价值。
能力短板的识别:如果一个模型在数学上表现很好但在代码上一般,你就知道不要对它的编程能力期望太高。
进步的量化:同一系列模型的新版本比旧版本跑分高了多少,能直观反映技术进步的幅度。比如 Hermes 4 比 Hermes 3 在 MATH-500 上提升了多少分。
跑分的局限
不等于实际使用体验:跑分高的模型不一定在你的具体场景下表现好。基准测试覆盖的任务和你的实际需求可能差距很大。
存在过拟合风险:有些模型可能专门针对特定基准测试做优化(在训练数据中包含类似的题目),导致跑分虚高。这在行业内被称为”benchmark hacking”。
单一维度的衡量:一个模型在 MATH-500 上 96.3% 很厉害,但如果它在实际使用中经常输出格式混乱、推理过程冗长、响应速度慢,这些跑分都体现不出来。
版本和配置的影响:同一个模型在不同的推理配置下(温度、top-p、是否开启推理模式)可能得到很不一样的跑分。发布方通常会选最好的配置来报分。
我的建议
看趋势而不是具体数字:A 模型比 B 模型在数学上好很多,这个结论大概率靠谱。但 A 模型 96.3% vs B 模型 95.8%,这种微小差距可能没什么实际意义。
结合你的使用场景:如果你主要用模型来写代码,重点看 HumanEval。如果主要用来做知识问答,看 MMLU。不需要每个跑分都关注。
自己试用比看跑分更重要:拿你实际的工作场景测几个例子,比任何跑分数据都更有说服力。跑分只是入门筛选工具,不是最终决策依据。
关注跑分背后的”how”:Hermes 4 在 MATH-500 上 96.3% 是开了 推理模式 的成绩。如果你的应用场景对响应速度敏感,可能不会开推理模式,那这个分数对你的参考价值就要打折。
警惕只报好的跑分:如果一个模型只公布了自己表现好的基准测试成绩,对其他测试避而不谈,这往往说明它在那些测试上表现不好。全面公布跑分的模型更值得信任。
Hermes 4 的跑分全景
把 Hermes 4 的主要跑分汇总一下:
| 测试 | 得分 | 水平定位 |
|---|---|---|
| MATH-500 | 96.3% | 接近 o1,远超 GPT-4o |
| AIME 2024 | 81.9% | 和 o1 同档 |
| RefusalBench | 57.1% | 远超所有主流商业模型 |
| MMLU | 接近 GPT-4 | 知识储备扎实 |
| HumanEval | 高水平 | 编程能力在线 |
| MT-Bench | 高分 | 对话质量优秀 |
综合来看,Hermes 4 是一个非常均衡的模型。没有特别明显的短板,在推理(MATH、AIME)和自由度(RefusalBench)上还有突出的长板。
对于普通用户来说,不需要记住每一个跑分数字。只需要知道:Hermes 4 是一个在开源模型中处于第一梯队的选择,数学和推理能力尤其突出。如果你对各个版本之间的差异感兴趣,Hermes 模型进化全记录 那篇文章有更详细的对比。
cocoloop 社区里经常有人问该看什么跑分选模型,我的回答一直是:跑分是了解模型的起点,不是终点。用它来缩小选择范围,然后用自己的场景来做最终判断——这才是正确的打开方式。