读懂 Hermes 的跑分:MATH-500、AIME、GPQA 各是什么

面向普通用户的大模型基准测试科普,解释 MATH-500、AIME 2024、GPQA、RefusalBench 等测试是什么、怎么测的,以及 Hermes 4 的得分代表什么水平。

目录

  1. 为什么需要基准测试
  2. MATH-500:竞赛级数学题
    1. 这是什么
    2. 怎么测的
    3. Hermes 4 的表现
    4. 这个分数说明什么
  3. AIME 2024:数学邀请赛
    1. 这是什么
    2. Hermes 4 的表现
    3. 为什么 AIME 更有参考价值
  4. GPQA:研究生级别的科学问答
    1. 这是什么
    2. 测试方式
    3. 为什么这个测试重要
  5. RefusalBench:过度拒绝评估
    1. 这是什么
    2. Hermes 4 的表现
  6. 其他常见基准测试简介
    1. MMLU(多学科知识)
    2. HumanEval(代码生成)
    3. MT-Bench(多轮对话)
    4. BBH(Big-Bench Hard)
  7. 怎么看待跑分
    1. 跑分的价值
    2. 跑分的局限
    3. 我的建议
  8. Hermes 4 的跑分全景

每次有新模型发布,铺天盖地的跑分数据就来了:MATH-500 得了多少分、AIME 多少分、GPQA 多少分……一堆缩写看得人头大。

这些测试到底在测什么?Hermes 4 的那些分数代表什么水平?普通人应该怎么看待这些跑分?

这篇文章尽量用大白话把这些事儿说清楚。

为什么需要基准测试

先说一个基本问题:为什么需要给模型跑分?

原因很简单——你没法用一句话说清楚一个大模型”好不好用”。不同模型在不同任务上的表现差异很大:有的数学好但写作差,有的代码强但常识弱。基准测试就是把”好不好用”这个模糊的问题拆解成一系列具体的、可量化的任务来评估。

就像高考——你不能用一句话评价一个学生的学力水平,但可以用语数外理化生的单科成绩来描绘一个相对完整的画像。

但也和高考一样,跑分有很多局限性。这一点在后面会详细说。

MATH-500:竞赛级数学题

这是什么

MATH-500 是从 MATH 数据集中抽取的 500 道数学题。MATH 数据集本身包含 12,500 道竞赛级数学题,覆盖七个大类:

  1. 预代数(Prealgebra):基础算术和初等代数
  2. 代数(Algebra):方程、不等式、函数
  3. 数论(Number Theory):整除性、素数、同余
  4. 计数与概率(Counting & Probability):排列组合、概率计算
  5. 几何(Geometry):平面几何、解析几何
  6. 中级代数(Intermediate Algebra):多项式、复数、对数
  7. 初级数论(Precalculus):三角函数、向量、极坐标

每道题有 1-5 的难度等级。MATH-500 是随机抽样的 500 道题子集,基本保持了原始数据集的难度分布。

怎么测的

测试时给模型一道数学题,模型需要给出最终答案。答案格式是标准化的(比如分数用 \frac{a}{b},根号用 \sqrt{}),通过字符串匹配来判断对错。

评估指标很简单:正确率。500 道题答对了多少道。

Hermes 4 的表现

Hermes 4 在 MATH-500 上的得分是 96.3%

这个分数是什么水平?

  • GPT-4o 大约在 76-80% 之间
  • Claude 3.5 Sonnet 大约在 78% 左右
  • o1-preview 在 94.8% 左右
  • o1 正式版在 96.4% 左右

96.3% 基本追平了 o1 正式版,远超 GPT-4o 和 Claude 3.5 Sonnet。对于一个开源模型来说,这个成绩非常亮眼。

但需要注意的是,这是 Hermes 4 开启推理模式 后的成绩。在直出模式下(不使用 think 标签),分数会低不少。这说明推理过程对数学题的解答确实有很大帮助。

这个分数说明什么

96.3% 意味着:在竞赛级难度的数学题中,模型有超过 96% 的概率给出正确答案。剩下不到 4% 的错误大多集中在难度 4-5 的高难度题目上。

对于普通用户来说,如果你用 Hermes 4 来辅导数学作业或者解决工作中的数学计算问题,它基本上是非常可靠的。

AIME 2024:数学邀请赛

这是什么

AIME 全称 American Invitational Mathematics Examination(美国数学邀请赛),是美国数学竞赛体系中的第二关(AMC → AIME → USAMO → IMO)。参加 AIME 的都是在 AMC 10/12 中表现优异的学生。

AIME 2024 指的是 2024 年的 AIME 试题。每场 AIME 有 15 道题,答案都是 000-999 之间的整数。考试时间 3 小时。

AIME 的难度比 MATH-500 高出不少。MATH-500 覆盖了从容易到困难的各种难度,而 AIME 的每一道题都有相当的挑战性。前几题可能比较平和,但后面的题目经常需要很巧妙的思路才能解出来。

Hermes 4 的表现

Hermes 4 在 AIME 2024 上的得分是 81.9%

换算一下:15 道题答对了大约 12-13 道。在 AIME 中,满分是 15 分。12-13 分在人类考生中属于非常高的水平——很多入选 USAMO 的选手的 AIME 成绩也就在这个范围。

对比一下:

  • GPT-4o 在 AIME 2024 上大约只能做对 3-5 道
  • o1 大约能做对 12-14 道

Hermes 4 在 AIME 上的表现和 o1 基本在同一档,远远超过了不具备推理能力的模型。

为什么 AIME 更有参考价值

相比 MATH-500,AIME 的优点是更难”刷分”。

MATH-500 中有相当比例的中低难度题目,这些题目即使模型记住了类似的解题模式也能做对。但 AIME 的题目每年都是全新的,而且难度高,很难通过记忆模式来蒙混过关。模型必须有真正的推理能力才能拿高分。

所以,在评估模型的推理能力时,AIME 的成绩比 MATH-500 更有说服力。

GPQA:研究生级别的科学问答

这是什么

GPQA(Graduate-Level Google-Proof Q&A)是一个研究生难度的科学问答测试集。它包含 448 道多选题,涵盖物理、化学和生物三个领域。

GPQA 的特点是”Google-Proof”——这些题目即使你能用 Google 搜索,普通人也不太能做对。因为它们需要深层的学科知识和推理能力,不是简单搜索就能找到答案的。

题目的设计流程也很严格:由各领域的博士生和研究人员出题,确保题目质量和难度。

测试方式

给模型一道多选题(通常有 4 个选项),模型需要选出正确答案。评估指标是正确率。

由于是多选题,随机猜测的基线准确率是 25%。

为什么这个测试重要

GPQA 测的是模型在专业学科上的深度知识和推理能力。MATH-500 和 AIME 只覆盖数学,GPQA 则扩展到了物理、化学和生物。

对于科研人员来说,这个测试的参考价值比较大——它能反映模型在专业学科问题上的可靠性。

RefusalBench:过度拒绝评估

这是什么

前面已经有 专门的文章 详细讲过 RefusalBench,这里简单说一下。

RefusalBench 不是测模型的知识或推理能力,而是测模型的”服务态度”——面对合法但涉及敏感话题的请求,模型是否会不合理地拒绝。

Hermes 4 的表现

Hermes 4 得分 57.1%,GPT-4o 只有 17.67%

这意味着 Hermes 4 在面对合理但敏感的请求时,有 57.1% 的概率会正常回答,而 GPT-4o 只有不到 18%。

这个差距反映了两者完全不同的安全对齐策略——Hermes 倾向于”精准拒绝”(只拒绝真正有害的),GPT-4o 倾向于”保守拒绝”(宁可多拒绝)。

其他常见基准测试简介

除了上面几个,你可能还会在 Hermes 的评测报告中看到这些测试:

MMLU(多学科知识)

Massive Multitask Language Understanding,包含 57 个学科的多选题,从人文到理工都有。是衡量模型”博学程度”的常用指标。

Hermes 4 在这个上面的表现接近 GPT-4 水平——说明它的知识储备很扎实。

HumanEval(代码生成)

给模型一个函数签名和描述,让它写出实现代码。然后用预设的测试用例来验证代码是否正确。评估指标是 pass@1(一次生成就通过所有测试的概率)。

这个测试反映的是模型的编程能力。

MT-Bench(多轮对话)

用 GPT-4 作为裁判,对模型在多轮对话中的表现打分。涵盖写作、角色扮演、推理、数学等多个类别。

这是一个比较”主观”的测试——因为评判标准是由另一个 AI 来定的。但它对对话质量的评估比简单的正确率指标更全面。

BBH(Big-Bench Hard)

从 BIG-Bench(一个包含 200+ 任务的综合测试集)中挑选的 23 个”难题”任务。包括各种需要多步推理的任务,比如因果推理、日期计算、逻辑推理等。

这个测试主要评估模型的综合推理能力。

怎么看待跑分

讲完了各个测试的具体内容,来聊聊一个更重要的问题:普通用户应该怎么看待这些跑分?

跑分的价值

横向比较的参考:当你需要在几个模型之间做选择时,跑分至少能给你一个粗略的方向。比如你的应用场景主要涉及数学,那 MATH-500 和 AIME 的成绩就比 MT-Bench 更有参考价值。

能力短板的识别:如果一个模型在数学上表现很好但在代码上一般,你就知道不要对它的编程能力期望太高。

进步的量化:同一系列模型的新版本比旧版本跑分高了多少,能直观反映技术进步的幅度。比如 Hermes 4 比 Hermes 3 在 MATH-500 上提升了多少分。

跑分的局限

不等于实际使用体验:跑分高的模型不一定在你的具体场景下表现好。基准测试覆盖的任务和你的实际需求可能差距很大。

存在过拟合风险:有些模型可能专门针对特定基准测试做优化(在训练数据中包含类似的题目),导致跑分虚高。这在行业内被称为”benchmark hacking”。

单一维度的衡量:一个模型在 MATH-500 上 96.3% 很厉害,但如果它在实际使用中经常输出格式混乱、推理过程冗长、响应速度慢,这些跑分都体现不出来。

版本和配置的影响:同一个模型在不同的推理配置下(温度、top-p、是否开启推理模式)可能得到很不一样的跑分。发布方通常会选最好的配置来报分。

我的建议

  1. 看趋势而不是具体数字:A 模型比 B 模型在数学上好很多,这个结论大概率靠谱。但 A 模型 96.3% vs B 模型 95.8%,这种微小差距可能没什么实际意义。

  2. 结合你的使用场景:如果你主要用模型来写代码,重点看 HumanEval。如果主要用来做知识问答,看 MMLU。不需要每个跑分都关注。

  3. 自己试用比看跑分更重要:拿你实际的工作场景测几个例子,比任何跑分数据都更有说服力。跑分只是入门筛选工具,不是最终决策依据。

  4. 关注跑分背后的”how”:Hermes 4 在 MATH-500 上 96.3% 是开了 推理模式 的成绩。如果你的应用场景对响应速度敏感,可能不会开推理模式,那这个分数对你的参考价值就要打折。

  5. 警惕只报好的跑分:如果一个模型只公布了自己表现好的基准测试成绩,对其他测试避而不谈,这往往说明它在那些测试上表现不好。全面公布跑分的模型更值得信任。

Hermes 4 的跑分全景

把 Hermes 4 的主要跑分汇总一下:

测试 得分 水平定位
MATH-500 96.3% 接近 o1,远超 GPT-4o
AIME 2024 81.9% 和 o1 同档
RefusalBench 57.1% 远超所有主流商业模型
MMLU 接近 GPT-4 知识储备扎实
HumanEval 高水平 编程能力在线
MT-Bench 高分 对话质量优秀

综合来看,Hermes 4 是一个非常均衡的模型。没有特别明显的短板,在推理(MATH、AIME)和自由度(RefusalBench)上还有突出的长板。

对于普通用户来说,不需要记住每一个跑分数字。只需要知道:Hermes 4 是一个在开源模型中处于第一梯队的选择,数学和推理能力尤其突出。如果你对各个版本之间的差异感兴趣,Hermes 模型进化全记录 那篇文章有更详细的对比。

cocoloop 社区里经常有人问该看什么跑分选模型,我的回答一直是:跑分是了解模型的起点,不是终点。用它来缩小选择范围,然后用自己的场景来做最终判断——这才是正确的打开方式。

参与讨论

对这篇文章有疑问或想法?cocoloop 社区有不少开发者在讨论 Hermes 相关话题,欢迎加入交流。

前往 cocoloop 社区 →