陈沛/文 数月前,谷歌DeepMind宣布旗下的数学AI工具AlphaGeometry 2和AlphaProof能够达到国际奥林匹克数学竞赛的银牌水平,让很多数学家开始思考AI何时会取代人类数学家。
最近,前沿AI研究机构Epoch AI发布高难度数学测试集FrontierMath,测试结果显示GPT、Claude、Gemini等主流AI模型系列的正确率仅有1%至2%,表明AI模型在专业数学领域仍有巨大差距。
FrontierMath的数学专业难度足够高
Epoch AI长期致力于推动AI技术边界的专业研究。此次Epoch AI推出的数学测试集FrontierMath,则是由哈佛大学数学系博士Elliot Glazer牵头发起的项目。
该项目的目标明确,即号召全世界数学专业人士提交高质量的原创数学问题,由Epoch AI负责确保和验证问题的专业性和科学性,从而用来检验当前AI模型的数学推理和计算能力。
Epoch AI要求所提交的数学专业问题必须是从未在互联网上公开过的全新原创问题,且无法进行简单猜测或随机回答,必须通过深度逻辑推理才能得到唯一的正确答案,整个推理解答过程至少要让数学专业人士花费几个小时甚至更长的时间。
Epoch AI还设计了对应的奖励机制来激励数学家贡献高质量问题。只要提交问题符合上述基本标准,提交者即可获得300美元奖励。如果问题具备足够的原创性和专业难度,给提交者的奖励能增加到1000美元。如果是特别杰出的数学问题,奖励金额甚至还会更高。
经过了问题征集、验证、奖励、梳理等一系列项目流程后,最终Epoch AI于近期发布了这一套极具挑战性的专业数学测试集FrontierMath。
从公布的部分样题来看,FrontierMath中包括了数论、素数域连续扩展、19阶多项式构建、矩阵计算、求解齐次方程非零解等专业数学问题。
Epoch AI选取了当前主流的AI模型进行测试。谷歌的Gemini-1.5-Pro模型和Anthropic的Claude-3.5-Sonnet模型的正确率分别是2%,OpenAI的o1-preview、o1-mini、GPT-4o等模型的正确率均为1%,xAI的Grok-2-Beta模型的正确率是0%。
当前AI模型的数学能力有所夸大
AI在科学研究中近来确实取得很多进展,但在数学能力方面还远未达到取代数学专业人士的程度。
单从数月前谷歌DeepMind达到国际奥数银牌的情况来看,它的解题过程还会受到形式化语言转换、解题时间过长等实际限制,根本不能直接用于真实的专业数学测试中。
实际上,数学是一个对逻辑、推理和创造性要求极高的领域,它不仅涉及大量的基础知识,还包含了复杂思考、抽象思维和推理能力。
而这些能力对于目前的AI模型而言,依然是难以逾越的鸿沟。
不过,虽然FrontierMath测试集深刻揭示了目前AI模型在数学领域的不足,但是也会给AI研究者提供明确的改进方向。
由全球数学专业人士设计出来的这些问题和对应的解题步骤,最终也会成为下一代AI模型训练的数据养料,帮助催化AI技术的再一次飞跃。