当前位置： > 国际利来 >

AI抢攻人类奥赛金牌DeepMind数学模型做对25道IMO几何题GPT-4惨败

　　今天，谷歌DeepMind的AlphaGeometry模型登上了Nature！30道IMO几何题中，它能做出25道，已经接近人类金牌选手的水平！而GPT-4，却一道题都没做出来，直接挂了零蛋。

　　这个名叫AlphaGeometry的AI系统，能做出国际数学奥林匹克（IMO）的30道几何题中的25道，这个表现，已经接近了人类的奥数金牌得主。

　　下面这道IMO大赛几何真题，曾经难倒了一大批参赛选手，而如今，AI却能把做出来了！

　　训练过程是这样的：先初始生成了十亿个随机几何图形，全面分析每个图形中点和线的所有关系。

　　随后，AlphaGeometry找出了每个图形中所有的证明，并反向追溯出为得到这些证明所需添加的额外几何元素（如果有的话）。

　　就这样，AlphaGeometry结合了神经语言模型和符号演绎引擎的优势，已经形成了一个神经符号系统。

　　两个系统中一个提供快速提供直觉式的想法，另一个负责更谨慎理性的决策。一个大胆假设，一个小心求证，不断改进方案，为复杂的几何定理找到证明。

　　OpenAI研究科学家，德扑AI之父Noam Brown表示，「祝贺GoogleDeepMind团队取得这个成绩！看到AI在高等数学方面取得了如此大的进步，令人兴奋」。

　　已知等腰三角形ABC中，AB和AC的边长相等，求证：∠ABC=∠BCA。

　　等腰三角形的底角相等，这是学过初中数学的人都知道的常识（等腰定理1），可是要怎么证明？

　　AlphaGeometry的做法是，通过运行符号推理引擎，来启动证明搜索。

　　这个引擎会从定理前提中不知疲倦地推导出新语句，直到定理被证明，或新语句被穷尽。

　　但如果符号引擎无法找到证明，语言模型就会构造一个辅助点，在符号引擎重试之前增加证明状态。

　　随后就开始证明过程，证明由另外两个步骤组成，这两个步骤都利用了中点的特性：「BD = DC」，「B，D，C是共线的」。

　　在这两种解决方案中，研究者将语言模型的输出（蓝色）和符号引擎输出交错排列，反映出了执行顺序。（具体证明过程见论文）

　　由于提取最小前提所需的回溯算法，AlphaGeometry识别了一个对证明工作来说不必要的前提：O不必是BC的中点，P、B、C 就是共线。

　　其中湿式制动器，右上是原始定理图，底部是广义定理图，其中O从其中点位置释放出来，而P仍然停留在直线BC上。

　　原始问题要求P介于B和C之间，这是广义定理和解决方案无法保证的条件。但AlphaGeometry就解决了这一点。

　　此外，在做2008年IMO P6的证明题中，AlphaGeometry却失败了。这是所有30个问题集中最难的一个，人类平均得分仅为0.28/7。

　　值得一提的是，北大韦神曾连续两届以满分拿下了IMO 2008、IMO 2009的金牌。

　　毕竟，能参加国际数学奥林匹克竞赛的，都是全世界数学最优秀的高中生，可以说代表了全人类的最高水平。

　　专家们从2000年至2022年间的IMO竞赛题中，选出了30道，组成了IMO-AG-30基准测试集，然后在限定的比赛时间内，让「选手」们展开对决。

　　人类金牌选手平均能解出25.9道题，而AlphaGeometry能解出25道，可以说已经无限逼近人类。

　　除了吴氏方法，在AlphaGeometry与其他最先进的方法比较中，30道IMO试题，GPT-4一道也不会做，直接得了0分！

　　要知道，以前的AI智能体在处理复杂的数学问题时，时常受困于推理能力不足，以及训练数据的缺乏。

　　但AlphaGeometry的不同之处在于，它结合了结合了神经语言模型的预测力，和基于规则的推理引擎，让这两个系统协同作业，从而寻找解决方案。

　　研究者还开发了一种方法，可以生成大量的合成训练数据——高达1亿个独特样本。

　　这样，就可以在有效解决数据不足的问题，在不依赖人类示范的情况下训练AlphaGeometry。

　　通过AlphaGeometry，我们可以看出AI在逻辑推理、发现和验证新知识方面的能力，在不断增强。

　　今天，AI已经可以做出奥林匹克级别的几何题，再过一段时间，可能就会出现更高级、更通用的AI系统，直至某天出现AGI。

　　现在，谷歌DeepMind已经把AlphaGeometry的代码和模型开源，希望它们能和其他合成数据生成和训练的工具一起，为数学、科学和AI领域带来新的机遇。

　　「这有点像我们的『直觉思维』和『逻辑思维』：一个系统提供快速，基于直觉的想法，而另一个系统则进行更为缜密、基于逻辑的决策」。

　　这里，神经语言模型就是「系统1」，擅长发现数据中的普遍模式和关系，能够迅速预见到可能有帮助的几何构造。

　　它们基于形式逻辑（formal logic），按照明确的规则得出结论，这些结论既合乎逻辑又能解释清楚。

　　AlphaGeometry在解决一个简单问题时的过程：首先，给定问题及其定理假设（左图），AlphaGeometry（中图）利用其符号引擎对图形进行逻辑推理，从而推导出新的结论，直至找到答案或无法进一步推导。如果答案未找到，AlphaGeometry的语言模型就会引入一个潜在有助于解题的新图形元素（以蓝色表示），为符号引擎提供新的推理途径。这个过程会不断重复，直到找到问题的解决方案（右图）。在这个示例中，仅需加入一个新的图形元素。

　　AlphaGeometry语言模型的作用就在于，指引符号推理引擎寻找解决几何问题的可能路径。

　　一般来说，IMO级别的几何题往往基于图表，需要在图表中添加新的几何元素，比如点、线或圆，才能找到解答。

　　AlphaGeometry的语言模型能够预测，在无限可能中哪些新元素最有助于解题。这些提示有助于补全信息的空缺，使得符号引擎能够对图表做出更多推断，并逐步逼近正确答案。

　　举个栗子，AlphaGeometry解决了2015年国际数学奥林匹克竞赛第三题（如下），右边是解题过程的精华部分。

　　AlphaGeometry解决数学的能力如此强悍，而更让人震惊的是：仅用合成数据从0开始完成训练。

　　正如谷歌DeepMind所言，因为缺乏训练数据，AI系统一直难以解决棘手的几何问题。

　　对此，研究人员采用了「合成数据」的技术，模拟知识积累过程，无需任何人类演示教学，从0基础开始训练AlphaGeometry。

　　谷歌使用了10万个CPU，最初生成了10亿个几何对象的随机图，并对每个图表中的点和线条之间的所有关系进行了全面的推导（运行符号演算和回溯过程用了3-4天）。

　　AlphaGeometry不仅找到了每个图表中的所有证明，还逆向追溯，确定为了得出这些证明需要增加哪些图形构造。

　　在这庞大的数据集中经过筛选，剔除重复的样本，最终获得了1亿个涵盖不同难度级别的独特训练样本的数据集。

　　AlphaGeometry的语言模型通过分析这些构造，如何帮助完成证明的众多案例，能够在处理奥林匹克级几何题时，提供有效建议，设计出新的几何构造。

　　AlphaGeometry针对IMO赛题给出的解答，都通过了计算机验证。

　　谷歌DeepMind将成果与先前的AI方法，以及奥林匹克竞赛中的人类选手表现进行了比较。

　　值得一提的是，他们还请来数学教练及IMO金牌得主Evan Chen评审了AlphaGeometry的部分解答。

　　AlphaGeometry的输出结果令人称赞，它不仅可以经得起验证，而且表述清晰。以前的AI在解决证明类竞赛题目时，其解答有时候不够可靠（输出结果时对时错，需要人类进行核查）。AlphaGeometry不会出现这样的问题：它的解答具备可由机器验证的结构。

　　即使如此，它的输出也便于人类理解。原本可以设想的是，一款计算机程序通过暴力破解坐标系统来解决几何题目，那将是一连串枯燥的代数运算。但AlphaGeometry并非如此，它采用的是学生们所学的传统几何规则，包括角度和相似三角形的知识。

　　因此，AlphaGeometry只能在大约三分之一的奥赛题目中发挥作用。

　　尽管如此，它在几何领域的能力，已足以让它成为「世界上首个通过2000年和2015年国际数学奥林匹克铜牌标准的AI模型」。

　　在几何题解决方面，AlphaGeometry已经接近IMO金牌选手的水平。

　　谷歌DeepMind称自己的野心不止于此，还希望推动下一代AI系统在推理方面的发展。

　　从0开始，利用大规模合成数据对AI系统进行训练，这种方法有望影响未来AI系统在数学和其他领域的新知识发现范式。

　　此前，谷歌DeepMind就曾推出FunSearch，打破了LLM首次在数学领域未解之谜上取得发现的纪录。

　　而谷歌DeepMind的长期目标，就是打造能跨越不同数学领域、具备解决复杂问题、能够进行高级推理的AI系统，直到实现AGI。

　　Google DeepMind联合创始人兼首席AGI科学家Shane Legg称，「我还依稀记得1990年Christchurch的New Zealand IMO训练营里试图解决疯狂的几何难题，现在看到人工智能在这方面变得如此出色，我有点震惊！ AGI越来越近了」。

　　在看到谷歌最新研究后，他表示，「2021年，我们探索了几何学的早期研究：我们的InterGPS，一个神经符号求解器，第一次达到了人类的平均水平。现在，AlphaGeometry标志着历史性的突破：获得了奥林匹克级别的技能！」

　　有网友表示，这简直就是一个大事件。数学推理可以延伸到物理学，物理学也可以延伸到化学和生物学。未来几年，人工智能可能会主导研究。奇点正在逼近。

　　大多数在职的数学家都无法做到这一点，尤其是在规定的时间内。仅用合成数据进行训练，表明数学没有数据瓶颈。因为我们可以轻松地生成无限高质量的合成数据。

　　英伟达机器学习科学家Shengyang Sun好奇地问，「这些合成问题会在IMO 2024出现吗」？

　　CMU机器学习博士Jing Yu Koh表示，「2024年是合成数据年！我非常喜欢几何领域，因为你有办法将其与现实世界相结合，以确保合成数据的有效性」。

　　本文来自微信公众号“新智元”（ID：AI_era），作者：新智元，36氪经授权发布。

　　重磅更新，谷歌Chrome加持AI，重量级功能×3，Windows、Mac均可用

　　2023 ACM Fellow颁给图灵三巨头，清华马维英、微软高剑峰、上交大陈海波等14位华人当选

　　Altman地位又危了？OpenAI董事会邀请竞争对手加入，还挖角谷歌Gemini高管

点击次数：更新时间：2024-01-25 22:40 【打印此页】【关闭】

上一篇：数学领域创新！好未来自主研发MathGPT模型正式面向用户公测下一篇：数学界AlphaGo来了：攻破奥数难题登Nature接近人类金牌水平

国际利来

联系方式

当前位置： > 国际利来 >

AI抢攻人类奥赛金牌DeepMind数学模型做对25道IMO几何题GPT-4惨败