比特币ETF获批的背后:机
AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分
原文来源:新智元
图片来源:由无界 AI生成
今天,谷歌DeepMind的AlphaGeometry模型登上了Nature!30道IMO几何题中,它能做出25道,已经接近人类金牌选手的水平!而GPT-4,却一道题都没做出来,直接挂了零蛋。
谷歌DeepMind的AI智能体,又破纪录了!
这个名叫AlphaGeometry的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,这个表现,已经接近了人类的奥数金牌得主。
从此,AI在数学领域的推理能力再次实现史诗级升级,超越此前的最高水平。
这一研究已经登上Nature。
论文地址:https://www.nature.com/articles/s41586-023-06747-5
下面这道IMO大赛几何真题,曾经难倒了一大批参赛选手,而如今,AI却能把做出来了!
更特别的是,这个模型是靠合成数据训练出来的,而非通常使用的真实数据。
训练过程是这样的:先初始生成了十亿个随机几何图形,全面分析每个图形中点和线的所有关系。
随后,AlphaGeometry找出了每个图形中所有的证明,并反向追溯出为得到这些证明所需添加的额外几何元素(如果有的话)。
就这样,AlphaGeometry结合了神经语言模型和符号演绎引擎的优势,已经形成了一个神经符号系统。
两个系统中一个提供快速提供直觉式的想法,另一个负责更谨慎理性的决策。一个大胆假设,一个小心求证,不断改进方案,为复杂的几何定理找到证明。
而合成数据的思路,也为大模型语料不足的问题,提供了崭新的出路。
网友惊呼:这简直就是创造了历史!
OpenAI研究科学家,德扑AI之父Noam Brown表示,「祝贺GoogleDeepMind团队取得这个成绩!看到AI在高等数学方面取得了如此大的进步,令人兴奋」。
真题实测
话不多说,我们直接上真题。
已知等腰三角形ABC中,AB和AC的边长相等,求证:∠ABC=∠BCA。
等腰三角形的底角相等,这是学过初中数学的人都知道的常识(等腰定理1),可是要怎么证明?
AlphaGeometry的做法是,通过运行符号推理引擎,来启动证明搜索。
这个引擎会从定理前提中不知疲倦地推导出新语句,直到定理被证明,或新语句被穷尽。
但如果符号引擎无法找到证明,语言模型就会构造一个辅助点,在符号引擎重试之前增加证明状态。
如是循环,一直到找到解决方案为止。
比如,在第一个辅助构造「D作为BC的中点」之后,环路终止了。
随后就开始证明过程,证明由另外两个步骤组成,这两个步骤都利用了中点的特性:「BD = DC」,「B,D,C是共线的」。
此后不断循环,直至证明∠ABC=∠BCA。