谷歌DeepMind的AlphaGeometry2

谷歌DeepMind的AlphaGeometry2

       2025年2月7日,谷歌宣布DeepMind的AI系统AlphaGeometry2在国际数学奥林匹克竞赛(IMO)的大规模几何题目测试中,首次超越人类金牌得主水平。这一突破不仅展示了AI在数学领域的强大能力,也引发了人们对AI发展路径的深入思考。

AlphaGeometry2超越人类金牌得主

       谷歌于2025年2月7日宣布,DeepMind创造了人工智能领域新纪录,其最新AI系统AlphaGeometry2在IMO的大规模几何题目测试中表现出色。研究团队从2000年到2024年的IMO竞赛中精选45道几何题目,经技术处理转化为50道标准题目。测试结果显示,AlphaGeometry2成功解答了其中42道,超过了金牌得主40.9分的平均成绩,网友表示「接近完美」。

突破的意义与深层洞察

       DeepMind对IMO竞赛如此重视,源于其认为解决欧几里得几何问题的能力,可能是构建更强大AI系统的关键。研究团队认为,解决具有挑战性的几何问题所需的推理能力和策略选择能力,是构建下一代通用人工智能的关键要素。证明数学定理所需的推理及选择能力,或成为未来通用AI模型的重要部分。2024年夏天,DeepMind将AlphaGeometry2与AlphaProof结合,成功解决当年IMO竞赛6道题目中的4道。

AlphaGeometry2的技术架构与训练方法

       在技术架构上,AlphaGeometry2采用混合方案,将谷歌Gemini系列的语言模型与专门的符号运算引擎相结合。解题时,Gemini模型预测几何构造,符号引擎基于数学规则推导,两个模块通过并行搜索算法协同工作,并将有用信息存储在共享知识库。当二者结合得出完整证明,即完成问题求解。为克服几何训练数据匮乏困境,研究团队自主生成超3亿个不同复杂度的定理和证明用于训练,为AI特定领域突破提供新范例。

AlphaGeometry2的能力边界

       然而,AlphaGeometry2的能力存在明显边界。它无法处理包含可变点数、非线性方程和不等式的问题。在研究团队挑选的29道更具挑战性的IMO候选题中,该系统仅能解决20道。

引发对AI发展路径的思考

       这一突破引发对AI发展路径的深入思考。传统AI领域有基于符号操作和神经网络两种主要方法,AlphaGeometry2采用混合架构,Gemini模型用神经网络架构,符号引擎基于规则运算。测试中,同样采用神经网络架构的OpenAI o1模型无法解决任何AlphaGeometry2成功解答的IMO问题。卡内基梅隆大学AI专家Vince Conitzer表示:“在这些基准测试上取得惊人进展的同时,包括最新的“推理型”在内的语言模型仍在一些简单的常识问题上举步维艰,这种对比令人深思。这不是虚假繁荣,但说明我们仍然无法准确预测下一个系统的行为。考虑到这些系统可能产生的重大影响,我们迫切需要更好地理解它们及其潜在风险。”

AlphaGeometry2的潜力与局限

DeepMind团队在论文中表示,发现初步证据,表明AlphaGeometry2的语言模型部分已显示出无需符号引擎辅助也能生成部分解决方案的潜力。不过,研究团队同时强调,在模型运算速度得到根本改善、“幻觉”问题彻底解决之前,符号运算等外部工具仍将在数学应用中扮演不可或缺的角色。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容