Google 的 DeepMind 发表了最新的 AlphaEvolve 成果。
它可以看作是一种编码智能体,不过跟现存的编码 Agent 差别不小。下面详细说一下。
它的机制是给现有大语言模型(如 Gemini )的外面套一层进化学习的框架,让大语言模型作为进化学习中的关键一环。而经过进化得到的答案,大大超出了直接询问大语言模型的结果。
它做到的效果是:将 50 多年来未曾改进过的 4 * 4 矩阵乘法运算,由 49 步乘法运算优化到了 48 步。另外还有 50 多个数学、编码、几何等方面的难题中,75%追平了人类的最好效果。20%超越了人类的最好效果。Google 使用它对现有的机器学习中的关键代码进行优化,有了很大的效率提升,节省了数亿美元。
其实 AlphaEvolve 的思想很简单:首先,由人类提供一个初始的代码方案(可能非常粗糙),然后由大语言模型基于这个方案,生成相关的「变异」代码,也就是略微的改进,然后再由人类定义的评估函数,去评估所有「变异」方案的执行效果,是否相比于之前的分数提高了。保留评分较高的「变异」方案。然后循环,将这些新方案再喂给大语言模型,生成进一步的「变异」。如此往复。
我仔细观察了这个过程,发现了几个关键的点:
那么说一下我的感想:
彩蛋: 一些数学难题,是由陶哲轩提供的,他还给出了如何将它们形式化为大语言模型可以理解的形式,听说他最近痴迷于人工智能,自己的数学研究都落下了。
AlphaTensor 解决的问题: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf 的附件 2 中,可以看到这些问题有一些比较明显的特点。
DeepMind 相关人员的 1 小时访谈: https://www.youtube.com/watch?v=vC9nAosXrJw
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.