Google 新出了 AlphaEvolve，我的详细观察和想法。

Google 的 DeepMind 发表了最新的 AlphaEvolve 成果。
它可以看作是一种编码智能体，不过跟现存的编码 Agent 差别不小。下面详细说一下。
它的机制是给现有大语言模型（如 Gemini ）的外面套一层进化学习的框架，让大语言模型作为进化学习中的关键一环。而经过进化得到的答案，大大超出了直接询问大语言模型的结果。
它做到的效果是：将 50 多年来未曾改进过的 4 * 4 矩阵乘法运算，由 49 步乘法运算优化到了 48 步。另外还有 50 多个数学、编码、几何等方面的难题中，75%追平了人类的最好效果。20%超越了人类的最好效果。Google 使用它对现有的机器学习中的关键代码进行优化，有了很大的效率提升，节省了数亿美元。
其实 AlphaEvolve 的思想很简单：首先，由人类提供一个初始的代码方案(可能非常粗糙)，然后由大语言模型基于这个方案，生成相关的「变异」代码，也就是略微的改进，然后再由人类定义的评估函数，去评估所有「变异」方案的执行效果，是否相比于之前的分数提高了。保留评分较高的「变异」方案。然后循环，将这些新方案再喂给大语言模型，生成进一步的「变异」。如此往复。
我仔细观察了这个过程，发现了几个关键的点：
- 1 是必须要有确切的评分方案。这个评分方案，一般可以由机器自动执行，比如评分方案是一段验证代码，可以运行「变异」方案的代码，得到评分结果。主要是起量化比较的作用。比如方案的生成步数、执行时间、代码长度等等。评估的得分，不一定非得是一个分数。它可以包含多个维度的得分。甚至可以借助大语言模型来生成评估分数。这也决定了那些无法自动评分的领域很难应用，比如医学领域必须要进行相关的细胞实验甚至体内实验才能得到评估结果。
- 2 是大语言模型，在这其中主要的作用是得到「变异」方案。它可能会对原来的方案进行局部的调整，生成大量的「变异」方案，以供后续的筛选。我感觉这里面利用大语言模型，主要是在用它的理解能力。相比于由人来定义程序该「变异」，或者相比于完全随机的变异，效果可能更好。白皮书里面也提到，使用规模小的语言模型，效果不如规模大的语言模型好。
- 3 是在选取大语言模型生成「变异」时，既选择了非 Thinking 类型的 Gemini ，也选择了 Thinking 类型的 Gemini ，前者可以更快的提供更多的「变异」，后者则提供虽然数量少，但更有深度的「变异」。
- 4 是评估方案，实际上是模拟了进化过程中的自然选择作用。所以，由大语言模型生成的「变异」方案，不是说全部淘汰只保留一个，而是保留足够的多样性，所以 AlphaEvolve 会保留足够多样性的「变异」方案存储在数据库中，以供迭代。而进化能够迭代的一个基本要求是，评估函数对每个「变异」方案得到的数值，必须是连续的，也就是有数值上的连续变化(0.0~1.0 之间)，而不能是简单的有或无(true 或 false)。举例来说，如果待验证的问题，只有成功和不成功这 2 个结果，而没有其他的评估得分，那么就很难使用这种进化策略。不过，具体怎么设置这些评估方案，主要是考验人的想象力，比如对于矩阵乘法运算的算法优化，如果只按照步骤数这个整数来评估，显然很难从 49 步优化到了 48 步，因为仅靠步骤数这个评分，无法驱动这个进化过程。AlphaEvolve 的设计者，显然找到了针对矩阵乘法运算的一个更好的评估方法。
- 5 是白皮书专门强调了，这种进化主要是发生在代码这种形式上的，不管是为了解决矩阵乘法，还是图形 packing ，还是几何问题，又或者是一些数学难题，似乎都是先把原问题转化为代码求解的形式，然后使用大语言模型在代码上进行「变异」。而不是直接求解原来的问题。无论如何，这种策略似乎很有效。
- 6 是如果去掉了进化的过程，而是每次都给大语言模型输入同样的原始方案，然后让它去不停输出「变异」方案，似乎也能获得逐步改进的方案，但是它的上限不如通过进化迭代的结果。也就是说，针对同样的原始方案输入，大语言模型每次输出的「变异」方案都不同，从这些方案中选取更优的方案，效果也会逐步提升，但终究不如进化的方式。
- 7 是方案中似乎没有提到保留「多样性」的目的，是不是这些多样性的「变异」方案，会被一起输入到大语言模型中，起到一种「变异组合」的效果？白皮书中我没有注意有提到，但我猜想很有可能是这样。采用多个维度的评估函数，也印证了这一猜想——使用多个维度的评估函数，其实是在筛选不同方向的「变异」方案，最后将这些「变异」方案都给到大语言模型，由它生成这些「变异」组合后的新的「变异」方案，无疑效果会更好。
那么说一下我的感想：
- 尽管思路很简单，AlphaTensor 仍然足够让人感到惊讶。它仅仅是简单组合了一下大语言模型，加上进化的迭代过程，就产生了有足够创造性的结果，远远超出了直接使用大语言模型所达到的效果。连 DeepMind 的员工也对结果很震惊。
- DeepMind 的员工提到，它们之前已经使用过 AlphaTensor 尝试过破解矩阵乘法，但是没有斩获。AlphaTensor 就是基于的就是大名鼎鼎的 AlphaZero 模型，通过自我对弈强化学习发现了围棋真谛的那个。AlphaTensor 将发现矩阵乘法算法的过程视为一个张量分解游戏，它与 AlphaZero 架构一样，通过蒙特卡洛树搜索（ MCTS ）来探索可能的算法空间）但是 AlphaEvolve 就做到了。这似乎暗示了基于大语言模型的搜索，使用其智能加持，取代了蒙特卡洛这种近似暴力的搜索，加速了搜索的过程。我在想，这是不是同样暗示了人工智能的发展路径：大量的神经网络模型，各自探索学习并进化，现有的大模型需要「社会化协作」，而不仅仅是单打独斗。
- 考虑一下，这跟人类的科研发现的过程，其实非常相似，大量的科研人员、工程人员，还有普通人，在实践中，不断基于已有的成果，去改进、去创新，去劣存优，不同的人往往在探索不同的路径，这其实也是在一个解决方案的空间内不断搜索的过程。每一步优化都被保留和积累下来，每个以前的成果都被吸收，最终取得让人非常震惊的成就。
- 或者换个思路，现在各种 AI ，都是不可理解的黑盒子，表现好的有扩散模型，有 token 预测模型，有强化学习框架，有进化框架等等。那人们就把这些表现好的模型杂交一下。比如 token 预测与强化学习杂交，形成了大语言模型；比如扩散模型和 token 预测杂交，形成了 Sora ；比如进化框架与大语言模型杂交，形成了 AlphaTensor……这些杂交的尝试，与 AlphaTensor 内部所做的事情，有什么区别吗？它们都是根据几个黑盒方案的表现效果，然后凭借一些直觉去生成「杂交」或「变异」，然后再去迭代看看效果如何。
- 考虑到编程这项工作，是高度可验证的，AlphaEvolve 的思路似乎比较适合去优化代码。我不知道把它用在实际的软件工程领域会怎么样。白皮书里面提到了 AlphaEvolve 可以针对数百行代码的功能进行优化。这似乎还不够。
- 此外，访谈的讨论还涉及了如何将这个 Evolve 过程中得到的知识，融合到大语言模型中时，使得它对于被研究的问题有更深的理解，目前似乎还没有答案。
彩蛋：一些数学难题，是由陶哲轩提供的，他还给出了如何将它们形式化为大语言模型可以理解的形式，听说他最近痴迷于人工智能，自己的数学研究都落下了。
参考资料
官方白皮书： https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
AlphaTensor 解决的问题： https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf 的附件 2 中，可以看到这些问题有一些比较明显的特点。
DeepMind 相关人员的 1 小时访谈： https://www.youtube.com/watch?v=vC9nAosXrJw
- 访谈目录：
- [00:00:00] 引言： Alpha Evolve 的突破、DeepMind 的传承与实际影响
- [00:12:06] 介绍 AlphaEvolve： 概念、进化算法与架构
- [00:16:56] 搜索挑战： 停机问题与促成创造性的飞跃
- [00:23:20] 知识增强： 自生成数据、元提示与库学习
- [00:29:08] 矩阵乘法突破： 从 Strassen 算法到 AlphaEvolve 的 48 次乘法
- [00:39:11] 问题表示： 直接解法、构造器与搜索算法
- [00:46:06] 开发者反思： 令人惊讶的结果与优于简单 LLM 采样的表现
- [00:51:42] 算法改进： 爬山算法、程序合成与可理解性
- [01:00:24] 实际应用： 复杂评估与机器人技术
- [01:05:39] LLM 的作用与未来： 先进模型、递归自改进与人机协作
- [01:11:22] 资源考量： AlphaEvolve 的计算成本

Google 新出了 AlphaEvolve，我的详细观察和想法。

参考资料