Gemini 2.5 Pro 05-06 已经封神

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这两天对 Genimi 2.5 Pro 05-06 进行了一番拷打，发现此模型的准确度极高。

我的需求是写一个很复杂的测试程序，主要用的是 C 和 Python ，我的工作流是这样的：

先把需求描述给它，让它生成设计文档
新开一个回话，把文档输进去，告诉它一步一步的构建代码，我会和它一起调试
接下来就是一轮一轮的对话了，基本是不断 go ahead 的过程，等到 context 总量达到 5-10 万时，我就会新开会话
在新会话里把文档贴进去，再把最新的完整代码贴进去，告诉它这份代码尚未彻底完成，请一步一步完成，我会和它一起调试。
接下来可以进行几轮会话，代码量继续增长，context 达到 10 万时，再次新开会话继续拷打
最后我的代码基本完工了，然后把最终代码和文档新开会话输进去，让他评估下写的怎么样，他会给出一些意见。
新开会话，把代码和文档贴进去，把上一轮给出的意见选择一条优先级最高的贴进去，让他实现，并告诉他输出时请直接输出可以直接进行“覆盖性”粘贴的文本，并告诉我在哪粘贴（这一点很重要，不然给出的答案很晕，完全不知道怎么修改代码）。
把 7 步反复几次，直到把所有意见都处理完毕。
最后得到了最终成果。

整个过程中，代码准确度极高，基本不会出错，偶尔有个小错误，下一轮对话就解决了。我的经验是，尽量保证你的上下文是干净的，如果一个会话里对话轮次过多，他就会忘掉代码的演变历史，开始出错，再也改不好。所以我们需要不断的新开会话告诉它最新的代码长什么样子。

Gemini 可以在上下文长度达到 10 万时一次性输出上千行 C 代码并且一遍跑通，这个能力恐怕一骑绝尘了。

我还用它写了个一千多行的极为复杂的 Python 程序，也是极为丝滑。但是我只测试到上下文达到 10 万左右，有几次快达到 20 万了，代码开始出错，我就直接新开会话了。

Gemini

代码准确度

上下文长度

36 条回复 • 2025-05-30 11:37:37 +08:00

isbase

8 天前

x 上有用户反馈最近 Google 对 2.5pro 模型做了“降智”调整。

nananqujava

8 天前

和 Claude 4 相比呢?

GiveMeABigName

8 天前 via Android

妙啊，每次它都是丢给我全部代码。和它要部分代码也不提示我从哪里插入。看来提示词也很重要啊

zbinlin

8 天前

让它改着改着就迷失了方向了，最后只能重新 session 。

phrack

8 天前

几大 AI 都很好用，我常用的 chatgpt 和 claude ，以前一个人很难做的项目现在挺轻松就能实现了，也许我也有进步，但是 AI 真的帮了很大的忙

shonnliberty

8 天前

@nananqujava Claude 4 免费的太差劲了，新开的窗口给了一份 800 行的代码让它优化输出到一半就超了被限制，还是 Gemini 好用。

nananqujava

8 天前

@phrack #5 同感, 我现在感觉自己无所不能

qiany

8 天前

gemini 网页版不知道为什么不能改历史消息

MZSAN

8 天前 via Android

gemini2.5Pro 处理超长文本方面的能力有限，其整体实力很强，但是在超长文本的处理方面经常容易出现幻觉，具体情况就是像你这里说的出现异常空格和换行符，甚至会出现莫名其妙的英文单词或代码，给我莫名其妙回顾到 20 世纪 70 年代的英文播客去，，，
grok3 在多数任务的处理能力相对 gemini 会弱些，但在超长文本的处理方面却异常稳定

crackidz

8 天前

Gemini 有时候幻觉挺严重的，尤其是大的代码库，小的其实还好。但是一般正式项目其实都挺大的...

trio

8 天前

跟楼主类似，每次开新窗口跟 Gemini 聊，Prompts 如下：
1. Read.me 是我的项目设计文档；
2. project_structure.txt 是我当前的代码结构；
3. source_code.txt 是所有的源代码；
4. 现在我需要你帮忙实现代码，并且用中文回答；
5. ... ...

drymonfidelia

8 天前

/t/1110486 Gemini 是我见过最烂最会胡编的 AI 从 2.0 到 2.5 一直都是
以前觉得 Claude 也很烂，现在发现 Claude 相对反而是目前写代码最好的

BN5MDKFM

8 天前

说得太武断了，特别是“复杂”“极高”“解决”的标准是什么？有横向纵向对比才有意义，据我所知 Gemini pro V 友专门帖子曝光过有巨大的幻觉，“编故事”很厉害。

个人用免费版 grok 比 GEMINI 要好很多

levelworm

8 天前 via Android

等它什么时候能写内核补丁，我就彻底躺平不折腾编程了。

youthfire

8 天前 via iPhone

相比 3 月版本，不管是数学还是代码，都退步严重

potatowish

8 天前 via iPhone

找 bug 水平还行，写代码比 claude 差远了

8 天前 via Android

05-06 提升了代码能力，其他能力下降了，不如 exp-03-25

sunnysab

8 天前

前些日子用它改论文，也很好用。一旦感觉上下文高了，就用 AI Studio 里的 branch from here 功能，开个分支。

不过要吐槽的是，
1. 用 Firefox 访问 aistudio ，上下文长了之后很卡……
2. 有时候翻译任务的结果中会插入俄文字母，让它自己修正的话它能修复。让它修正后，后续对话就不会出现这种情况了。

kneo

8 天前

笑死了，感觉每年，每个月，每个模型出来，都有这种帖子。然后过半个月又说降智了……

elevioux

8 天前

每个人的应用场景不同，我尝试用 cursor 做些全栈项目，各个模型轮着试，效果只能说勉勉强强，要反复提醒，费心费力。

很多说 AI 有多强的，大多是项目结构太简单，要么单文件，要么加起来不过几千行代码。实际长期维护的项目，随便一座小屎山都能把现在 AI 压垮。

当然，可能问题不出在 AI 本身，AI 本身能力是有的，但人类习惯的组织项目的方式、交互方式是 AI 的一大障碍。

mikaelson

8 天前

@shonnliberty #6 对，我开了会员，打印了 600 多行就截断了，让它继续，结果输出的变成锁进乱七八糟的

haolitcs

8 天前 via Android

@drymonfidelia Gemini 的优点是在 aistudio 免费无限量，完全不担心上下文的消耗，比较爽

haolitcs

8 天前 via Android

@BN5MDKFM 我感觉 grok 的思考程度不够，上下文长了之后也不聪明了

haolitcs

8 天前 via Android

@sunnysab 没错，firefox cpu 占用 50%，有时候还无法保存会话。

adamwang

8 天前

请问不断反复开新窗口来进行后续提问的作用是什么呢？会比一直在原窗口提问效果要好吗？

8 天前

然而同是 gemini2.5 我让它写个比较两个 dump 文件的简单 python 脚本都写不好，用 np.load 导入 bin 文件，几行的东西第一个版本写了 200 行

jstony

8 天前

是不是进一步说明，调教 AI ，提示词很重要。

8 天前

@03 pro 打漏了

shonnliberty

8 天前

@03 不至于吧，我在 aistudio gemini-2.5-pro-preview-05-06 让它写一份将机场订阅转换成 sing-box 的配置文件，一次就过了。

timewarp

8 天前

@adamwang 作用是让上下文更纯粹，比如你的原始代码在一个会话里经历了数次修改，那么 LLM 自己可能无法精确的知道某一行代码已经被改成什么样了，让它继续通过推理去算出当前最新代码的样子并继续做修改是很艰难的，毕竟 LLM 也不是 Git 。所以新开窗口会消除以往的曲折修改历史，给他最干净的视图，让他思路更清晰。

timewarp

8 天前

@jstony 我感觉技巧性黑魔法（比如给他 20 美元之类的）现在可以不怎么关注了，但是精确的描述自己的需求仍然至关重要，可以尝试先让 GPT 把需求描述给润色一下，再贴给 Gemini 。提示词尽量用英语。