V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
timewarp
V2EX  ›  程序员

Gemini 2.5 Pro 05-06 已经封神

  •  
  •   timewarp · 8 天前 · 5999 次点击

    这两天对 Genimi 2.5 Pro 05-06 进行了一番拷打,发现此模型的准确度极高。

    我的需求是写一个很复杂的测试程序,主要用的是 C 和 Python ,我的工作流是这样的:

    1. 先把需求描述给它,让它生成设计文档
    2. 新开一个回话,把文档输进去,告诉它一步一步的构建代码,我会和它一起调试
    3. 接下来就是一轮一轮的对话了,基本是不断 go ahead 的过程,等到 context 总量达到 5-10 万时,我就会新开会话
    4. 在新会话里把文档贴进去,再把最新的完整代码贴进去,告诉它这份代码尚未彻底完成,请一步一步完成,我会和它一起调试。
    5. 接下来可以进行几轮会话,代码量继续增长,context 达到 10 万时,再次新开会话继续拷打
    6. 最后我的代码基本完工了,然后把最终代码和文档新开会话输进去,让他评估下写的怎么样,他会给出一些意见。
    7. 新开会话,把代码和文档贴进去,把上一轮给出的意见选择一条优先级最高的贴进去,让他实现,并告诉他输出时请直接输出可以直接进行“覆盖性”粘贴的文本,并告诉我在哪粘贴(这一点很重要,不然给出的答案很晕,完全不知道怎么修改代码)。
    8. 把 7 步反复几次,直到把所有意见都处理完毕。
    9. 最后得到了最终成果。

    整个过程中,代码准确度极高,基本不会出错,偶尔有个小错误,下一轮对话就解决了。我的经验是,尽量保证你的上下文是干净的,如果一个会话里对话轮次过多,他就会忘掉代码的演变历史,开始出错,再也改不好。所以我们需要不断的新开会话告诉它最新的代码长什么样子。

    Gemini 可以在上下文长度达到 10 万时一次性输出上千行 C 代码并且一遍跑通,这个能力恐怕一骑绝尘了。

    我还用它写了个一千多行的极为复杂的 Python 程序,也是极为丝滑。但是我只测试到上下文达到 10 万左右,有几次快达到 20 万了,代码开始出错,我就直接新开会话了。

    36 条回复    2025-05-30 11:37:37 +08:00
    isbase
        1
    isbase  
       8 天前
    x 上有用户反馈最近 Google 对 2.5pro 模型做了“降智”调整。
    nananqujava
        2
    nananqujava  
       8 天前
    和 Claude 4 相比呢?
    GiveMeABigName
        3
    GiveMeABigName  
       8 天前 via Android
    妙啊,每次它都是丢给我全部代码。和它要部分代码也不提示我从哪里插入。看来提示词也很重要啊
    zbinlin
        4
    zbinlin  
       8 天前
    让它改着改着就迷失了方向了,最后只能重新 session 。
    phrack
        5
    phrack  
       8 天前   ❤️ 3
    几大 AI 都很好用,我常用的 chatgpt 和 claude ,以前一个人很难做的项目现在挺轻松就能实现了,也许我也有进步,但是 AI 真的帮了很大的忙
    shonnliberty
        6
    shonnliberty  
       8 天前
    @nananqujava Claude 4 免费的太差劲了,新开的窗口给了一份 800 行的代码让它优化输出到一半就超了被限制,还是 Gemini 好用。
    nananqujava
        7
    nananqujava  
       8 天前
    @phrack #5 同感, 我现在感觉自己无所不能
    qiany
        8
    qiany  
       8 天前
    gemini 网页版不知道为什么不能改历史消息
    MZSAN
        9
    MZSAN  
       8 天前 via Android
    gemini2.5Pro 处理超长文本方面的能力有限,其整体实力很强,但是在超长文本的处理方面 经常容易出现幻觉,具体情况就是像你这里说的 出现异常空格和换行符,甚至会出现莫名其妙的英文单词或代码,给我莫名其妙回顾到 20 世纪 70 年代的英文播客去,,,
    grok3 在多数任务的处理能力相对 gemini 会弱些,但在超长文本的处理方面却异常稳定
    crackidz
        10
    crackidz  
       8 天前
    Gemini 有时候幻觉挺严重的,尤其是大的代码库,小的其实还好。但是一般正式项目其实都挺大的...
    trio
        11
    trio  
       8 天前
    跟楼主类似,每次开新窗口跟 Gemini 聊,Prompts 如下:
    1. Read.me 是我的项目设计文档;
    2. project_structure.txt 是我当前的代码结构;
    3. source_code.txt 是所有的源代码;
    4. 现在我需要你帮忙实现代码,并且用中文回答;
    5. ... ...
    drymonfidelia
        12
    drymonfidelia  
       8 天前
    /t/1110486 Gemini 是我见过最烂最会胡编的 AI 从 2.0 到 2.5 一直都是
    以前觉得 Claude 也很烂,现在发现 Claude 相对反而是目前写代码最好的
    BN5MDKFM
        13
    BN5MDKFM  
       8 天前
    说得太武断了,特别是“复杂”“极高”“解决”的标准是什么?有横向纵向对比才有意义,据我所知 Gemini pro V 友专门帖子曝光过有巨大的幻觉,“编故事”很厉害。

    个人用免费版 grok 比 GEMINI 要好很多
    levelworm
        14
    levelworm  
       8 天前 via Android
    等它什么时候能写内核补丁,我就彻底躺平不折腾编程了。
    youthfire
        15
    youthfire  
       8 天前 via iPhone
    相比 3 月版本,不管是数学还是代码,都退步严重
    potatowish
        16
    potatowish  
       8 天前 via iPhone
    找 bug 水平还行,写代码比 claude 差远了
    E0
        17
    E0  
       8 天前 via Android
    05-06 提升了代码能力,其他能力下降了,不如 exp-03-25
    sunnysab
        18
    sunnysab  
       8 天前
    前些日子用它改论文,也很好用。一旦感觉上下文高了,就用 AI Studio 里的 branch from here 功能,开个分支。

    不过要吐槽的是,
    1. 用 Firefox 访问 aistudio ,上下文长了之后很卡……
    2. 有时候翻译任务的结果中会插入俄文字母,让它自己修正的话它能修复。让它修正后,后续对话就不会出现这种情况了。
    kneo
        19
    kneo  
       8 天前   ❤️ 2
    笑死了,感觉每年,每个月,每个模型出来,都有这种帖子。然后过半个月又说降智了……
    elevioux
        20
    elevioux  
       8 天前   ❤️ 2
    每个人的应用场景不同,我尝试用 cursor 做些全栈项目,各个模型轮着试,效果只能说勉勉强强,要反复提醒,费心费力。

    很多说 AI 有多强的,大多是项目结构太简单,要么单文件,要么加起来不过几千行代码。实际长期维护的项目,随便一座小屎山都能把现在 AI 压垮。

    当然,可能问题不出在 AI 本身,AI 本身能力是有的,但人类习惯的组织项目的方式、交互方式是 AI 的一大障碍。
    mikaelson
        21
    mikaelson  
       8 天前   ❤️ 1
    @shonnliberty #6 对,我开了会员,打印了 600 多行就截断了,让它继续,结果输出的变成锁进乱七八糟的
    haolitcs
        22
    haolitcs  
       8 天前 via Android
    @drymonfidelia Gemini 的优点是在 aistudio 免费无限量,完全不担心上下文的消耗,比较爽
    haolitcs
        23
    haolitcs  
       8 天前 via Android   ❤️ 1
    @BN5MDKFM 我感觉 grok 的思考程度不够,上下文长了之后也不聪明了
    haolitcs
        24
    haolitcs  
       8 天前 via Android
    @sunnysab 没错,firefox cpu 占用 50%,有时候还无法保存会话。
    adamwang
        25
    adamwang  
       8 天前
    请问不断反复开新窗口来进行后续提问的作用是什么呢?会比一直在原窗口提问效果要好吗?
    03
        26
    03  
       8 天前
    然而同是 gemini2.5 我让它写个比较两个 dump 文件的简单 python 脚本都写不好,用 np.load 导入 bin 文件,几行的东西第一个版本写了 200 行
    jstony
        27
    jstony  
       8 天前
    是不是进一步说明,调教 AI ,提示词很重要。
    03
        28
    03  
       8 天前
    @03 pro 打漏了
    shonnliberty
        29
    shonnliberty  
       8 天前
    @03 不至于吧,我在 aistudio gemini-2.5-pro-preview-05-06 让它写一份将机场订阅转换成 sing-box 的配置文件,一次就过了。
    timewarp
        30
    timewarp  
    OP
       8 天前   ❤️ 1
    @adamwang 作用是让上下文更纯粹,比如你的原始代码在一个会话里经历了数次修改,那么 LLM 自己可能无法精确的知道某一行代码已经被改成什么样了,让它继续通过推理去算出当前最新代码的样子并继续做修改是很艰难的,毕竟 LLM 也不是 Git 。所以新开窗口会消除以往的曲折修改历史,给他最干净的视图,让他思路更清晰。
    timewarp
        31
    timewarp  
    OP
       8 天前
    @jstony 我感觉技巧性黑魔法(比如给他 20 美元之类的)现在可以不怎么关注了,但是精确的描述自己的需求仍然至关重要,可以尝试先让 GPT 把需求描述给润色一下,再贴给 Gemini 。提示词尽量用英语。
    Jiajin
        32
    Jiajin  
       8 天前
    AI 真的太好用了
    iflint
        33
    iflint  
       8 天前
    @isbase 确实最近变傻了,幻觉开始变多了
    hahiru
        34
    hahiru  
       8 天前
    不行哦,sql 方面的内容给我瞎搞,同样的问题 claude4 成功解决。
    csx163
        35
    csx163  
       7 天前
    最近在搞审计方面,报告传上去,叫 gemini 算个资产负债率、流动比率、速动比率什么的一点问题都没有,不像之前的 gpt 一计算数字就乱来
    coconne
        36
    coconne  
       7 天前
    @kneo 别说半个月,自己有时候用一天就觉得”它“变”智障"了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2606 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:00 · PVG 20:00 · LAX 05:00 · JFK 08:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.