V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
silenceboychen
V2EX  ›  程序员

那个大模型编码能力最好?

  •  1
     
  •   silenceboychen · 7 天前 · 8444 次点击

    在编码领域,哪些大模型的能力比较强?目前一直都在用 claude-3.7-sonnet

    100 条回复    2025-05-01 19:05:18 +08:00
    risan
        1
    risan  
       7 天前
    那显然 chatgpt
    TanKuku
        2
    TanKuku  
       7 天前
    感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比
    wxw752
        3
    wxw752  
       7 天前
    目前在用 gemini 2.5 pro
    raycool
        4
    raycool  
       7 天前
    各有优劣吧。
    totoro52
        5
    totoro52  
       7 天前   ❤️ 2
    大差不大差,关键是要怎么提示它,如何提问也是一门技术
    kkk1234567
        6
    kkk1234567  
       7 天前   ❤️ 1
    grok 3 感觉也很不错呢。
    mingzefei
        7
    mingzefei  
       7 天前
    claude3.7 速度太慢,gemini 速度和上下文更好。两个模型写的代码没看出太大区别。
    Promtheus
        8
    Promtheus  
       7 天前   ❤️ 5
    @risan 你是不是除了 chatgpt 没用过其他模型。。
    MagicalCarl
        9
    MagicalCarl  
       7 天前   ❤️ 1
    sentinelK
        10
    sentinelK  
       7 天前   ❤️ 4
    如果是前端界面,且有设计图,那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。

    如果是在既有程序上的修改,或者 debug 。claude-3.7-sonnet-thinking 更理性一点,gemini 2.5 pro 有些过于激进。而且管的太多。

    btw:copilot 的 gemini 2.5 pro 明显有问题,至于说是故意的负优化还是提示词没写好,就不得而知了。
    godloveplay
        11
    godloveplay  
       6 天前
    grok3 用来设计方案,表结构都很不错。
    lrigi
        12
    lrigi  
       6 天前 via iPhone
    综合来讲 gemini2.5 pro 最好吧,但我一般就用 claude3.7
    xugj
        13
    xugj  
       6 天前
    vincentWdp
        14
    vincentWdp  
       6 天前
    o3
    lzd123
        15
    lzd123  
       6 天前
    gemini2.5 pro 体验确实不错,完成度很高
    hhharuka
        16
    hhharuka  
       6 天前   ❤️ 1
    Gemini 2.5pro
    Claude 3.7
    ddddd0
        17
    ddddd0  
       6 天前 via iPhone
    t0:
    o4mini
    gem2.5 pro
    o3
    locoz
        18
    locoz  
       6 天前   ❤️ 6
    通常情况下简单场景最优的:claude 3.5
    通常情况下有一定难度的场景最优的:claude 3.7 + 思考模式
    上下文少,只需要短输出的:gpt o4-mini
    上下文长度中等,可能需要较长输出,且有一定难度的:claude 3.7 + 思考模式
    上下文长度长,可能需要较长输出,但不怎么难的:gemini 2.5 pro + 思考模式
    上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高
    nunterr
        19
    nunterr  
       6 天前
    写代码:claude-3.7--,gemini 2.5 pro
    聊事件:grok3
    国内搜东西:腾讯元宝的 DeepSeek 联网版
    fxxkgw
        20
    fxxkgw  
       6 天前 via Android
    claude3.5 3.7
    fuckfaker
        21
    fuckfaker  
       6 天前   ❤️ 4
    @risan gpt 在 claude 面前,像个新兵蛋子
    herozzm
        22
    herozzm  
       6 天前
    claude-3.7-sonnet
    但是 gpt-4.1 好像更胜一筹,观察中
    kzfile
        23
    kzfile  
       6 天前
    同一个问题多问问,没有哪一家总是最优
    testliyu
        24
    testliyu  
       6 天前
    今天新出的 qwen3 可以试试
    zdw189803631
        26
    zdw189803631  
       6 天前
    claude-3.7-sonnet 和 gemini 2.5 pro !我们公司魔改 cline ,只留下这两个大模型
    GuluMashimaro
        27
    GuluMashimaro  
       6 天前
    用的 gemini 2.5 pro
    10 分钟弄了一个待办事项的 chrome 插件

    aHR0cHM6Ly9jaHJvbWV3ZWJzdG9yZS5nb29nbGUuY29tL2RldGFpbC8lRTUlQkUlODUlRTUlOEElOUUlRTQlQkElOEIlRTklQTElQjklRTglQjclOUYlRTglQjglQUElRTUlOTklQTgvaWpobG1paHBwZGxqY2JnZGtoaGlnaW1jaWZhbmNlbmc=
    InkStone
        28
    InkStone  
       6 天前   ❤️ 1
    @Linyz 还可以参考一下 openrouter 上的 ranking ,https://openrouter.ai/rankings/programming?view=week

    个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指,让我用我是一点都用不下手,能排到这么前面应该说明了实践中表现确实很好。
    daodao
        29
    daodao  
       6 天前
    claude 3.7 sonnet ,gemini 2.5 pro
    Linyz
        30
    Linyz  
       6 天前
    @InkStone 的确, 感觉比野榜靠谱哈哈
    daodao
        31
    daodao  
       6 天前
    @testliyu 已测,在开源里面可能还行。但在 claude 3.7 sonnet ,gemini 2.5 pro 跟前确实还只是弟弟
    huiyadanli
        32
    huiyadanli  
       6 天前
    Claude 3.5 Sonnet

    3.7 实际使用下来提升并不明显
    jonsmith
        33
    jonsmith  
       6 天前
    cursor 上 claude-3.7-sonnet 模型的使用体验更好,能写出符合预期的代码,可能工程能力更好点。
    gemini 2.5 pro 明显智力更高,用来回答一些技术问题或者写一些独立的代码块。
    viking602
        34
    viking602  
       6 天前
    claude 3.7s 目前代码工程最好的
    jiangbingo
        35
    jiangbingo  
       6 天前
    请问楼上诸位,你们在编辑器如何使用 gemini 2.5 pro ?
    wufumina
        36
    wufumina  
       6 天前
    我个人提名一下 grok3
    dcatfly
        37
    dcatfly  
       6 天前
    @MagicalCarl 这个榜单类似于跑分,可能可以参考为解决单个问题的能力,但在真实的工程上下文层面体感还是有区别
    dcatfly
        38
    dcatfly  
       6 天前
    @InkStone 用钱投票还是靠谱些,不过我感觉 roocode 比 cline 好用不少 但这里还是 cline 消耗的 token 多
    dcatfly
        39
    dcatfly  
       6 天前
    @dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个
    jonty
        40
    jonty  
       6 天前
    @jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务
    leehaoze98
        41
    leehaoze98  
       6 天前
    日常主要用 cursor 编写代码,一般情况用 Claude 3.7 足矣,复杂情况下 3.7 写出的代码不 Work ,换到 4.1 会有概率解决。

    再不 work 的情况,需要把背景、问题说明白,贴给 chatgpt ,多轮交互中,chatgpt 能给出一个 work 的方案
    cheman
        42
    cheman  
       6 天前
    claude 3.7 sonnet ,gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下,ds v3 性价比好点,我用来开发小程序够用。如果想找便宜的 key ,可到 https://api.xlap.top 结合 vscode roocode 使用。
    Kason333
        43
    Kason333  
       6 天前
    claude
    sweat89
        44
    sweat89  
       6 天前
    就每一个人用 Grok3 ?
    我觉得蛮好用的
    shellcodecow
        45
    shellcodecow  
       6 天前
    claude-3.7-sonnet 用来写脚本和代码很不错
    jonyJJ
        46
    jonyJJ  
       6 天前
    Grok3 挺好用的,51 过后可以用 grok 3.5 了 美滋滋
    xing7673
        47
    xing7673  
       6 天前
    @herozzm 4.1 不行,虽然代码输出更简洁,但是容易出问题,windsurf 里我都是用 claude 3.7 或者 gemini 来纠正它的问题
    PositionZero
        48
    PositionZero  
       6 天前
    @InkStone OpenRouter 的 ranking 只是说用的人多,不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。
    aider 的这个榜不错,既有编程准确度,也有成本 https://aider.chat/docs/leaderboards/ 。
    eroneko
        49
    eroneko  
       6 天前
    cursor+o4-mini 很够用了,而且目前是免费的,需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方,然后丢给 o4-mini 执行。
    kasusa
        50
    kasusa  
       6 天前
    @InkStone 用钱投票 666
    InkStone
        51
    InkStone  
       6 天前
    @PositionZero 这个是 benchmark 的测试结果,不是投票结果吧。说实话,相比 benchmark ,我还是更倾向于相信大家实践后做出的选择。

    价格肯定有很大影响,但 openrouter 上最靠前的 3.7 和 2.5 都很贵,感觉还是能说明一些问题的。
    azarasi
        52
    azarasi  
       6 天前
    gemini 2.5 pro, 1M 长上下文,很多程序都可以全部项目代码塞进去
    qiaobeier
        53
    qiaobeier  
       6 天前
    @Linyz #25 Gemini 2.5 那么高了吗?我切换下试试
    Gilfoyle26
        54
    Gilfoyle26  
       6 天前
    我觉的要看语言,新的语言,新的库往往不行。
    AI 好像对 python ,js ,支持的比较好
    remember5
        55
    remember5  
       6 天前
    claude-3.7-sonnet
    OldActorsSmile
        56
    OldActorsSmile  
       6 天前
    claude-3.7-sonnet-thinking
    mumbler
        57
    mumbler  
       6 天前
    无脑 gemini 2.5 pro 即可,其他模型都差 gemini 一大截
    silencelixing
        58
    silencelixing  
       6 天前
    1. Claude 3.7 Sonnet
    2. Gemini 2.5 Pro
    答案几乎是确定的,这两个断层的领先。
    鉴于 Gemini 2.5 Pro 价格低,甚至可以免费薅,首选 Gemini 2.5 Pro
    富哥可以用 Claude 3.7 Sonnet
    boyzhang
        59
    boyzhang  
       6 天前
    @wxw752 grok 怎么样
    Plutooo
        60
    Plutooo  
       6 天前
    太久没看这方面内容了,没想到 gemini 都后来居上了
    zhy0216
        61
    zhy0216  
       6 天前
    claude-3.7-sonnet 第一
    这个测评 https://roocode.com/evals
    liulicaixiao
        62
    liulicaixiao  
       6 天前
    @sweat89 大家都是在编辑器里用,grok 3 的 api 出的太晚了,而且不在默认模型里
    RoccoShi
        63
    RoccoShi  
       6 天前
    claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点,但是后者上下文更长,可以一起用
    599lee
        64
    599lee  
       6 天前
    个人觉得 grok 3 和 claude 3.7 比较强,偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ,它不用我给的数,它自己编,非常优秀👍
    lnmxy
        65
    lnmxy  
       6 天前
    qwen3
    amazingfate
        66
    amazingfate  
       6 天前
    gpt4.1 吧 用着比 claude3.7 舒服。
    然后还可以用 gemini 2.5pro 二次写,可以写很长也很准。但是 gemini 指令遵循不如前两者。
    love2328
        67
    love2328  
       6 天前
    @lnmxy 并不怎么样的
    xinru
        68
    xinru  
       6 天前 via iPhone
    关注一下代码 AI 工具推荐
    anivie
        69
    anivie  
       6 天前
    Gemini 2.5pro ,我的体感是断崖领先其它所有,包括 claude ,claude 又要领先剩下的一轮
    zisen
        70
    zisen  
       6 天前 via iPhone
    claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案,也不管用户表达的是不是真的这个意思,反正一股脑儿输出就完事了
    Vancion
        71
    Vancion  
       6 天前
    应该把具体哪种语言也带上吧
    kergee
        72
    kergee  
       6 天前
    grok3 150 美金感觉赚了
    twinsant
        73
    twinsant  
       6 天前
    abellis
        74
    abellis  
       6 天前
    一个稍微复杂点的 sql 查询,同样的描述,只有 Gemini 2.5pro 一次给出了正确答案,claude ,gpt 管头不顾腚,总是差一点
    Wkj1998
        75
    Wkj1998  
       6 天前 via Android
    Claude3.7 、Gemini2.5Pro ,前者比较老实,老老实实按照你的需求编写代码,后者经常有自己独特的想法,一个编码需求,Claude3.7 输出 12 行代码,Gemini2.5Pro 会把各种因素考虑进去,最后给你输出 32 行代码
    klo424
        76
    klo424  
       6 天前
    我一般用 Cursor 的 Claude3.7
    wnpllrzodiac
        77
    wnpllrzodiac  
       6 天前 via Android
    c++大项目,修 bug 哪个模型好?
    wnpllrzodiac
        78
    wnpllrzodiac  
       6 天前 via Android
    qt 有界面图,想把界面用 ui 文件复刻出来,哪个模型好
    dreamage
        79
    dreamage  
       6 天前
    截至目前 claude 41 票 gemini 39 票 遥遥领先
    xz410236056
        80
    xz410236056  
       6 天前   ❤️ 1
    @TanKuku 目前感觉 2.5pro 强于克劳德,但是有时候降智
    Hajar123
        81
    Hajar123  
       6 天前
    @xing7673 #47 windsurf 对比 cursor 如何
    XuanYuan
        82
    XuanYuan  
       6 天前
    我以前用 Claude ,现在用 Grok
    NATransfer
        83
    NATransfer  
       5 天前
    gpt 4.1o 不错
    csfreshman
        84
    csfreshman  
       5 天前
    编码能力个人用过的最好的应该是 Claude 3.7 Sonnet
    Daybyedream
        85
    Daybyedream  
       5 天前
    gemini 2.5 pro 好像也还行
    seven777
        86
    seven777  
       5 天前
    @locoz #18 "上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高" 这个有测试经验?😁
    我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病.
    hunk
        87
    hunk  
       5 天前
    我粗糙的以为,新出的会更好一点点,学习的资料不断增加,所有显示出有差异,但基本书写,应该差别不大。
    现在选型是难,不断有新东西,难以决断。
    Strive123456
        88
    Strive123456  
       5 天前
    jamos
        89
    jamos  
       5 天前
    claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个, 怎么使用呢,买 api 还是免费撸
    quietDown
        90
    quietDown  
       5 天前
    claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个,gemini2.5pro 在上下文表现上更强,claude3.7 我个人感觉在一些项目设计上会更好一点,我会拿来设计技术方案,但是最近时长感觉降智。目前两个会结合着用。
    testisgood
        91
    testisgood  
       5 天前
    我以前对比过 claude-3.7-sonnet 和豆包,明显 claude 强很多,于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意,于是试用了一下 deepseek 和 qwen3 ,结果发现,起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。
    locoz
        93
    locoz  
       5 天前
    @seven777 #86 是实际试过得出的结论,这种场景理论上 gemini 2.5 pro 上下文长,理应输出结果更好,但实际会因为它喜欢忽略一些“不重要”的东西,并且指令遵循性比其他的稍弱,就导致结果反而会犯病;而 claude 3.7 在上下文过长的情况下也会忽略一些东西,导致出问题。但 gpt o3 可能是内部有工程优化之类的处理,基本还是能不犯病输出。

    gemini 主要的问题还是指令遵循性,很多时候喜欢自作主张瞎操作,不瞎操作的话其实只要是长上下文都可以用 gemini 。
    eBPF
        94
    eBPF  
       5 天前
    - https://aider.chat/docs/leaderboards/
    - https://openrouter.ai/rankings/programming?view=month
    paynezhuang
        95
    paynezhuang  
       5 天前
    写代码用 claude3.7 ,问问题用 grok
    Memoriae
        96
    Memoriae  
       5 天前
    首先排除掉所有蒸馏模型,幻觉偏差太严重,综合来看 gemini 2.5 pro 不错。
    ydirel
        97
    ydirel  
       5 天前
    @TanKuku dsV3 主要便宜,哈哈哈哈
    skymanv2
        98
    skymanv2  
       5 天前
    请问你们的大模型是怎么调用的?是用 cursor 里面的吗?
    sickoo
        99
    sickoo  
       5 天前
    主要 claude3.7 但是不能拖太长,幻觉特别严重,最主要还是一不小心往里面塞屎
    malagebidi
        100
    malagebidi  
       4 天前
    claude 3.7 强于 gemini 2.5 pro
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5910 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 03:06 · PVG 11:06 · LAX 20:06 · JFK 23:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.