那个大模型编码能力最好？

100 条回复 • 2025-05-01 19:05:18 +08:00

1

risan

7 天前

那显然 chatgpt

2

TanKuku

7 天前

感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比

3

wxw752

7 天前

目前在用 gemini 2.5 pro

4

raycool

7 天前

各有优劣吧。

5

totoro52

7 天前

2

大差不大差，关键是要怎么提示它，如何提问也是一门技术

6

kkk1234567

7 天前

1

grok 3 感觉也很不错呢。

7

mingzefei

7 天前

claude3.7 速度太慢，gemini 速度和上下文更好。两个模型写的代码没看出太大区别。

8

Promtheus

7 天前

5

@risan 你是不是除了 chatgpt 没用过其他模型。。

9

MagicalCarl

7 天前

1

https://livebench.ai/

10

sentinelK

7 天前

4

如果是前端界面，且有设计图，那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。

如果是在既有程序上的修改，或者 debug 。claude-3.7-sonnet-thinking 更理性一点，gemini 2.5 pro 有些过于激进。而且管的太多。

btw：copilot 的 gemini 2.5 pro 明显有问题，至于说是故意的负优化还是提示词没写好，就不得而知了。

11

godloveplay

6 天前

grok3 用来设计方案，表结构都很不错。

12

lrigi

6 天前 via iPhone

综合来讲 gemini2.5 pro 最好吧，但我一般就用 claude3.7

13

xugj

6 天前

可以看看这个： https://mp.weixin.qq.com/s/dcQOM0C4cTfTxTAFN5McZg

14

vincentWdp

6 天前

o3

15

lzd123

6 天前

gemini2.5 pro 体验确实不错，完成度很高

16

hhharuka

6 天前

1

Gemini 2.5pro
Claude 3.7

17

ddddd0

6 天前 via iPhone

t0:
o4mini
gem2.5 pro
o3

18

locoz

6 天前

6

通常情况下简单场景最优的：claude 3.5
通常情况下有一定难度的场景最优的：claude 3.7 + 思考模式
上下文少，只需要短输出的：gpt o4-mini
上下文长度中等，可能需要较长输出，且有一定难度的：claude 3.7 + 思考模式
上下文长度长，可能需要较长输出，但不怎么难的：gemini 2.5 pro + 思考模式
上下文长度长，需要较长输出，还有难度的：要么拆分处理，要么 gpt o3 ，其他的犯病概率较高

19

nunterr

6 天前

写代码：claude-3.7--，gemini 2.5 pro
聊事件：grok3
国内搜东西：腾讯元宝的 DeepSeek 联网版

20

fxxkgw

6 天前 via Android

claude3.5 3.7

21

fuckfaker

6 天前

4

@risan gpt 在 claude 面前，像个新兵蛋子

22

herozzm

6 天前

claude-3.7-sonnet
但是 gpt-4.1 好像更胜一筹，观察中

23

kzfile

6 天前

同一个问题多问问，没有哪一家总是最优

24

testliyu

6 天前

今天新出的 qwen3 可以试试

25

Linyz

6 天前

参考 reddit 上的投票: https://www.reddit.com/r/OpenAI/comments/1k67bya/what_is_currently_the_best_ai_model

26

zdw189803631

6 天前

claude-3.7-sonnet 和 gemini 2.5 pro ！我们公司魔改 cline ，只留下这两个大模型

27

GuluMashimaro

6 天前

用的 gemini 2.5 pro
10 分钟弄了一个待办事项的 chrome 插件

aHR0cHM6Ly9jaHJvbWV3ZWJzdG9yZS5nb29nbGUuY29tL2RldGFpbC8lRTUlQkUlODUlRTUlOEElOUUlRTQlQkElOEIlRTklQTElQjklRTglQjclOUYlRTglQjglQUElRTUlOTklQTgvaWpobG1paHBwZGxqY2JnZGtoaGlnaW1jaWZhbmNlbmc=

28

InkStone

6 天前

1

@Linyz 还可以参考一下 openrouter 上的 ranking ，https://openrouter.ai/rankings/programming?view=week

个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指，让我用我是一点都用不下手，能排到这么前面应该说明了实践中表现确实很好。

29

daodao

6 天前

claude 3.7 sonnet ，gemini 2.5 pro

30

Linyz

6 天前

@InkStone 的确, 感觉比野榜靠谱哈哈

31

daodao

6 天前

@testliyu 已测，在开源里面可能还行。但在 claude 3.7 sonnet ，gemini 2.5 pro 跟前确实还只是弟弟

32

huiyadanli

6 天前

Claude 3.5 Sonnet

3.7 实际使用下来提升并不明显

33

jonsmith

6 天前

cursor 上 claude-3.7-sonnet 模型的使用体验更好，能写出符合预期的代码，可能工程能力更好点。
gemini 2.5 pro 明显智力更高，用来回答一些技术问题或者写一些独立的代码块。

34

viking602

6 天前

claude 3.7s 目前代码工程最好的

35

jiangbingo

6 天前

请问楼上诸位，你们在编辑器如何使用 gemini 2.5 pro ？

36

wufumina

6 天前

我个人提名一下 grok3

37

dcatfly

6 天前

@MagicalCarl 这个榜单类似于跑分，可能可以参考为解决单个问题的能力，但在真实的工程上下文层面体感还是有区别

38

dcatfly

6 天前

@InkStone 用钱投票还是靠谱些，不过我感觉 roocode 比 cline 好用不少但这里还是 cline 消耗的 token 多

39

dcatfly

6 天前

@dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个

40

jonty

6 天前

@jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务

41

leehaoze98

6 天前

日常主要用 cursor 编写代码，一般情况用 Claude 3.7 足矣，复杂情况下 3.7 写出的代码不 Work ，换到 4.1 会有概率解决。

再不 work 的情况，需要把背景、问题说明白，贴给 chatgpt ，多轮交互中，chatgpt 能给出一个 work 的方案

42

cheman

6 天前

claude 3.7 sonnet ，gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下，ds v3 性价比好点，我用来开发小程序够用。如果想找便宜的 key ，可到 https://api.xlap.top 结合 vscode roocode 使用。

43

Kason333

6 天前

claude

44

sweat89

6 天前

就每一个人用 Grok3 ？
我觉得蛮好用的

45

shellcodecow

6 天前

claude-3.7-sonnet 用来写脚本和代码很不错

46

jonyJJ

6 天前

Grok3 挺好用的，51 过后可以用 grok 3.5 了美滋滋

47

xing7673

6 天前

@herozzm 4.1 不行，虽然代码输出更简洁，但是容易出问题，windsurf 里我都是用 claude 3.7 或者 gemini 来纠正它的问题

48

PositionZero

6 天前

@InkStone OpenRouter 的 ranking 只是说用的人多，不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。
aider 的这个榜不错，既有编程准确度，也有成本 https://aider.chat/docs/leaderboards/ 。

49

eroneko

6 天前

cursor+o4-mini 很够用了，而且目前是免费的，需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方，然后丢给 o4-mini 执行。

50

kasusa

6 天前

@InkStone 用钱投票 666

51

InkStone

6 天前

@PositionZero 这个是 benchmark 的测试结果，不是投票结果吧。说实话，相比 benchmark ，我还是更倾向于相信大家实践后做出的选择。

价格肯定有很大影响，但 openrouter 上最靠前的 3.7 和 2.5 都很贵，感觉还是能说明一些问题的。

52

azarasi

6 天前

gemini 2.5 pro, 1M 长上下文，很多程序都可以全部项目代码塞进去

53

qiaobeier

6 天前

@Linyz #25 Gemini 2.5 那么高了吗？我切换下试试

54

Gilfoyle26

6 天前

我觉的要看语言,新的语言,新的库往往不行。
AI 好像对 python ，js ，支持的比较好

55

remember5

6 天前

claude-3.7-sonnet

56

OldActorsSmile

6 天前

claude-3.7-sonnet-thinking

57

mumbler

6 天前

无脑 gemini 2.5 pro 即可，其他模型都差 gemini 一大截

58

silencelixing

6 天前

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
答案几乎是确定的，这两个断层的领先。
鉴于 Gemini 2.5 Pro 价格低，甚至可以免费薅，首选 Gemini 2.5 Pro
富哥可以用 Claude 3.7 Sonnet

59

boyzhang

6 天前

@wxw752 grok 怎么样

60

Plutooo

6 天前

太久没看这方面内容了，没想到 gemini 都后来居上了

61

zhy0216

6 天前

claude-3.7-sonnet 第一
这个测评 https://roocode.com/evals

62

liulicaixiao

6 天前

@sweat89 大家都是在编辑器里用，grok 3 的 api 出的太晚了，而且不在默认模型里

63

RoccoShi

6 天前

claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点，但是后者上下文更长，可以一起用

64

599lee

6 天前

个人觉得 grok 3 和 claude 3.7 比较强，偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ，它不用我给的数，它自己编，非常优秀👍

65

lnmxy

6 天前

qwen3

66

amazingfate

6 天前

gpt4.1 吧用着比 claude3.7 舒服。
然后还可以用 gemini 2.5pro 二次写，可以写很长也很准。但是 gemini 指令遵循不如前两者。

67

love2328

6 天前

@lnmxy 并不怎么样的

68

xinru

6 天前 via iPhone

关注一下代码 AI 工具推荐

69

anivie

6 天前

Gemini 2.5pro ，我的体感是断崖领先其它所有，包括 claude ，claude 又要领先剩下的一轮

70

zisen

6 天前 via iPhone

claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案，也不管用户表达的是不是真的这个意思，反正一股脑儿输出就完事了

71

Vancion

6 天前

应该把具体哪种语言也带上吧

72

kergee

6 天前

grok3 150 美金感觉赚了

73

twinsant

6 天前

@silencelixing 顶

74

abellis

6 天前

一个稍微复杂点的 sql 查询，同样的描述，只有 Gemini 2.5pro 一次给出了正确答案，claude ，gpt 管头不顾腚，总是差一点

75

Wkj1998

6 天前 via Android

Claude3.7 、Gemini2.5Pro ，前者比较老实，老老实实按照你的需求编写代码，后者经常有自己独特的想法，一个编码需求，Claude3.7 输出 12 行代码，Gemini2.5Pro 会把各种因素考虑进去，最后给你输出 32 行代码

76

klo424

6 天前

我一般用 Cursor 的 Claude3.7

77

wnpllrzodiac

6 天前 via Android

c++大项目，修 bug 哪个模型好？

78

wnpllrzodiac

6 天前 via Android

qt 有界面图，想把界面用 ui 文件复刻出来，哪个模型好

79

dreamage

6 天前

截至目前 claude 41 票 gemini 39 票遥遥领先

80

xz410236056

6 天前

1

@TanKuku 目前感觉 2.5pro 强于克劳德，但是有时候降智

81

Hajar123

6 天前

@xing7673 #47 windsurf 对比 cursor 如何

82

XuanYuan

6 天前

我以前用 Claude ，现在用 Grok

83

NATransfer

5 天前

gpt 4.1o 不错

84

csfreshman

5 天前

编码能力个人用过的最好的应该是 Claude 3.7 Sonnet

85

Daybyedream

5 天前

gemini 2.5 pro 好像也还行

86

seven777

5 天前

@locoz #18 "上下文长度长，需要较长输出，还有难度的：要么拆分处理，要么 gpt o3 ，其他的犯病概率较高" 这个有测试经验?😁
我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病.

87

hunk

5 天前

我粗糙的以为，新出的会更好一点点，学习的资料不断增加，所有显示出有差异，但基本书写，应该差别不大。
现在选型是难，不断有新东西，难以决断。

88

Strive123456

5 天前

@totoro52 yes

89

jamos

5 天前

claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个，怎么使用呢，买 api 还是免费撸

90

quietDown

5 天前

claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个，gemini2.5pro 在上下文表现上更强，claude3.7 我个人感觉在一些项目设计上会更好一点，我会拿来设计技术方案，但是最近时长感觉降智。目前两个会结合着用。

91

testisgood

5 天前

我以前对比过 claude-3.7-sonnet 和豆包，明显 claude 强很多，于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意，于是试用了一下 deepseek 和 qwen3 ，结果发现，起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。

92

silenceboychen

OP

5 天前

https://www.reddit.com/r/RooCode/comments/1k9fj2p/roo_aider_cline_etc_windsurf_cursor_copilot/

93

locoz

5 天前

@seven777 #86 是实际试过得出的结论，这种场景理论上 gemini 2.5 pro 上下文长，理应输出结果更好，但实际会因为它喜欢忽略一些“不重要”的东西，并且指令遵循性比其他的稍弱，就导致结果反而会犯病；而 claude 3.7 在上下文过长的情况下也会忽略一些东西，导致出问题。但 gpt o3 可能是内部有工程优化之类的处理，基本还是能不犯病输出。

gemini 主要的问题还是指令遵循性，很多时候喜欢自作主张瞎操作，不瞎操作的话其实只要是长上下文都可以用 gemini 。