在编码领域,哪些大模型的能力比较强?目前一直都在用 claude-3.7-sonnet
1
risan 7 天前
那显然 chatgpt
|
![]() |
2
TanKuku 7 天前
感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比
|
![]() |
3
wxw752 7 天前
目前在用 gemini 2.5 pro
|
4
raycool 7 天前
各有优劣吧。
|
![]() |
5
totoro52 7 天前 ![]() 大差不大差,关键是要怎么提示它,如何提问也是一门技术
|
![]() |
6
kkk1234567 7 天前 ![]() grok 3 感觉也很不错呢。
|
7
mingzefei 7 天前
claude3.7 速度太慢,gemini 速度和上下文更好。两个模型写的代码没看出太大区别。
|
9
MagicalCarl 7 天前 ![]() |
![]() |
10
sentinelK 7 天前 ![]() 如果是前端界面,且有设计图,那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。
如果是在既有程序上的修改,或者 debug 。claude-3.7-sonnet-thinking 更理性一点,gemini 2.5 pro 有些过于激进。而且管的太多。 btw:copilot 的 gemini 2.5 pro 明显有问题,至于说是故意的负优化还是提示词没写好,就不得而知了。 |
11
godloveplay 6 天前
grok3 用来设计方案,表结构都很不错。
|
12
lrigi 6 天前 via iPhone
综合来讲 gemini2.5 pro 最好吧,但我一般就用 claude3.7
|
13
xugj 6 天前
|
14
vincentWdp 6 天前
o3
|
![]() |
15
lzd123 6 天前
gemini2.5 pro 体验确实不错,完成度很高
|
16
hhharuka 6 天前 ![]() Gemini 2.5pro
Claude 3.7 |
![]() |
17
ddddd0 6 天前 via iPhone
t0:
o4mini gem2.5 pro o3 |
![]() |
18
locoz 6 天前 ![]() 通常情况下简单场景最优的:claude 3.5
通常情况下有一定难度的场景最优的:claude 3.7 + 思考模式 上下文少,只需要短输出的:gpt o4-mini 上下文长度中等,可能需要较长输出,且有一定难度的:claude 3.7 + 思考模式 上下文长度长,可能需要较长输出,但不怎么难的:gemini 2.5 pro + 思考模式 上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高 |
19
nunterr 6 天前
写代码:claude-3.7--,gemini 2.5 pro
聊事件:grok3 国内搜东西:腾讯元宝的 DeepSeek 联网版 |
![]() |
20
fxxkgw 6 天前 via Android
claude3.5 3.7
|
![]() |
22
herozzm 6 天前
claude-3.7-sonnet
但是 gpt-4.1 好像更胜一筹,观察中 |
23
kzfile 6 天前
同一个问题多问问,没有哪一家总是最优
|
![]() |
24
testliyu 6 天前
今天新出的 qwen3 可以试试
|
![]() |
25
Linyz 6 天前
|
![]() |
26
zdw189803631 6 天前
claude-3.7-sonnet 和 gemini 2.5 pro !我们公司魔改 cline ,只留下这两个大模型
|
![]() |
27
GuluMashimaro 6 天前
|
![]() |
28
InkStone 6 天前 ![]() @Linyz 还可以参考一下 openrouter 上的 ranking ,https://openrouter.ai/rankings/programming?view=week
个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指,让我用我是一点都用不下手,能排到这么前面应该说明了实践中表现确实很好。 |
![]() |
29
daodao 6 天前
claude 3.7 sonnet ,gemini 2.5 pro
|
![]() |
32
huiyadanli 6 天前
Claude 3.5 Sonnet
3.7 实际使用下来提升并不明显 |
33
jonsmith 6 天前
cursor 上 claude-3.7-sonnet 模型的使用体验更好,能写出符合预期的代码,可能工程能力更好点。
gemini 2.5 pro 明显智力更高,用来回答一些技术问题或者写一些独立的代码块。 |
![]() |
34
viking602 6 天前
claude 3.7s 目前代码工程最好的
|
![]() |
35
jiangbingo 6 天前
请问楼上诸位,你们在编辑器如何使用 gemini 2.5 pro ?
|
![]() |
36
wufumina 6 天前
我个人提名一下 grok3
|
![]() |
37
dcatfly 6 天前
@MagicalCarl 这个榜单类似于跑分,可能可以参考为解决单个问题的能力,但在真实的工程上下文层面体感还是有区别
|
![]() |
39
dcatfly 6 天前
@dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个
|
![]() |
40
jonty 6 天前
@jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务
|
41
leehaoze98 6 天前
日常主要用 cursor 编写代码,一般情况用 Claude 3.7 足矣,复杂情况下 3.7 写出的代码不 Work ,换到 4.1 会有概率解决。
再不 work 的情况,需要把背景、问题说明白,贴给 chatgpt ,多轮交互中,chatgpt 能给出一个 work 的方案 |
![]() |
42
cheman 6 天前
claude 3.7 sonnet ,gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下,ds v3 性价比好点,我用来开发小程序够用。如果想找便宜的 key ,可到 https://api.xlap.top 结合 vscode roocode 使用。
|
43
Kason333 6 天前
claude
|
44
sweat89 6 天前
就每一个人用 Grok3 ?
我觉得蛮好用的 |
![]() |
45
shellcodecow 6 天前
claude-3.7-sonnet 用来写脚本和代码很不错
|
46
jonyJJ 6 天前
Grok3 挺好用的,51 过后可以用 grok 3.5 了 美滋滋
|
![]() |
48
PositionZero 6 天前
@InkStone OpenRouter 的 ranking 只是说用的人多,不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。
aider 的这个榜不错,既有编程准确度,也有成本 https://aider.chat/docs/leaderboards/ 。 |
49
eroneko 6 天前
cursor+o4-mini 很够用了,而且目前是免费的,需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方,然后丢给 o4-mini 执行。
|
![]() |
51
InkStone 6 天前
@PositionZero 这个是 benchmark 的测试结果,不是投票结果吧。说实话,相比 benchmark ,我还是更倾向于相信大家实践后做出的选择。
价格肯定有很大影响,但 openrouter 上最靠前的 3.7 和 2.5 都很贵,感觉还是能说明一些问题的。 |
52
azarasi 6 天前
gemini 2.5 pro, 1M 长上下文,很多程序都可以全部项目代码塞进去
|
![]() |
54
Gilfoyle26 6 天前
我觉的要看语言,新的语言,新的库往往不行。
AI 好像对 python ,js ,支持的比较好 |
![]() |
55
remember5 6 天前
claude-3.7-sonnet
|
![]() |
56
OldActorsSmile 6 天前
claude-3.7-sonnet-thinking
|
57
mumbler 6 天前
无脑 gemini 2.5 pro 即可,其他模型都差 gemini 一大截
|
![]() |
58
silencelixing 6 天前
|
60
Plutooo 6 天前
太久没看这方面内容了,没想到 gemini 都后来居上了
|
![]() |
61
zhy0216 6 天前
claude-3.7-sonnet 第一
这个测评 https://roocode.com/evals |
![]() |
62
liulicaixiao 6 天前
@sweat89 大家都是在编辑器里用,grok 3 的 api 出的太晚了,而且不在默认模型里
|
![]() |
63
RoccoShi 6 天前
claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点,但是后者上下文更长,可以一起用
|
64
599lee 6 天前
个人觉得 grok 3 和 claude 3.7 比较强,偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ,它不用我给的数,它自己编,非常优秀👍
|
65
lnmxy 6 天前
qwen3
|
![]() |
66
amazingfate 6 天前
gpt4.1 吧 用着比 claude3.7 舒服。
然后还可以用 gemini 2.5pro 二次写,可以写很长也很准。但是 gemini 指令遵循不如前两者。 |
68
xinru 6 天前 via iPhone
关注一下代码 AI 工具推荐
|
![]() |
69
anivie 6 天前
Gemini 2.5pro ,我的体感是断崖领先其它所有,包括 claude ,claude 又要领先剩下的一轮
|
![]() |
70
zisen 6 天前 via iPhone
claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案,也不管用户表达的是不是真的这个意思,反正一股脑儿输出就完事了
|
71
Vancion 6 天前
应该把具体哪种语言也带上吧
|
![]() |
72
kergee 6 天前
grok3 150 美金感觉赚了
|
![]() |
73
twinsant 6 天前
|
![]() |
74
abellis 6 天前
一个稍微复杂点的 sql 查询,同样的描述,只有 Gemini 2.5pro 一次给出了正确答案,claude ,gpt 管头不顾腚,总是差一点
|
75
Wkj1998 6 天前 via Android
Claude3.7 、Gemini2.5Pro ,前者比较老实,老老实实按照你的需求编写代码,后者经常有自己独特的想法,一个编码需求,Claude3.7 输出 12 行代码,Gemini2.5Pro 会把各种因素考虑进去,最后给你输出 32 行代码
|
![]() |
76
klo424 6 天前
我一般用 Cursor 的 Claude3.7
|
77
wnpllrzodiac 6 天前 via Android
c++大项目,修 bug 哪个模型好?
|
78
wnpllrzodiac 6 天前 via Android
qt 有界面图,想把界面用 ui 文件复刻出来,哪个模型好
|
![]() |
79
dreamage 6 天前
截至目前 claude 41 票 gemini 39 票 遥遥领先
|
80
xz410236056 6 天前 ![]() @TanKuku 目前感觉 2.5pro 强于克劳德,但是有时候降智
|
![]() |
82
XuanYuan 6 天前
我以前用 Claude ,现在用 Grok
|
![]() |
83
NATransfer 5 天前
gpt 4.1o 不错
|
84
csfreshman 5 天前
编码能力个人用过的最好的应该是 Claude 3.7 Sonnet
|
85
Daybyedream 5 天前
gemini 2.5 pro 好像也还行
|
![]() |
86
seven777 5 天前
@locoz #18 "上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高" 这个有测试经验?😁
我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病. |
87
hunk 5 天前
我粗糙的以为,新出的会更好一点点,学习的资料不断增加,所有显示出有差异,但基本书写,应该差别不大。
现在选型是难,不断有新东西,难以决断。 |
88
Strive123456 5 天前
@totoro52 yes
|
89
jamos 5 天前
claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个, 怎么使用呢,买 api 还是免费撸
|
![]() |
90
quietDown 5 天前
claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个,gemini2.5pro 在上下文表现上更强,claude3.7 我个人感觉在一些项目设计上会更好一点,我会拿来设计技术方案,但是最近时长感觉降智。目前两个会结合着用。
|
91
testisgood 5 天前
我以前对比过 claude-3.7-sonnet 和豆包,明显 claude 强很多,于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意,于是试用了一下 deepseek 和 qwen3 ,结果发现,起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。
|
![]() |
92
silenceboychen OP |
![]() |
93
locoz 5 天前
@seven777 #86 是实际试过得出的结论,这种场景理论上 gemini 2.5 pro 上下文长,理应输出结果更好,但实际会因为它喜欢忽略一些“不重要”的东西,并且指令遵循性比其他的稍弱,就导致结果反而会犯病;而 claude 3.7 在上下文过长的情况下也会忽略一些东西,导致出问题。但 gpt o3 可能是内部有工程优化之类的处理,基本还是能不犯病输出。
gemini 主要的问题还是指令遵循性,很多时候喜欢自作主张瞎操作,不瞎操作的话其实只要是长上下文都可以用 gemini 。 |
![]() |
94
eBPF 5 天前
- https://aider.chat/docs/leaderboards/
- https://openrouter.ai/rankings/programming?view=month |
![]() |
95
paynezhuang 5 天前
写代码用 claude3.7 ,问问题用 grok
|
![]() |
96
Memoriae 5 天前
首先排除掉所有蒸馏模型,幻觉偏差太严重,综合来看 gemini 2.5 pro 不错。
|
98
skymanv2 5 天前
请问你们的大模型是怎么调用的?是用 cursor 里面的吗?
|
![]() |
99
sickoo 5 天前
主要 claude3.7 但是不能拖太长,幻觉特别严重,最主要还是一不小心往里面塞屎
|
![]() |
100
malagebidi 4 天前
claude 3.7 强于 gemini 2.5 pro
|