Gemini 2.5 Pro 代码水平已经能与腾讯 T7 相媲美了

3 天前
 W3Cbox
最近有幸提前体验了 Gemini 2.5 Pro 的一些代码相关能力,说实话,我的感受非常震撼。
实测下来,这玩意儿的进化速度简直让人后背发凉 ,不是危言耸听,它已经能完成很多我原本以为只有资深工程师才能搞定的任务了。
尝试了一些 LeetCode Hard 级别的问题,或者一些涉及特定算法、数据结构、并发编程的复杂场景描述,Gemini 2.5 Pro 不仅能快速理解问题,生成正确且高效的代码,很多时候还能提供多种解法或优化思路。这已经超出了早期模型仅能拼凑代码的水平,它似乎真正“理解”了问题的结构和解决方案。
我把一些自己早年写的、略显混乱或性能不佳的代码段丢给它,让它进行优化或重构。
它能精准地指出代码中的问题(如冗余逻辑、潜在 bug 、性能瓶颈),并给出清晰、可行的重构方案和优化后的代码。这种对代码结构的“嗅觉”和优化能力,确实是资深工程师才具备的。


最后想问大家:如果以后的 AI 真的能写出达到腾讯 T9 水平甚至阿里 p9 的代码水平,你会选择和它合作,还是转行?
12247 次点击
所在节点    程序员
96 条回复
wowsimon
2 天前
@datou 哈哈一样
NotLongNil
2 天前
幻觉太多了,都得自己再验证一遍。复杂点的需求基本都有坑
dcatfly
2 天前
是这样的,感觉 gemini 2.5pro 和 claude 3.7 已经能完成大部分普通的前后端开发工作,瓶颈在于用户能否清晰准确的描述需求,以及如何让 AI 写出的代码与项目所使用的库的版本相匹配
dcatfly
2 天前
HUZHUANGZHUANG
2 天前
会员都可以白嫖了,我也用了好几天了,也有上传项目代码的功能, 确实不错。
MacsedProtoss
2 天前
别的不说,你确定阿里 P9 有啥代码水平?
& 其实做业务本来代码就那样,像 T7 这种重点不是代码怎么样(代码水平从进来开始就已经需要达到一定标准了),T7 应该是已经可以基本做到独立完成整个流程中的所有工作,并且能做出优化之类的
letitbesqzr
2 天前
哥 你太看得起腾讯 t7 的编码能力了。。
BernieDu
2 天前
@Felldeadbird 2.5 pro 降智了,没最开始好用,cursor 也官方说了这个问题。
povsister
2 天前
如果你做到 T8 T9 还是在研究代码结构,解决 leetcode 类似的场景问题,那被 AI 取代也并不奇怪。
kupanda09
2 天前
p9 不写代码,写代码的巅峰是 p7 ,真有 p9 能力,那 ai 就可以无中生有,那时候 ai 肯定代替人类了
009694
2 天前
写代码最重要的是单个难题的解决吗? 不是。 是整个系统问题的解决,系统问题里的每个点互相缠绕最后能取得平衡。
zhw2590582
2 天前
不理解,是腾讯 T9 和阿里 P9 写的代码比 Gemini 强吗?
aloxaf
2 天前
现在这些大模型给我的感觉就是:富有经验,但沉溺在自己经验里的工程师,一旦跳出它的舒适圈,就很难绷。

前几天有段 Rust 代码想重构一下,是用 async + rayon + opencv 对一批图像进行处理。

由于把 async 和 rayon 混在一起比较麻烦,我一开始选择是每个 task 把“所有”图片处理完再进行下一个 task ,大概像这样 async task1 (过滤) -> rayon task2 (多线程计算) -> async task3 (收集),但这样显然效率不高,应该流式处理更合适。

然后我就试了让 gemini 2.5 pro 和 claude 3.7 sonnet thinking 帮我重构一下,我解释了这段代码在干啥,我为什么这么写,我现在希望重构成哪种效果……

结果惨不忍睹,它们做的事情包括但不限于:
1. 先计算,再过滤收集——即使我强调过计算非常慢
2. 把计算任务也全部放到异步 task 里——你觉得我为啥要特地拆成三个 task
3. 遇到所有权和生命周期问题就是一通乱改,改了几次过不了就全部重写(??)
……

最后为了预防高血压,还是自己写了,其实就是把 rayon 换成一个线程池,然后三个 task 之间用 channel 通信。就这么个简单的任务,这些刷起题来比我强到不知到哪里去的 AI 硬是没做出来。
parad
2 天前
根据我的测试,GPT-4.1 编程能力和输出质量明显高于 Gemini 2.5 Pro 。输出比 Gemini 更专注和精简。
g1eny0ung
2 天前
> 最后想问大家:如果以后的 AI 真的能写出达到腾讯 T9 水平甚至阿里 p9 的代码水平,你会选择和它合作,还是转行?

什么时候 title 也能算是代码水平的体现了? GitHub 上那么多巨牛,拿这些人比一比我觉得才恰当吧。众所周知,大模型现在欠缺了巨量上下文的能力,作为一个合格的程序员,对于熟悉的项目,我的脑子里能含有几十 w 行 token 的容量,AI 目前还不可以。目前我个人体感,在恰当的引导下,AI 对单步需求的完成度还是比较不错的,后面的效果还得继续观察。

假如 AI 真能在一个几十 w 行 token 得项目下掌控雷电,那我肯定会选择与它合作,因为我在现实中很难找到这种朋友。
davis2023
2 天前
llm 从 22 年开始算,现在才第三年,SO 如果再给 5 年时间,会达到什么水平???
akakidz
2 天前
claude 3.7 实测更好用
Donaldo
2 天前
我认识的 T10 都在高强度用大模型写代码,你还在跟 T7 比。。
taine221
2 天前
OP 至少同时对 “代码质量” 和 “T9 / P9” 都没什么了解
shanks
2 天前
说白了,AI 就是站在训练语料库上才能达到一定高度,一旦公开信息少,基本就是瞎子。这样一看,其实就是提高了搜索效率(工作效率),但是并没有什么创造性的东西。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1130938

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX