Gemini 大概是所有 LLM 里最能张口就来的,把不存在的功能文档、示例代码都编得非常详细,还非常嘴硬,为什么排名能这么高

116 天前
 drymonfidelia
Avalonia 群里看到的聊天记录,用的是 02-05 模型,红字批注是我加的
我尝试复现了但没他这个离谱,就用他的图了,但我测试出来的结果也是全瞎扯的,没有一行代码能用
这种不是特别热门的 UI 框架的问题所有 AI 都答不好,但能答成这样也是我没想到的



追问继续编



连示例代码都有



可惜没一个能用



提出疑问后 “非常确定”



还详细编出了排查方案



连原因都给你编的清清楚楚





第一个链接不知道哪找的废弃域名,里面的链接全是 404

源代码我也搜了,连 Camera 都没有
7625 次点击
所在节点    程序员
57 条回复
Int100
116 天前
最能扯淡的就是 gemini ,早就避而远之
cnrting
116 天前
更难泵是竟然还有人推(吹)
drymonfidelia
116 天前
@Int100 我用这个问题测试了 Claude Sonnet 和 GPT 4o ( Plus 刚到期不想续了,感觉 o3 也差不多)也都在混入其它 UI 框架的代码,但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了,还能把全套证据都编出来
weazord
116 天前
但代码类本来就算是 Gemini 的弱项,排名不高啊。。 看起来现在代码类仍然是 Sonnet 3.5 最好用?

比如 webdev ? https://web.lmarena.ai/leaderboard

Gemini 属于日常用着方便
lovestudykid
116 天前
决定怎么用工具的是你,比如你可以把文档提供给它
ZeroClover
116 天前
因为猜测文本本来就是 LLM 的作用,编得看起来很合理并不奇怪。

另外 Gemini 在英文和非英文下的差距比较大,代码任务用英文 Prompt 效果会好上不少

另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ,受限于训练集,本来就可能导致效果不佳
silverwzw
116 天前
本质上 LLM 的任务是 对你给定的输入,生成输出字符串,使得输出字符串尽可能像人类的回应。
nomagick
116 天前
而 GPT 就不一样了,GPT 属于是冥顽不化
RoccoShi
116 天前
实测目前在编程领域最好的还是 claude ,就算不会也不会瞎说。
crackidz
116 天前
LLM 的常见问题,幻觉严重。开了 Grounding with Google Search 的话会好一些
kzfile
116 天前
对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码
anzu
116 天前
感觉可能用于训练的中文语料较差,某次 Gemini 给的代码中居然有中文变量名和函数名,虽然也不是不能运行吧……
andrew2558
116 天前
Gemini 代码的确不太行,代码还是 Claude 最强
Felixchen1062
116 天前
代码类型的问题, 把模型温度控制在 0.5 以下再试试

Quote from 知乎:
当模型的「温度」较高时(如 0.8 、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。而当「温度」较低时(如 0.2 、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。但此时,生成的文本可能会显得过于保守和重复。

Quote from Deepseek:
Temperature 设置
temperature 参数默认为 1.0 。

我们建议您根据如下表格,按使用场景设置 temperature 。
场景 温度
代码生成/数学解题    0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5
idragonet
116 天前
Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。
ptstone
116 天前
用过一次,优点是速度输出是最快的,没有之一,缺点是答案全 tm 是错的
yushi17
116 天前
不要用中文 完毕
coderlxm
116 天前
我对比过发现用英文给的答案我会更满意一些,虽然也有错误,但是尽量还是不要用中文了。
mingtdlb
116 天前
我觉得最难用的 LLM ,v2 上还很多人推荐
jonsmith
116 天前
gemini flash 2.0 确实垃圾,不如之前的 2.0 体验版。回复快是真快,但是容易胡说八道,哈哈。我猜他们比较看重速度,某些参数调的太过了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1110486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX