GPT-4o 中文对话答非所问

356 天前
 guazila
应该是中文语料库被污染的问题,询问 gpt-4o 黄赌词汇,回复的根本不搭边,例子可以见下面的链接。

https://chat.openai.com/share/3b6490e3-38cb-4fec-b71d-badee6f13ad1

我在其它论坛看到后用 4o 测试了一下的确如此,各位有兴趣也可以测试一下。
2427 次点击
所在节点    OpenAI
11 条回复
itskingname
356 天前
我也遇到了。我问大海为什么是蓝色的。它识别出来的是一个字幕组的网址。然后回答了这个字幕组的介绍。
zylll520
356 天前
5oiR5Lmf55SoIDRvIOa1i+ivleS6huS4gOS4i++8jOavj+asoeWbnuetlOi/mOS4jeS4gOiHtO+8jOWAkuaYryA0IOayoeaciei/meS4qumXrumimA==
ccnoobs
356 天前
我试着没问题 还有 1 楼的 问题回答都挺正常的 https://chat.openai.com/share/d34db0f9-bdb4-437a-902c-54878ee94337
freak118
356 天前
肯定的啊 包括说什么 4202 年了 怎么怎么样
notwaste
356 天前
4o 的准确度是不如 4 的
byasm32
356 天前
gpt4o:你就说快不快吧!
chuchong
356 天前
是被修复了吗我现在 plus 用的 4o 复现出来回答倒也算正常了
iamsad3508
356 天前
我问第一个问题,他给我介绍中国青年报是什么
naminokoe
356 天前
测试了 OP 关于福利彩票的问题,回答没有错误
syaoranex
356 天前
这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。

用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。
syaoranex
356 天前
@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1040853

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX