求推荐一个可靠的 AI 知识库

114 天前
 heirtheloong

需求大概如此:投入文档后,AI 根据文档回答问题,尽量准确全面。

随着 AI 发展,出现很多知识库问答工具,但我试用后发现不如人意,拿来做客服或者公司的问答机器人还行,能糊弄一下,可真要投些需要上下文关联回答的问题,不是找不到就是乱说。

我真的很希望有这么一款工具,哪怕付费,能根据我的知识库给出准确回答,可看做一个加强的搜索引擎,因为写的东西多了,收集的资料多了,后面只有一个印象时再找真的很费时间。如果能用 AI 解决,那会省很多时间。

再比如读书,很多书没必要细读,只是工具书一类,如果也能丢进去提问,让 AI 指出页面,那能省很多时间。

可我试用了ChatDOCChatPDFHumata这些工具,都不如人意,AI 的水平还只是机械的找关键词,稍微要些上下文的就不行。一些国内的服务则更差,开源的几个工具也相差无几。还是停留在淘宝 AI 客服类型人的那种水平。

上面三个服务中最好的是 ChatDOC ,我丢了一篇《风云・惊世少年》第一章,然后提问,一些问题确实能给出答案,但一些问题找不到,还有些根本就是错的。这种提问不像拿 AI 编程,编程可以反复试,一点点调试,这确实省了时间,可提问得到的答案如果错了,写进文章是要被人骂的。如果用于更严谨的领域显然也不可靠。

我想知道,是我没找到正确的工具,还是我没用用好已有的工具,还是说 AI 的水平根本就这样。

ChatDOC 测试如下:

聂人王用的是什么武器?

聂人王使用的武器是名为“雪饮”的宝刀。这把刀被描绘得华丽而沉重,是他昔日的骄傲与象征,但在故事中,它却被遗弃在暗室中,暗示着聂人王的衰落和他所经历的种种变故。

简单介绍一下雪饮

雪饮是一柄不平凡的宝刀,刀长三尺七寸,锋刃无瑕,其外观曾显赫一时,能够斩下无数高手的头颅。然而,如今的雪饮却积满了尘垢,被随意挂于阴暗的一角,周围则是一些普通的农具,展现出其昔日光辉的消逝[1]。这柄刀不仅是武器,更承载着聂人王家族的荣光与困扰,象征着曾经的辉煌与现今的落魄[6]。对于聂风来说,尽管他还小,但对这把刀的力量充满了好奇,渴望能够像父亲一样掌握它[1]。

聂大嫂是谁?

聂大嫂是聂风的母亲,名叫颜盈。她是一位美丽的女性,文中描述她有着令人惊艳的外貌,并且在家庭生活中承受着对过去辉煌时光的怀念与对现状的不满。在文章中,她表现出对丈夫聂人王的失望,并通过做家务来抒发内心的怨恨和不满。

断帅用的是什么武器?

根据文档内容,断帅所用的武器是剑。文中提到他是“南麟剑首”,这表明他精通剑术,并且在多个段落中提到了他的剑术修为及对对手的挑战。

火麟剑是谁的武器?

火麟剑是聂人王的武器。在文中提到,聂人王是曾经叱诧一时的天下第一刀客,火麟剑作为他的武器,象征着他曾经的辉煌和武林地位。

那你为什么之前说聂人王用的是雪饮刀?

文中提到聂人王是“北饮狂刀”,而雪饮是他的宝刀。雪饮刀在文中被描绘为一柄绝世的宝刀,与聂人王的身份和过去的辉煌密切相关[1]。同时,雪饮除了是聂人王的武器,也是其家族荣光的象征,承载着过往的辉煌和现状的困扰。因此,提到聂人王时,自然会提到他使用的雪饮刀。

火麟剑到底是谁的武器?

在文中并没有直接提到“火麟剑”的具体信息和归属,然而提到了一个名叫“断帅”的角色,他是南麟剑首,修为极高,对聂人王的到来感到喜悦。不管是“火麟剑”还是“南麟剑”,文中并没有解释其具体的关联或归属。因此,无法根据当前文档内容回答火麟剑是谁的武器。

其中关于火麟剑的归属,其实文中已有,只是 AI 没能提取出来:

这里有个简单推理:拿火麟剑的人是南麟剑首⭢断帅外号“南麟剑首”⭢断帅的武器是火麟剑。可 AI 没完成,偏机械了。我也试着用 Obsidian 结合 AI 插件,在本地完成向量,提问 CHATGPT ,得到的答案也有类似问题,甚至更差。

如上,希望有有大佬能解答一下这些困惑。

3321 次点击
所在节点    奇思妙想
25 条回复
shark000
46 天前
楼主有找到好用的工具了吗,cherry studio 怎么样
heirtheloong
46 天前
@shark000 显然没有,现在的大模型能力有限。这么解释吧:

当前大模型有上下文限制,而一本书显然超过这个限制,更别说知识库了。所以要让 AI 读书、读知识库,必须进行向量。但向量化后,AI 也做不到读你给的书,因为上下文仍然超过了他的上下文长度,所以 AI 只会在其中搜索跟你提问相关的段落,读一部分。

这会带来什么问题呢?向量本质就是“切”文本,把文本切成长短不一的部分,在向量空间展示他们间的关联程度。所以一定会丢信息,不管你切得多“碎”,都会丢信息。所以这东西配合 AI ,本质就是个高级模糊搜索,还因为丢信息,实质体验并没有那么好。

举个例子,你需要的信息刚好包含在 AI 允许的上下文长度中,把这段文本丢给 AI ,一般能问出你要的结果。可如果你把这段文本丢进知识库,向量化后,再问 AI ,AI 就不一定能给出正确的答案了。

这种程度的都做不到,那么一些更高级的就更不要想了,比如:

1. 我有一本书,相关人物的信息散见于各章节,我想让 AI 帮我整理该人物地设定。做不到,因为 Ai 本质只是在向量空间中找这个人物关联高的词,再读对应段落,做个大致总结。他不可能像人一样那么细致,更别说作者对同一个人物还有不同称呼,人能理解并予以总结,但 AI 不行。

2. 需要推理的时候。比如你建立几个人物页面,一个页面说 A 是 B 的儿子,另一个说 B 是 C 的儿子,都很长。现在你问 AI ,A 和 C 是什么关系? AI 未必能答得出来。因为 AI 的推理只限于他的上下文长度内,当需要推理的信息混杂在知识库中,他首先难以找到对应信息,再一个找到了也未必能推理得出来。

以上体验基于 Obsidian 的 SmartComposer 插件,用 OpenAI 的 text-embedding-3-smal 向量化我的知识库后,再用 DeepSeek-R1 和 gpt-4o-mini 提问得到的一些体验。用于提问的文本基本来自《猎魔人》的 wiki ,这已经相当规范的文本了,如果你的文本质量还不如这个,我估计使用体验想必难以保证。

我对 AI 的理解可能也有误,如果有专业人士可以指出,但想来现在的大模型可能真的只有这个水平了。

如果你确实有需求,可以用我的组合,至少能当个稍好的模糊搜索,多的就不能指望了。
shark000
45 天前
谢谢,我正想把一些写过的一些材料向量化,然后用大模型写作
@heirtheloong
PositionZero
35 天前
@heirtheloong #8 有试过 MiniMax-Text-01 么,上下文是 Kimi 的两倍,个人体验长文本比 Kimi 好得多
heirtheloong
27 天前
@PositionZero 喜大普奔!谷歌新出的 Gemini2.5Pro 极为逆天,其上下文长度达到了惊人的 1048576tokens !我测试可以丢给他 5 本《猎魔人》并全文阅读!这意味着其理解、整理能力远不是向量+搜索+丢相关内容给模型+提问这种工作流能比的!他能够很好地完成各种模糊搜索、整理、提问工作!

真的没想到,大模型发展得这么快,竟然用一种我没想到的方式解决问题:直接提升上下文长度。

建议有需求都去试试,这种上下文长度已经完成可用了,目前网页端开放白嫖,只要一个米国节点。极为强大,完全不是市面上那些知识库工具能比的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1102252

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX