请教知识库搭建

109 天前
 blackbookbj277

最近 DS 火了,领导说本地化部署一个,把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧,都放上去,然后让大模型学习,通过问答来应用。 我大概了解了下,这种应该训练大模型的方式,只是应用大模型吧。 我下载的 DS 部署的离线版本,搭建的知识库也只是对上传文档内容的分析,大模型无法通过我提供的数据分析给适合我们的答案吧。 语言组织有点混乱,见谅。

2111 次点击
所在节点    问与答
11 条回复
lzoje
109 天前
RAG 知识库
murmur
109 天前
正规的知识库要拆段的,拆的越细越好,问题 答案 问题 答案这样,如果让 AI 去理解效果不好
lthon
109 天前
搜索一下 RAG 了解下
ihainan
109 天前
你可以拿一个现成的 RAG 框架,比如 Dify 、RAGFlow 搭建一套 RAG 系统,把你的数据传上去建立知识库,设置 LLM 、Embedding 和 Rerank 模型的地址,用提供的 RAG 工作流模板快速搭建,试试看效果如何,有更高的要求再考虑修改工作流或者自己开发。
mumbler
109 天前
deepseek.flashai.com.cn
在这里直接下载一个包,解压,运行就可以在本地自动部署大模型+知识库,不需要任何配置

mark.flashai.com.cn
测测一下你的电脑能跑什么大模型
uprit
109 天前
大多数领导想要的:资料扔给大模型让他学,然后多了个内部专家给你们用。
一般人实际能实现的:检索资料库,检索结果追加到提示词里,一起扔给大模型。
前者实际操作需要微调训练,成本巨高,技术难度也大,最终效果不一定好。对的数据集要求很高。
后者实际是个退而求其次的思路,搞 RAG ,成本低,容易操作,但实际并没改变大模型原本的性能,每次都得引用,而且没“记忆”,同时搞这个事情对资料库的整理要求极高,实际性能也不咋地,大概率搞了之后效果稀烂。
结论:别对 AI 期望过高。
lyping
109 天前
@uprit 如果是一些标准文件,国家标准,里面有各种条款。。这种用什么方案比较好呢
halobugTurbo
108 天前
别期望太高了。前段时间有个类似需求,数据比较杂有文本,图片,PDF ,视频等。数据清洗后,永远达不到领导预期的,说的最多的问题:回答的内容为什么不准?为什么不全?这个问题回答应该包含某个内容!
uprit
108 天前
@lyping 如 2L 所说,拆成问答对,越细越好。这个工作量很庞大。
RAG 的效果依赖于检索,如果每次都能检索出少量且精准的内容,一起提供给模型参考,效果会好一些。
supuwoerc
108 天前
dify 差不多就满足了
registerrr
103 天前
@uprit #9 这不就真成“人工”智能了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1112354

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX