如何把本地文件作为大模型的知识库

50 天前
 iOTOi
如题,我这有大量的图片内容,PDF ,Excel ,以及 PPT 文件,我看很多大模型知识库需要上传文件,有没有方法可以不上传,直接读取文件然后做成大模型的知识库?
1140 次点击
所在节点    机器学习
8 条回复
concernedz
50 天前
dify ?
jiangbingo
50 天前
文档需要预处理,并且使用嵌入模型进行 indexing 啊,不然如何根据问题去查询?
YJi
50 天前
RAG 的主要流程是你上传文件后解析进行向量化,然后通过你的提问从向量数据里找到相关数据做重排序再作为补充资料 让大模型分析输出给用户。 你说的不想上传如果是不想暴露私有数据,那你本地部署模型做这一套东西就好了。
iOTOi
50 天前
@YJi 也不是不想暴露数据,就是本地文件太多了,图片内容有上百 T ,我觉得应该是将本地的图片进行整理做成文本信息,然后将文本类上传。还是需要在本地部署一个模型。
iOTOi
50 天前
@jiangbingo 做本地大模型它也需要上传的动作么?
iOTOi
50 天前
@concernedz 不太懂各家的模型搭建
jiangbingo
50 天前
大模型跟嵌入模型不是同一个东西,嵌入模型是实现文档 indexing 和 query 。大模型是重写 query ,根据提示词,查询嵌入模型召回的 embedding 来组织回答。
YJi
50 天前
@iOTOi #4 上传这个动作是为了把数据向量化,然后做向量检索找到自家内部知识里与问题相关的信息。所以你不用纠结上传这个动作,如果你自己的数据已经向量化好了,只需要在回答问题前先从向量库检索数据作为辅助内容问大模型就好了, 这是之前在论坛看到 V 友分享的链接,你可以看看有助于你理解 RAG https://www.bestblogs.dev/feeds?collection=rag

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1126159

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX