如何把本地文件作为大模型的知识库

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 50 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，我这有大量的图片内容，PDF ，Excel ，以及 PPT 文件，我看很多大模型知识库需要上传文件，有没有方法可以不上传，直接读取文件然后做成大模型的知识库？

本地文件

大模型

知识库

8 条回复 • 2025-04-17 14:59:01 +08:00

concernedz

50 天前

dify ？

jiangbingo

50 天前

文档需要预处理，并且使用嵌入模型进行 indexing 啊，不然如何根据问题去查询？

YJi

50 天前

RAG 的主要流程是你上传文件后解析进行向量化，然后通过你的提问从向量数据里找到相关数据做重排序再作为补充资料让大模型分析输出给用户。你说的不想上传如果是不想暴露私有数据，那你本地部署模型做这一套东西就好了。

iOTOi

50 天前

@YJi 也不是不想暴露数据，就是本地文件太多了，图片内容有上百 T ，我觉得应该是将本地的图片进行整理做成文本信息，然后将文本类上传。还是需要在本地部署一个模型。

iOTOi

50 天前

@jiangbingo 做本地大模型它也需要上传的动作么？

iOTOi

50 天前

@concernedz 不太懂各家的模型搭建

jiangbingo

50 天前

大模型跟嵌入模型不是同一个东西，嵌入模型是实现文档 indexing 和 query 。大模型是重写 query ，根据提示词，查询嵌入模型召回的 embedding 来组织回答。

YJi

50 天前

@iOTOi #4 上传这个动作是为了把数据向量化，然后做向量检索找到自家内部知识里与问题相关的信息。所以你不用纠结上传这个动作，如果你自己的数据已经向量化好了，只需要在回答问题前先从向量库检索数据作为辅助内容问大模型就好了，这是之前在论坛看到 V 友分享的链接，你可以看看有助于你理解 RAG https://www.bestblogs.dev/feeds?collection=rag