V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iOTOi
V2EX  ›  机器学习

如何把本地文件作为大模型的知识库

  •  
  •   iOTOi · 50 天前 · 1137 次点击
    这是一个创建于 50 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,我这有大量的图片内容,PDF ,Excel ,以及 PPT 文件,我看很多大模型知识库需要上传文件,有没有方法可以不上传,直接读取文件然后做成大模型的知识库?
    8 条回复    2025-04-17 14:59:01 +08:00
    concernedz
        1
    concernedz  
       50 天前
    dify ?
    jiangbingo
        2
    jiangbingo  
       50 天前
    文档需要预处理,并且使用嵌入模型进行 indexing 啊,不然如何根据问题去查询?
    YJi
        3
    YJi  
       50 天前
    RAG 的主要流程是你上传文件后解析进行向量化,然后通过你的提问从向量数据里找到相关数据做重排序再作为补充资料 让大模型分析输出给用户。 你说的不想上传如果是不想暴露私有数据,那你本地部署模型做这一套东西就好了。
    iOTOi
        4
    iOTOi  
    OP
       50 天前
    @YJi 也不是不想暴露数据,就是本地文件太多了,图片内容有上百 T ,我觉得应该是将本地的图片进行整理做成文本信息,然后将文本类上传。还是需要在本地部署一个模型。
    iOTOi
        5
    iOTOi  
    OP
       50 天前
    @jiangbingo 做本地大模型它也需要上传的动作么?
    iOTOi
        6
    iOTOi  
    OP
       50 天前
    @concernedz 不太懂各家的模型搭建
    jiangbingo
        7
    jiangbingo  
       50 天前   ❤️ 1
    大模型跟嵌入模型不是同一个东西,嵌入模型是实现文档 indexing 和 query 。大模型是重写 query ,根据提示词,查询嵌入模型召回的 embedding 来组织回答。
    YJi
        8
    YJi  
       50 天前   ❤️ 1
    @iOTOi #4 上传这个动作是为了把数据向量化,然后做向量检索找到自家内部知识里与问题相关的信息。所以你不用纠结上传这个动作,如果你自己的数据已经向量化好了,只需要在回答问题前先从向量库检索数据作为辅助内容问大模型就好了, 这是之前在论坛看到 V 友分享的链接,你可以看看有助于你理解 RAG https://www.bestblogs.dev/feeds?collection=rag
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2626 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:05 · PVG 20:05 · LAX 05:05 · JFK 08:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.