中型公司,大概 100 人,实际使用的大概 20 人左右。 第一步是搭建 DeepSeek 70B 的模型。 第二步是在它的基础上,将公司内部的相关文档、知识库喂给它,进而训练出我们公司自己的模型。
请问,20 人使用的情况下跑 70B 的模型,需要什么配置? 训练它又需要什么样的配置?
![]() |
1
MrLonely 50 天前
顶配 Mac Studio 是它所在的那个价位的最佳 LLM 性能。我只知道训练普遍是比推理要高一个数量级的硬件的。
|
![]() |
2
tool2dx 50 天前
70B 的模型,只需要买两块 A6000 GPU 就能跑了吧。
知识库不用训练,用一个本地嵌入模型,把文件向量化就够了。 如果训练,第一你源数据一定要整整齐齐,第二听说很容易训练后降低智商。 |
![]() |
3
calmlyman 50 天前
按阿里云文档里,给的最低配置是 2 卡 GU120 ( 2 * 96GB 显存)
|
4
wxm1997 50 天前
70b 模型 BF16 精度 2 张 a100/a800 ,int4 要 1 张,买不到可以换成 4 张 4090
|
![]() |
5
wxw752 50 天前
训练?部署 dify ,文档塞到知识库里,直接就可以配合大模型问答了。
|
6
terranboy 50 天前
啥叫知识库喂给他 目前很多企业这 2 个搞不清楚, 企业私有知识 RAG 难点在于资料整理, 多模态的资料如何识别
|
![]() |
7
frayesshi1 50 天前
喂给它是不是 OP 想训练模型,训练大模型一般万卡以上。很多训练和部署推理没有搞清楚,机器学习或者深度学习本质就是一个方程,训练是根据样本求方程的参数,而推理是把 x 值带入方程求出结论,用 DS 的模型就是用别人的参数,把问题带入模型得到结论。
|
8
mumbler 50 天前
deepseek 70B 并不好用,推荐 qwq 32B 或者 gemma3 27B ,可以直接跟 deepseek 671B 满血打的
本地部署大模型+知识库的一键安装包: qwq.flashai.com.cn gemma3.flashai.com.cn |
![]() |
9
coefuqin 50 天前
2.2 你们没有那个实力做到,搞个 rag 顶天。不要想太多。
|
![]() |
10
coefuqin 50 天前
@frayesshi1 他可能以为,训练 70B 的模型就像使用 elasticsearch 那么容易。就算微调 70B 的模型都够呛。
|