国产 AI 推理服务器的适配难易程度问题

2024-04-22 15:58:23 +08:00
 dododada

上文: https://v2ex.com/t/1032607#reply7

鲲鹏 920 * 2/ 512G 内存/20T 固态 / 昇腾 Atlas 300I Pro 24GB * 4 的价格 30W+

海光 7360 * 2 / 512G 内存 / 20T 固态 / 寒武纪 MLU370-S4 24GB * 4 价格 17W+

另外就是机箱、电源、光模块、网卡之类的了。

我们用到的模型就是这些:

Yolov8 目标识别 Opencv ocr scrfd partial_fc yolov8-seg

经过痛苦的对比和问价,现在决定采购,领导让评估一下算法移植需要的时间。

苦于团队没有做过国产适配,没有经验。

来问问有没有兄弟做过适配的,这些算法做完适配大概要多久

2301 次点击
所在节点    程序员
20 条回复
dododada
2024-04-22 16:47:34 +08:00
还有兄弟做过的啊
clemente
2024-04-22 17:11:12 +08:00
适配都是 AI 芯片厂商帮你们适配啊 你们负责验收
dododada
2024-04-22 17:46:40 +08:00
@clemente 怎么可能,设备都是从渠道商采购,又不是直接从华为寒武纪零买,零买的价格也不是这样子啊
forblackking
2024-04-22 17:59:32 +08:00
搞的不多给不了经验,一年多前参与过 OCR 适配昇腾 NPU ,当时评估是一个半月的适配时间,最后时间翻了好几倍且耗时与精度都劣化不少。最大的感触与上个帖子 5L 说的一样,适配的难易度取决于哪一家的工程师愿意配合你解决问题,当时由于甲方是政府部门最后拉了个微信群推动,不然就老老实实提 issue 等回复。
kwater
2024-04-22 18:07:23 +08:00
1 硬件
2 软件
3 系统集成商

你们想自己做 3 ,或者想省下 3 的钱。

对性能没需求,只求有这套东西,不会真的应用上线,开箱即用问题可能不大,
但性能微调,怎么也要个 team 吧
huigeer
2024-04-22 18:21:41 +08:00
所以直接买 nv 还是不行?
aeron
2024-04-22 19:10:44 +08:00
@huigeer 国内现在国企央企在搞国产化,基本都不采购 nv 了
mirrorman
2024-04-22 19:15:50 +08:00
@forblackking 推理适配都这么麻烦吗?推理一般就是几个算子适配,相对于训练来说很单一
forblackking
2024-04-22 19:58:47 +08:00
@mirrorman 大概率是适配的比较早的原因文档和样例不全,踩了各种模型转换和 Pipeline 的坑,最搞的是文档上有的功能不能复现一问才知道是在内部开发版驱动里没正式发版。。。
dododada
2024-04-23 08:49:25 +08:00
@forblackking 这么烦的么
dododada
2024-04-23 08:50:16 +08:00
@kwater 现在的算法团队只做过昇腾的调研,时间很短
dododada
2024-04-23 08:52:02 +08:00
@huigeer 不行啊,很多工厂都开始国产化了
dododada
2024-04-23 08:55:01 +08:00
@kwater 对性能有要求,要求还不低。。。
hgert
2024-04-23 10:35:41 +08:00
找国产 ai 推理卡厂商评估报价吧 省事 让领导出点血就行
twosix
2024-04-23 10:45:33 +08:00
@forblackking 确实我们也遇到过,也是拉着华为的工程师一路查一路修,倒是弄好了之后还挺稳定..不过有几个问题反馈了一直也没修复..直到之后版本都不维护了
dododada
2024-04-23 10:49:18 +08:00
@hgert 报价不是有么,一个 30W+, 一个 17W+
waringid
2024-04-23 14:44:44 +08:00
鲲鹏的 CPU 是 arm 架构,海光用的是 X86 。涉及算法移植 海光的架构理论上比鲲鹏的要容易
dododada
2024-04-23 15:40:10 +08:00
@waringid 海光自己也有 gpu ,基于 amd 的,据说可以无缝移植,但是性能实在是拉跨,而且最新款的也没见到哪个供应商有货
dododada
2024-04-23 15:49:05 +08:00
还有个问题,现在两张 4090 ,

华为官网展示昇腾 Atlas 300I Pro 24GB 的算力是 140 TOPS INT8 ,70 TFLOPS FP16

这个大概要几张才能顶的上 4090 的算力呢?

如果用英伟达的 T4, P4 什么的,我们有对标的产品,能评估出来,这个国产算力没法儿弄了
trungdieu031
2024-04-25 11:29:27 +08:00
建议如果不是强制必须用国产的话,还是上英伟达的卡好点。昇腾 上适配模型会让你适配到怀疑人生,尤其是项目交付有固定期限的情况下...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1034658

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX