虚心求教,数据量上亿的爬虫数据用什么该用什么数据库呢

358 天前
 morost

本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。

希望更换一个对于大数据量支持友好的数据库,奈何本人这方面了解的确实不多,希望各位 v 友给点建议。

10689 次点击
所在节点    程序员
77 条回复
lasuar
358 天前
海量数据(上亿)的查询问题,用 clickhouse 、tidb 、aliyun 的 adb ,来自 [实际经验] 。
vivisidea
358 天前
tidb ?
esee
358 天前
亿级就慢了吗?我用的阿里云的 rds mysql 的 1H1G 的入门款,有个表三四亿的数据量感觉也没啥影响。。不过我没啥联表的操作
iroha239
358 天前
clickhouse 吧
roundgis
358 天前
@esee 爬蟲數據庫理論上也不會有 join
LeegoYih
358 天前
ClickHouse
xieren58
358 天前
postgresql , 上亿够用...
june4
358 天前
才亿级,我的 mysql 单表几亿,一点都不慢。做好索引是关键。
mayli
358 天前
无脑 es 吧,数据量大了 水平扩展起来也方便。
或者 Cassandra 这种。
opsaid
358 天前
clickhouse 好用高效
defunct9
358 天前
mongo
1018ji
358 天前
hbase ?
cathub86
358 天前
ck
nicholasxuu
358 天前
hbase(支持大数据的 mysql 替代)
clickhouse(便宜高性能的 es 替代)
kemistep
358 天前
clickhouse, 爬虫为什么要更新数据,全部存起来,用 sql 过滤数据,上百亿都么有问题
justplaymore
358 天前
表结构、索引、查询语句先提供出来,要看你的需求场景是否是 mysql 擅长的,任何数据库都有自己擅长的领域,如果实在是需求和数据不匹配的话,才需要去考虑换数据库,换数据库还会有数据迁移的问题,上亿数据的迁移方案你有考虑过吗?
cbythe434
358 天前
什么查询场景? mysql 做文本召回? kv 查询直接 kv 存储不就行了
yh7gdiaYW
358 天前
强推 starrocks ,组里落地效果非常好
R4rvZ6agNVWr56V0
358 天前
只要不较劲,mongodb 就够了
yh7gdiaYW
358 天前
@justplaymore "上亿"这个数据量太小了,哪需要专门考虑什么方案

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1040896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX