虚心求教,数据量上亿的爬虫数据用什么该用什么数据库呢

358 天前
 morost

本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。

希望更换一个对于大数据量支持友好的数据库,奈何本人这方面了解的确实不多,希望各位 v 友给点建议。

10691 次点击
所在节点    程序员
77 条回复
raptor
358 天前
上亿对 mysql 来说压力不算大,优化一下库结构,优化一下查询应该就能解决,或者直接加点硬件(加内存和 CPU 或者换更快的 SSD ),钱能解决的都不是问题。
thedog
358 天前
加个 redis 做去重缓存,具体字段随便放哪个数据库
DeWjjj
358 天前
@morost mongo 切到 syscylla 就行了。
caola
358 天前
kvrocks ,可以说是 redis 硬盘版,速度大概是 redis 的一半左右,如果 nvme 硬盘还有提升空间
justplaymore
357 天前
@yh7gdiaYW 异构数据迁移方案呢?是否支持平滑迁移?服务替换数据源的过度方案?这些都是要考虑的事情。看楼主的描述,基本可以确定对数据库是不怎么熟悉的,更不要说数据迁移要注意哪些事情了。如果你是非常熟悉各种数据库的,那对你来说当然算不上“方案”,因为你已经有过丰富的经验了,对于楼主来说就是完全陌生的领域,那我在回复楼主的时候指出要注意数据迁移方案,有什么问题呢?我又不是对那种有丰富数据库使用经验的人说的。
fengfisher3
357 天前
@Jinnrry 好强,看来是大企业,我们只是几十人的小公司,自己搭建和使用的而已。
yiyufxst
357 天前
亿级理论上 MySQL 也还好啊,是否是 SSD 硬盘?索引优化
爬虫感觉更适合 MongoDB 这种文档型数据库,随时加个字段页无所谓,MongoDB 建好索引十来亿问题也不大,不过没索引就很慢
EndlessMemory
357 天前
我之前公司用的 elasticsearch
luofuchuan668
357 天前
@justplaymore 点赞👍
hewiefsociety
357 天前
其实 Mysql 也行
morost
357 天前
谢谢大伙的建议,爬虫这边与数据库这边确实不太熟,半路做的东西,认真听取了各位朋友的建议,现在第一是优化 MySQL 现有的查询吧,其次我会好好去了解大家提出来的其余的方案,斟酌一个最适合的。感慨自己需要学的东西还有很多。
morost
357 天前
@justplaymore #36 感谢老哥的解答,我们已经在复盘了
morost
357 天前
@user919lx #43 谢谢!这个建议很实用!我们会把这个链路考虑进去的
layxy
357 天前
mongo 或 es 比较省事
v2yllhwa
357 天前
postgresql 自带的分表,逻辑上可以当成一张表用
Mogamigawa
355 天前
最后选择了什么,分享一下,让我也学习一下
Mogamigawa
355 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1040896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX