要怎么实现快速爬取 1w 个网站呢？

如何在段时间内容实现 1w 个网站的数据采集呢？利用传统的 scrapy 实现，每个网站创建一个 spider 这种肯定是不现实的，而且也不好维护，有其他方案可以快速实现这个庞大网站采集吗？

Lockroach

48 天前

这和建立一个个人搜索引擎感觉差不多了，应该有解决方案的

baozaodexiaomila

47 天前

谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

baozaodexiaomila

47 天前

@Lockroach
谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

jamos

47 天前

如果 1 万个网站页面规则不一致，你就需要通用的解析库，根据我的经验，没有完美的解析方案
1. 用 BeautifulSoup 太重，效率不高
2. 用 re 是最快的，写规则也是最麻烦的

这个规模并发应该不是大问题，用 redis 手数据，mongodb 存数据

后面的去重才是真正的考验

ila

47 天前

主要是 xpath 规则或 css 规则.
把规则和采集分开来.
使用 scrapy 也可以,他有分布式.
btw:招人吗?2019 年我对接过全国各省的招投标网站

iYume

47 天前

写 js 脚本采集网页数据，然后交给 llm 总结

snoopygao

47 天前

抓虫现在需要遵守哪些法律条款

baozaodexiaomila

33 天前

@jamos 确实是，目前有可利用的大模型吗？我用过 Crawl4ai 和 firecrawl ，觉得解析效果比较差劲，目前有什么比较好的大模型结合大批量数据采集的方案呢？
还有就是，基于我目前的经验，数据采集的流程，从网站分析，脚本开发，网站采集，数据解析，数据入库，这几个阶段，能想到大模型在数据采集流程上的利用，似乎只有在最后数据解析这里能派上用场，脚本开发是不是也可以利用？当下有什么好的结合方式吗？

baozaodexiaomila

33 天前

@ila 理论上来说，这个就是常规的落地方案，大部分人都会采用这种方式，不过不知道有没有可以结合 AI 的新的方案呢，感觉可以拓展一下哈哈

baozaodexiaomila

33 天前

@iYume 有好用的 LLM 适合解析网站目标数据吗？我试过 Crawl4ai 和 firecrawl 不太行，这两个库也是对接 openai 去实现解析的，我不太了解这方面，还请指教

jamos

31 天前

建议直接放弃所谓的 ai ，因为爬虫的主要任务是抓取数据，和对应的存储数据，就像是水管接水，既要水管的吸水能力强，也要另一头的储水能力强。

如果花心思在 ai 解析，你会遭遇算力瓶颈，复杂度不会比爬虫低，提示词微调，模型本地化，控制本地模型的规模（在效果和算力之间找平衡），显卡内存等硬件采购。。。

抓取数据和处理数据，分开处理。

baozaodexiaomila

28 天前

@jamos 说的在理，只是实际情况爬虫需要处理网页多样化的数据提取，这部分工作目前剥离不开，既然剥不开这部分工作，那么需要采集大量网站时，网页非结构化数据解析就是最大工作量了

YJi

21 天前

来买我的接口

互联网文本数据基本都有

YJi

21 天前

@YJi 噢我看你是要招投标信息，有个论坛 V 友做的网站 https://www.120bid.com/ 他们应该也卖 api 服务当时发的帖子 /t/1056354

当然买我的数据也可以，就是需要自己再清洗。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1119648

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.