为什么反爬虫的标准越来越严了

2024-04-24 10:38:05 +08:00
 yjsp1919

我设置的比真人浏览还慢 5 秒 10 秒延迟那种 还是给我跳 cloudflare 到底为什么要反爬 我比真人慢等于是降低了服务器负担吧?

3811 次点击
所在节点    互联网
21 条回复
meshell
2024-04-24 10:40:33 +08:00
你喜欢内容农场吗?
NessajCN
2024-04-24 10:40:47 +08:00
....你认真的吗
不爬才是降低服务器负担啊兄弟
didi0luc
2024-04-24 10:41:12 +08:00
代理 ip 质量比任何反反爬手段都要重要
Masterlxj
2024-04-24 10:42:44 +08:00
访问频率只是反爬策略中的 1/n
coderluan
2024-04-24 10:50:41 +08:00
因为发现爬不了就去一页一页从浏览器复制的傻子其实非常少......
itakeman
2024-04-24 10:53:53 +08:00
特别讨厌五秒盾,严重影响用户体检,当然的我不爬别人网站
yjsp1919
2024-04-24 10:59:55 +08:00
@NessajCN 假如我人工复制要十分钟
我设置的爬虫可能要一小时
这不是降低了单位时间内负载吗?
Bantes
2024-04-24 11:05:32 +08:00
1. 干净的代理 IP
2. TLS/JA3 指纹
zephyru
2024-04-24 11:40:31 +08:00
如果只是收集数据(一次性的),这种可以直接在浏览器里写脚本,不少插件干这事的...
msg7086
2024-04-24 11:48:08 +08:00
如果你是建站并复制其他网站数据的话,复制他人有版权的内容是违法行为。
反爬一般是用来阻止违法行为的。
BeiChuanAlex
2024-04-24 11:49:19 +08:00
这不是很正常吗,爬虫与反爬,天生就是矛与盾
nothingistrue
2024-04-24 12:26:56 +08:00
你不爬,服务器负载更低。
deorth
2024-04-24 12:36:25 +08:00
是,主要降低了脑子的负担
nodejsexpress
2024-04-24 13:49:42 +08:00
cf ,akamai 这些不仅仅看你爬取速度,除了浏览器指纹,也有行为检测。
Shanky
2024-04-24 14:41:16 +08:00
@zephyru #9 🐶 你怎么知道我拿油猴脚本去爬 18+的漫画的?
timjunk
2024-04-24 14:43:54 +08:00
cloudflare 挡住的负担在 cloudflare 那边,网站的服务器不就减负了吗
whoosy
2024-04-24 16:31:48 +08:00
kpi 罢了
opengps
2024-04-24 16:33:30 +08:00
除了搜索引擎,那个站长喜欢不带来流量价值的爬虫?
ZnductR0MjHvjRQ3
2024-04-24 18:05:04 +08:00
@yjsp1919 你只考虑降低了负载 但是你有想过没 人家欢迎正常玩家来访问哪怕正常玩家再快都行 但是你是爬虫! no !!!

这才是问题 ,所以 不是慢就是正常人。。。。
yjsp1919
2024-04-25 07:29:23 +08:00
@zephyru 直接用 JS 吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1035173

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX