镜像网站,原网站的静态怎么爬取

4 天前
 zhangjiashu2023

比如一些 ChatGPT 的镜像站,Midjourney 等等网上都有很多镜像站。这些静态是怎么爬取的呢。有没有懂这块儿的大佬,可付费。

1659 次点击
所在节点    程序员
10 条回复
iApp
4 天前
有没有可能人家不是爬的,只是做了一层流量代理转发
doubu
4 天前
反向代理
qinrui
4 天前
差不多 15 年前做过一个镜像新闻站

用户访问我站的前端页面,我站通过 php 找到对应源站页面,替换掉一些关键词和链接规则,然后显示给用户,同时缓存到本地

下次再有用户访问这个页面,就直接从本地缓存取
zhangjiashu2023
4 天前
@iApp 不是 我问过一个作者 确实不是反代 就是扒了。
saltpi
4 天前
有点类似 web archive ,印象中有这样的软件,输入域名,可以尽可能的爬下所有页面。貌似叫 web archive offline 之类的

https://github.com/ArchiveBox/ArchiveBox
eben
3 天前
有人会使用 python 写个小偷,完全扒下来
mmdsun
3 天前
搜下 ChatGPT pandora ,当时比较火的 ChatGPT 镜像网站。 静态资源不用爬直接本地下载就行
zhangjiashu2023
3 天前
@mmdsun 我的意思就是 pandora 这种类似能把 openai 官方静态给扒下来并且还能适配可用的技术
kkkbbb
3 天前
@qinrui 这不还是爬么
qinrui
2 天前
@kkkbbb 按需爬,有人访问的页面才爬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1129456

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX