V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zhangjiashu2023
V2EX  ›  程序员

镜像网站,原网站的静态怎么爬取

  •  
  •   zhangjiashu2023 · 4 天前 · 1635 次点击

    比如一些 ChatGPT 的镜像站,Midjourney 等等网上都有很多镜像站。这些静态是怎么爬取的呢。有没有懂这块儿的大佬,可付费。

    10 条回复    2025-05-05 13:20:51 +08:00
    iApp
        1
    iApp  
       3 天前
    有没有可能人家不是爬的,只是做了一层流量代理转发
    doubu
        2
    doubu  
       3 天前 via iPhone
    反向代理
    qinrui
        3
    qinrui  
       3 天前
    差不多 15 年前做过一个镜像新闻站

    用户访问我站的前端页面,我站通过 php 找到对应源站页面,替换掉一些关键词和链接规则,然后显示给用户,同时缓存到本地

    下次再有用户访问这个页面,就直接从本地缓存取
    zhangjiashu2023
        4
    zhangjiashu2023  
    OP
       3 天前
    @iApp 不是 我问过一个作者 确实不是反代 就是扒了。
    saltpi
        5
    saltpi  
       3 天前
    有点类似 web archive ,印象中有这样的软件,输入域名,可以尽可能的爬下所有页面。貌似叫 web archive offline 之类的

    https://github.com/ArchiveBox/ArchiveBox
    eben
        6
    eben  
       2 天前
    有人会使用 python 写个小偷,完全扒下来
    mmdsun
        7
    mmdsun  
       2 天前 via iPhone
    搜下 ChatGPT pandora ,当时比较火的 ChatGPT 镜像网站。 静态资源不用爬直接本地下载就行
    zhangjiashu2023
        8
    zhangjiashu2023  
    OP
       2 天前
    @mmdsun 我的意思就是 pandora 这种类似能把 openai 官方静态给扒下来并且还能适配可用的技术
    kkkbbb
        9
    kkkbbb  
       2 天前 via Android
    @qinrui 这不还是爬么
    qinrui
        10
    qinrui  
       1 天前
    @kkkbbb 按需爬,有人访问的页面才爬
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1420 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 23:57 · PVG 07:57 · LAX 16:57 · JFK 19:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.