我下载了“整个” Hacker News

30 天前
 hidev
一个多月前,在这里分享了 tophn.co ,它可以帮助你以现代化的方式快速浏览 Hacker News 榜单,包括多语言 AI 翻译、总结、文章封面、RSS 等功能。

但是之前只抓取了近几年的数据,这次狠下心直接把 Hacker News 从 2006 年起长达 19 年的数据全部下载下来,并且开源: https://github.com/heyppen/hn-dump

SQLite 文件可以到 https://github.com/heyppen/hn-dump/releases 下载,但只包括 score ≥ 5 的 story ,数据截止到 2025.4.30 ,文件大小约 181 MB ,总共 135 万条记录,感兴趣的朋友可以自取,或者亲自下载一遍。

顺便分享一个 Hacker News 在线实时 ClickHouse 官方数据库,详见: https://x.com/ipen_ink/status/1919664189251191296

同时,tophn.co 也同步更新了总榜单( https://www.tophn.co/?tab=all )以及年度榜单(例如 https://www.tophn.co/?tab=2018 ),欢迎大家体验~


3453 次点击
所在节点    分享创造
16 条回复
clemente
30 天前
6666
newdongyuwei
30 天前
followad
30 天前
赞👍
Pipecraft
30 天前
包含评论吗?怎么才有 181 MB ,这么少。
hidev
30 天前
@Pipecraft 不包括评论,而且存的字段比较少
Pipecraft
30 天前
@hidev #5 网站做得不错。👍
Patrick6
30 天前
昨天刚从 X 看到,今天又在 v 站看到了哈哈
iMusic
30 天前
hidev
30 天前
@Patrick6 精准投放😂
JJJLG
30 天前
1
mywaiting
30 天前
Hacker News 的数据库很大程度算公开数据源,很多地方都有下载

1 、官方 API 接口,使用 Firebase 提供,近乎实时更新数据 https://github.com/HackerNews/API

2 、全量数据搜索接口,Algolia 提供,API 提供每 IP 每小时 1w 访问限制(等于无限制) https://hn.algolia.com/api

3 、graphql API 。它将允许您在单个请求中获取所有评论、用户和帖子 https://hngraphql.fly.dev/graphql

由于 HN 的数据本身就是公开的,爬虫抓取到本地意义不大
ammeto
30 天前
赞👍
punkerhyde
30 天前
66666666666666666
hidev
29 天前
@mywaiting 这里用的就是官方 API ,下载下来目的是可以做一些离线分析,比如词云,比如训练个 Hacker News LLM
Akagi201
29 天前
评论这么关键的数据没有啊? hn 主要价值就是评论啊
hidev
29 天前
@Akagi201 目前是以帖子为主,后面我跑个全量数据看看,估计会很大

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1130572

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX