实验室每季度产生 10TB 的数据,最佳的异地备份方案是什么?

89 天前
 V2April

目前的做法是数据产生后实时同步至群晖,每几个月硬盘会被塞满,然后拷到移动硬盘里。有什么更好的异地备份、本地释放空间的方法吗?实验数据无敏感性,不介意上传至阿里云、腾讯云或 AWS 的云盘里,不需要加密,但怕丢。

7013 次点击
所在节点    NAS
77 条回复
ala2008
88 天前
每年都有?那还是存云上吧,冷冻备份的数据,便宜
linxijun
88 天前
威联通的 qudedup 就解决了,前提是两地用的都是威联通的 nas
aru
88 天前
搞一台支持热插拔的机器(其实你不需要热插拔,只是为了方便拆装硬盘)
定期备份到这台机器的硬盘上,满了 1 个盘就拆下来,贴上标签保存,注意防潮。
后续定期买新盘就行了,这是最简单的方式
duanxianze
88 天前
10tb 直接用云服务商的冷存储也没多少钱吧,实验室应该用的起
aru
88 天前
根据你们对图片的需要,也许可能可以将容量降低到 3MB 每张但不影响数据保存
就是压缩成高质量的 jpg 格式,可以尝试压缩下,看有没有影响
Kinnice
88 天前
磁带机
Kinnice
88 天前
有没有尝试就用简单的 zip 压缩一下试试,能小多少
yinmin
88 天前
@V2April 图片推荐压缩成 webp 格式,图片压缩都是有损压缩,一般人眼看不出啥差别但是尺寸能小很多。主要还是看用途,对比压缩后的 webp 文件,有没有必要保存历史原始文件,毕竟是有损压缩,放大很多倍还是有点差别的。

你让 ai 写一个 python 程序,定期运行一次,问 ai 的提示词:“ 写一个 python 程序,将指定目录中的 jpg 文件压缩成 webp 文件,图片尺寸不变,精度一般即可,保存在这个目录的 webp 子目录里”,claude 3.7 sonnet 编写编码比较牛,用别的 ai 也能凑合。
capgrey
87 天前
个人感觉,这数据 100 年都不会再使用
sengle
87 天前
感觉调优一下目前方案就行了:
1. 优先加入压缩方案,看看是否可以大概满足需求。(获得更多的群晖可用空间,也不用太频繁迁移数据释放空间)
2. 群晖进一步扩容,加盘位以及升级单个硬盘容量,保障群晖随时留有可用空间,并且能存储一定时间段范围数据。
3. 优化数据迁移流程,固定时间将群晖数据打包到硬盘做冷存储,贴上标签,码齐放特定地方就行了。

以上方案你每年如果有 10000 买硬盘预算,大概也够用了。一堆硬盘不好整理的原因,我猜是数据拷贝比较混乱,不知道每块硬盘放了啥,如果数据统一格式存放,贴上标签,放整齐了,应该不难管理。而且还可以建立在线文档,把硬盘序列号和内容记录下来,这样只要硬盘不丢就很好找了。

感觉实验室在你呆的这几年大概数据也是百 T 量级,没必要折腾云存储。以后数据更多了再考虑换其他方案。
maizero
87 天前
你说的是离线备份吧?

买多点 HDD 就好了,如果不是真正意义上的冷备,多个 HDD 副本就可以了
haibudong
87 天前
大约 199 元买个 10t 天翼云盘
yqesl1
87 天前
115 永 V 一劳永逸
hanyuwei70
86 天前
首先说一下 3-2-1 备份原则:3 份数据,2 个介质,1 份(物理)异地。
这就意味着一般来说你的数据存放方式是这样的
1. 保持随时可用的一份(比如群晖)
2. 移动硬盘一份
3. 异地(云服务或者离线硬盘)一份

然后是定价:
1. 云服务:这个取决于你们访问的频率,云服务一般都是存储便宜流量非常贵;
2. 本地硬盘:HC570 22TB 京东价格 3099 ,这个就是标杆价。

之后是管理:
如果你打算长期存储,定期验证数据是必不可少的(建议在线的一个月一次,离线的半年一次)。我自己是用 btrfs 并定期 scrub ,你们实验室可以自己确定一下验证数据的方案(如果你们的数据自带校验是最好的)。
压缩的话也就是自己压或者交给文件系统压,没什么特别多的说法。
Co1e
86 天前
我是卖群晖的,其他产品怎么运行不太清楚。群晖的想省钱可以以你现有的群晖 NAS 作为业务机,再买一台存储容量的更大的群晖使用 abb 去备份业务机,可以使用自动备份。还有其他想法也可以沟通沟通,异地城市之间也可以做实时同步,目前做过最远的是上海和北京实时同步,两台机器都是 100+T 。做过最大的项目也就是 3.5pb 了
wangsd
73 天前
@yinmin 他是照片,和文本不一样。
wangsd
73 天前
不知道你们拍的照片是什么格式的,如果不是 RAW 的话,可以使用 JXL 无损压缩存档,如果要考虑兼容性可以使用 jpegli 处理

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://yangjunhui.monster/t/1117663

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX