如何长时间保存重要数据?
292 个回答
我大学毕业时把所有资料刻录成几张dvd,才几年就发现读取不了了,而我老爸读大学时候的笔记本,几十年后仍然保存完好。我前几年保存在移动硬盘里的照片,因为搬家时摔了一次,完全毁坏了,但是我家里小时候的相册却能几十年没有事情。
所以今天数据存储固然比过去更加方便,但是可靠性却大为降低。硬件坏了你还可以花钱再买,数据丢了,你就再也无力回天了。数据对我来讲是最宝贵的东西,无数血与泪的教训后,让我开始深入思考,怎么样才能让我的数据长期安全的保存几十年甚至终身?
可以用光碟么?
光碟是最廉价最受欢迎的介质,他们本来设计寿命是 10-20 年的,而一般情况你不要指望你光盘上的东西五年后还能正常读出来。即便一些号称长期保存百年以上的光盘,寿命也会由于我们各种不当行为大大降低,比如,没法按要求的条件保存(放桌面上被阳光暴晒变形),不小心刮花光盘,在盘面上留下指纹或者手上的油脂,这些都会促进光盘表面化学成分变质,最终导致你的数据损坏。
可以用机械硬盘么?
这两年 HDD/SSD 技术进步很快,成本越来越低。8T 的 HDD 差不多只 1000 元人名币的成本,1T 的 SSD 也从过去的好几千元降价到 600 多了。HDD/SSD 都能组成阵列,用虚拟逻辑卷的形式跨越物理大小的限制,为你提供超大规模的连续存储空间。
然而当你想要维护更大规模的盘阵时,你基础硬件设施的成本会大幅上升,4路阵列和8路16路的成本完全不一样。同时更新换代快,我过去保存的几块 IDE/SATA 接口的硬盘,今天我已经没有任何可用的设备来读取他们了。
遗憾的是,不管是 HDD 还是 SSD 他们都不能长期可靠的保存数据,每年有 1% 的概率由于磁场变化造成 HDD 数据损坏,这个概率如果放到 5 年,就变成了 4.9%。而 SSD 的寿命比 HDD 更短,同时他们还会受到温度的影响,如果长期处在40度以上的工作温度,二者的寿命都会减半。
可以用 raid 么?
Raid 能再你一块硬盘损坏时照样帮你保证数据不丢失,这也是常用方案之一,但是 raid 就万无一失了么?并非如此,因为硬盘设计寿命相同,一起买来的同一个品牌的硬盘,经常要坏就几块一起坏,我就试过两块 raid1 在不到 24小时的时间里先后坏掉。
同时民用电源各种不稳定,烧电器的经历大家都有过吧?由于 raid 下面几块盘都是接在一起,如果碰到电源问题,一个击穿,就全部都坏掉了。
可以用云存储么?
云存储是成本最高的选项,最便宜的百度云 1TB 的大小每年要 200元。然而把数据交给云服务商是风险最大的事情,百度会随意扫描你的照片,我同事曾经传了个身份证扫描件到百度盘上,然后马上删除了,结果第二天百度盘就给他推荐 “证件钱包”服务。我另外一个同事好几 T 的视频放在百度上,全部被替换成“净网公告”:
再者网龄稍微长点的人都有共识,网络服务是不可靠的,不管是过去的各种免费空间还是几年前的各种网盘,说关闭就关闭了,有的给你备份一下,有的连备份机会都没有,一纸通知,说关就关。你很可能一段时间没登陆网盘,没留意到通知,而再登陆时就发现数据没了。
所以网盘只适合保存一些,临时的,非关键数据,比如电影这些,看完一遍丢了也就丢了,而关键数据想要长期保存的话,网盘是风险最大的地方。
可以用大容量 U 盘么?
U盘或者移动硬盘的出现让我们比过去方便很多,但一般 U 盘都是有擦写寿命的,寿命往往比 HDD/SSD 更短,同时容易携带也就意味着容易损坏,物理损坏,或者因为太小了,放在哪里就忘记了,“丢U盘”想必大家都试过。家里有小孩更是,我的几张 SD 卡,被我儿子当积木玩了两天,就再也读不出来了。
除去物理损坏外,各种使用不小心(比如频繁插拔,忘记安全弹出),也容易造成 U 盘/移动硬盘的损害。尽管你很小心的用你的u盘,结果拿给家人搞点啥,几下可能就用坏了。
有无办法终身保护好自己的数据呢?
各种办法尝试了好多年以后,我开始思考,一些国家档案馆动辄保存上百年的资料,他们是如何做到的呢?再这些过程中,物理纸张可能老化,损坏,丢失,连墨迹也都可能淡化。他们的保存方法有什么值得借鉴的地方么?
然后我花了一个多星期的时间调研传统档案管理的各种:方法,制度,原则。研究完后受到了不少启发。。。。
想要长期保存数据,其实是一个成本问题,你愿意花多少钱和精力来做这件事情,决定预算以后,你不能依靠某一种单独的媒介来想着存进去就一劳永逸,而应该设计属于你自己的备份流程,靠流程来保证数据安全,比如下面几个点供你选择参考:
第一:明确可靠性等级,即数据分级,核心数据,重要数据,普通数据,可丢失数据。不同层次的数据对可靠性的要求是不一样的,对应的方法也不一样。
第二:格式转存,特别对于媒体数据,有损图片:JPG->BPG 基本能够清晰度不变但是尺寸变为原来 1/3,无损图片:PNG->FLIF,基本又能减少一半,如果你是 BMP/TGA 等老格式,直接转为 FLIF/BPG,马上让你空间缩小十倍。音视频数据也可以用更先进的编码器进行转存,这样你的空间占用至少能省一半出来。但是不要用一些太偏门的格式,避免几年后没有合适的程序读取。
第三:使用好一点的介质,都是 DVD-R,便宜的有 1-2 元一张,贵的有 80-100 元一张,区别就是质量,硬盘也分监控盘,企业盘还是消费盘。如果手头不是那么紧张,尽量使用质量好点的介质来保存你的数据。
第四:定期转存,不管放什么介质里,都需要定期检查,修复,活动介质可以靠一些自动脚本来转存,非活动介质需要手动进行。
第五:重要数据至少存三分,热数据(工作集),备份,备份的备份。
第六:备份方案根据数据重要度进行区分,哪些数据只需要 raid 备份,哪些数据除了raid外,还需要定时冷备到另外一块物理硬盘?哪些数据还需要定期刻录光碟?
第七:尽量地理上多地冗余,即便家里地震了也可以从异地恢复出来。
第八:尽量把文件直接放在文件系统上面,而不是再弄一个打包文件把一堆文件打了包再存,当介质发生故障时,打包文件很难恢复,而直接放在文件系统上的文件相对容易恢复一些。
。。。。
--
更新:
关于磁带,主要个人玩家玩起来门槛有点高,同时磁带照样会受磁场变化影响损坏数据,而且磁带和磁盘一样容易“掉磁”,所以长期用磁带保存数据一般都要放在防磁柜里。门槛太高了,以前用了好几年磁盘,不管是 2.5寸 还是 3.5寸,三天两头就坏掉一张,让我对“磁”的东西真的没多大信心。
关于 DVD/BD ,有机/无机刻录盘,档案盘,千年盘(M-DISC)和硬盘的专业比较:
还有一篇超详细的介质比较,连任天堂卡带都拿出来分析了:
Data storage lifespans: How long will media really last? - StorageCraft
--
我觉得,用玻璃。
本月,在微软最大规模的年度 IT 盛会 Ignite 2019上,微软公司首席执行官萨提亚·纳德拉宣布,微软与华纳兄弟首次将电影《超人》存储在了一块杯垫大小的石英玻璃中。这块75×75×2毫米的玻璃能够安全地存储 75.6GB 数据,不仅防水、耐磨、耐高温,更无需用高功耗的方式保存和维护。从海底数据中心到全自动 DNA 数据存储,将光学技术引入云计算领域的 Project Silica,代表了微软对下一代的云存储技术的又一展望。
“如果我们的后代无法再看到《老友记》、《卡萨布兰卡》这样的作品,这简直无法想象。”华纳兄弟首席技术官 Vicky Colf 说。
为了长久保存近100年来的大量经典电视电影、广播动画和相关的珍贵资料,华纳兄弟公司一直在寻找新技术来保护它庞大的影像资产。他们需要一种能持续数百年的存储技术,能够抵御洪水、高温和各类自然灾害,也不需要严格控制存储环境的温度与湿度,从而大大降低能耗。
现在,微软和华纳兄弟成功地将1978年的标志性电影《超人》储存在了一块杯垫大小的石英玻璃上,并成功读取。这块玻璃厚度仅为2毫米,尺寸为75×75毫米,能够安全地存储 75.6GB 数据,并留有错误冗余代码的余量。这块坚硬的玻璃可以承受浸泡、煮沸、烘烤、微波加热、地磁干扰和其它环境威胁,防止无价的历史档案和文化宝藏被摧毁。
这是微软的“玻璃存储”技术第一次从概念落地现实,代表微软开发针对云计算的存储技术的努力。从微软海底数据中心项目Project Natick,到用FPGA设计的定制硬件加速器Project Brainwave,到将光学技术引入云计算领域的 Optics for the Cloud,微软 Azure 一直与微软研究院密切合作,以解决近期和长期的挑战。
从虚拟数据到物理
有着近百年历史的华纳兄弟拥有世界上最重要的娱乐影像资料库之一,为了让全球观众欣赏到经典的影视作品,每隔一段时间,华纳兄弟都会重新以最新格式为全球观众发行经典影片。因此,以永久的方式完好保存人们最喜爱的影视作品,是一个巨大的文化责任。
华纳兄弟非常重视影像保存和归档的工作。他们把每个文件的三个存档存储在世界各地的不同位置,还为应对多种不可预知的情况做了大量准备,比如地震和飓风。
然而,由于数据格式的更迭和物理存储介质的损耗,数据经常需要更新和迁移,长期存储不但成本高昂,而且很难管理。一些老电视节目需要升级到新的格式,数字电影电视的迁移周期则更短,由于硬盘三到五年就可能损耗,华纳兄弟每三年会主动迁移一次数据,这些都增加了长期存储的成本。
对于以数字方式拍摄的影像,华纳兄弟会将它们按减色原色(青色、洋红色和黄色)分为三部分存储到黑白胶片上,使它们不会像彩色胶片一样褪色。这些底片会被存入冷藏库,由各种仪器对温度、湿度和空气中的化学分解进行严格的监测和控制。如果要取出它们,就必须逆向经过这些复杂的步骤。这个过程也非常昂贵,世界上只有少数电影实验室能够实现,而且转换过程会造成不可逆的质量损坏。
因此,华纳兄弟希望玻璃存储技术能为数字内容提供一种永久、稳定、经济又高质量的物理档案。“如果我们能将数字内容存放到玻璃上,而且读取过程就像从相机导出照片一样简单,就能更好地进行数字保护工作。” 华纳兄弟全球档案和媒体工程高级副总裁 Brad Collar 对这一技术寄予了很高的期待。
玻璃存储有潜力成为一个高效又低成本的解决方案。数据一旦被写入玻璃,就能被完好地保存数百年。保存玻璃硬盘也很简单,不需要高耗能设备来恒温和去除空气中的水分。
玻璃存储技术并非面向消费品市场,而是用来存储"冷数据"——具有巨大价值,公司需要维护但不需要频繁访问的大规模存档数据。包括患者一生的医疗数据、金融监管数据、法律合同,用于能源勘探的地质信息,城市需要保留的建筑计划等等。
华纳兄弟首席技术官 Vicky Colf 表示:“我们拥有大型的娱乐媒体数据库,这一挑战在规模上是独一无二的,但就问题本身而言,大规模数据存储的需求非常普遍。一旦玻璃存储技术被证明是经济、高效且可推广的,这将让我们和各行各业中,任何想保存和归档内容的人都受益。”
规模化应用玻璃存储还需要更多的工作。微软的研究人员正在进一步提高数据的读写速度和存储密度,华纳兄弟也正在构想读取数据所需的基础设施。
“我们正在构建以云规模运行的存储设备。”微软剑桥研究院副院长 Ant Rowstron 说,“我们想改变数据不断迁移、重写的高成本循环。我们要发明一种技术,让你可以安心地把数据忘在库房里50年、100年,甚至1000年,直到你要用它的那一天。”
专为云设计的下一代存储技术
在大多数人的印象里,云能够存储一切,但云的容量并不是无限的。在数据存储需求爆发式增长的今天,现有存储技术的容量正在逐渐被消耗。
微软对下一代存储技术的愿景之一,就是为大规模云服务提供经济、轻松的解决方案。
数年来,微软研究人员一直在研究如何利用现有的数据中心技术达到这一目的,但他们发现这些技术仍然有很多限制。“我们想,可以为云服务构建一种全新的数据存储方式吗?” Rowstron 说。
在英国南安普敦大学光电研究中心,研究人员率先发明了用飞秒级激光将数据存储在玻璃中的技术。微软剑桥研究院与该研究中心合作,组建了一个由物理学家、光学专家、工程师和具有存储研发背景的研究人员组成的跨学科团队,在存储速度和精度方面取得了巨大的进步。研究团队也与 Azure 团队密切合作,让玻璃存储技术能更好地应对商业云存储的现实应用挑战。
与其它在物体表面写入数据的光学存储介质不同,玻璃存储将数据存储在玻璃本身中。飞秒激光通过在玻璃上创建不同深度和角度的一层层三维纳米光栅和变形,将数据编码到玻璃中。数据读取则由机器学习算法来解码偏振光透过玻璃时产生的图像和模式,这种方法读取速度非常快,能够大大缩短信息检索的时间。
石英玻璃也很难被破坏。研究团队对玻璃进行了各种暴力测试,用微波加热,在水中煮沸,用钢丝球刮刷,在260度的烤箱中烘烤,当他们读取数据时,一切都安然无恙。
几年前,华纳兄弟的档案管理员曾经发现一块唱片大小的玻璃碎片,上面是20世纪40年代录制的《超人》无线电录音。由于被储存在玻璃上,它们完好无损。
“这真的很有趣,玻璃是我们资产库中最古老的东西,又是我们的最新技术之一,” 华纳兄弟全球档案和媒体工程高级副总裁 Brad Collar 说,“一切仿佛绕了一个圈,又回到了最初的原点。”
本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。
微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。
也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号,了解更多我们的研究。