[转帖] DNA存储:用“生命”来存储数据

DNA存储:这是用“生命”来存储数据

我们都知道DNA(脱氧核糖核酸)存着生物的生命信息和遗传指令。储存人造的数码信息?还真没听说过。
不久前,欧洲生物信息研究所(EBI)的高德曼(Nick Goldman)博士及其团队在《自然》杂志今年1月号上发布了一项研究:用DNA存储数码信息。文章详述了实验的总体设想、具体方法和结果,以及费用分析。学界和业界为之轰动,称它为信息存储领域的一个“里程碑”。
难怪如此,数码信息存储已是信息社会的一只烫手山芋。互联网时代,数码信息爆炸,以天文级数不断增长。据美国IDC公司的最新研究报告,2012年,全球生成和复制的数码信息总量近3个ZB(ZB是信息量单位,等于10的21次方;常见的GB是10的9次方)。IDC预测,数码信息的总量将以每两年翻一倍的速度增长,到2020年,达到40个ZB。这到底是多少呢?打个比方您就明白了。全球所有的海滩加起来,大约有 700,500,000,000,000,000,000颗沙粒;40个ZB就是这沙粒总量的57倍。届时,咱们中国产的信息将占全球总量的22%。如此巨大的信息量,好处是显而易见的。许多前人没法想象、难以完成的事,我们现在拿着手机,点击几下,就把它做了。古人说,秀才不出门,全知天下事,不就是今天网友生活的写照?商业活动就更离不开网络信息了,比如那些全球连锁店,可以实时收集、分析各地分店销售库存数据,随时调整订单进货,减低成本,提高利润。诸如此类,不胜枚举。由此还发展出一个新学科:大数据。
然而,有一利必有一弊。海量信息让存储空间叫急,人力物力费用不堪重负。总部位于瑞士的欧洲核研究组织(CERN)就是一个典型例子。该组织掌管着大型强子对撞机的运行和数据分析,每年产生约25个PB(PB等于10的15次方)的数据,2015年将增至50-60个PB,相当于一百八十多万张常规DVD的存量。按规定,这些数据归档后,必须保存二十年或更久,存放在恒温恒湿的环境。而且,每隔三四年,整个数据档案要翻录到新的存储介质上,以确保信息安全,便于跟新一代计算设备和技术匹配。试想,保存并维护这个数据集,得占多大的地方,花多少钱,费多少人力!这还只是一个机构的困难。所以,任何能减压的发明创造,都会受到热烈欢迎。
为此,科学家一直在努力,寻找新技术、新方法、新介质,解决存储问题。从大软盘到小软盘,再到光盘,如今是U盘;还有硬盘、磁带、云存储等,新品种层出不穷。然而,存储能力的增速就像矮人一样,远远跟不上信息的步伐。结果是,决策者常常不得不在保证信息完整与节省经费之间做选择,十分棘手。现在,高德曼博士告诉我们,他们的发明,可以让仅一克重的DNA存储2.2个PB信息量。换句话说,CERN每年60个PB的数据,只需约28克DNA就解决了。您说,大家能不兴奋!
话说回来,DNA的存储效能,这并不是什么新发现。众所周知,地球上一切生物的基因信息都存在DNA上,我们每个人的身体就拥有约30亿个碱基对。但用DNA来存储数码信息,却是科学上又一次偶遇的惊喜。阿基米德泡在澡盆里想出了浮力定律,牛顿躺在苹果树下发现了地心引力;而高德曼和同事一次在研究所附近的酒吧泡吧,忽然灵感降临,得了想法——赶快掏出笔,把一套DNA数码信息存储的编码设计写在了纸巾上。
若能用DNA存储数码信息,当然是再理想不过。只是实现起来并不容易,要攻克许多技术难关。2012年似乎是一个转折点。高德曼团队和哈佛大学的George Church团队相继公布了各自的研究成果,而前者的成果更为完善、可操作而实用。Church教授评价说,因为高德曼团队的工作,“我们终于有了一个真实的领域”。
据高德曼博士的报告,DNA存储数码信息的原理和过程似乎并不复杂:用特定的碱基编码,将电子文件编入DNA,合成后即可保存。取用信息时,用DNA测序仪,按编码规则将该DNA序列转换解读回电子文件,便能在电脑上使用了。所以,编码的设计是DNA数码信息存储成功的关键。数码信息是一个内容形式多样、数量高速增长的集成。因此,编码须有足够的能力编辑无限扩大的信息集,并忠实记录其中的每一分子,准确度100%,不容半点差错。
高德曼团队做到了。他们的方法是这样的:首先,把电子文件的二进制码(0,1)翻译成三进制码(0,1,2);然后,用由DNA四个碱基(分别以它们的学名首字母A、T、C、G代表)构成的一套特定编码和规则,将三进制码编译成一个DNA码序列。接着,以每25个碱基向后错位的方式,把这个DNA序列切割成若干个含100个碱基的等长片段,直至整个序列的所有内容都获得四个复本(例如:1,2,3,4;2,3,4,1;3,4,1,2;4,1,2,3)。这样一来,当任何一个复本出错时,有另外三个复本可供参考认证,可谓万无一失。为了确定这些等长片段在这个DNA序列中的准确位置,高德曼团队给它们各自的首尾加上了索引标识。用DNA编码编好电子文件后,再用专门设备做DNA合成,信息写录就完成了。取用合成DNA中的信息时,先把合成DNA放入标准化学试剂,然后用DNA测序仪,根据索引标识,将各个片段依序粘接成原DNA码序列,再译回二进制码,形成电子文件,就大功告成了。高德曼团队十分谨慎,在编码设计中不惜繁琐,引入多重防错检错机制,为的是保证编辑和解读复原达到零误差。
编码设计好之后,高德曼小组用了五个不同类型的电子文件做测试:一段26秒钟长的马丁·路德·金《我有一个梦想》演讲录音;一篇关于DNA结构的经典学术论文的PDF文件;莎士比亚十四行诗全篇,一张EBI大楼的彩色照片;以及一段这次试验使用的软件算法(a Huffman code)。信息总量不大,约739千字节,着重检验编码对不同信息形式、内容以及格式的适用能力。DNA的存储能力的确惊人,当装着这五个文件的合成DNA的试管送到高德曼手中,他看了半天,竟然什么也没找到。还是经同事指点,才发现试管底部那颗灰尘般大小的DNA。
然后,团队用DNA测序仪,把合成DNA中的信息复原为电子文件。结果令人振奋:它与原始电子文件的重合率为100%。不过这100%跟着一段有惊无险的小插曲。在DNA测序时,PDF文件中的两个25碱基小节不见了。缺了它们,就会出现误差,这是绝对不能容忍的。好在编码为每个小节提供了四个复本,根据复本,编码准确地完成了复原任务。这次歪打正着,证明了该编码防错的优越性能。还好,团队很快找到了丢失的原因,高博士保证,只需稍微修改一下程序,类似问题以后不会再发生了。
编码实验成功!关键的一步迈出,DNA作为信息存储介质的其他优越性能也就变得实在了。除了存储密度高,DNA还有一些突出的优点。它很容易保存,只需放在冷、暗、干燥处,没有恒温恒湿的苛刻要求。它还非常稳定,存放上百万年都没问题,不会走样。另外,它合成测序,使用的设备和方法都是生物学研究的常规工具。这使得DNA的存储有效地避开了因设备技术更新换代而起的许多麻烦。所以DNA是数码信息长期存储的理想材料,而且存储的时间越长,越能显出优越性。
这样看来,我们是不是就可以期待在不久的将来用上DNA盘,把信息存储的担忧甩到脑后去呢?还是那句话,利弊相生。
DNA作为存储介质,也有显著的弱点。首先是成本太高。高德曼团队的实验费用高得惊人:每一兆(MB,10的6次方)字节的存储费用是12,400美元,外加测序解读220美元。这是常规磁带存写费用的一百万倍还多。甭说个人,就是尖端科研也用不起啊。所以,DNA存储必须大大降低成本,才谈得上实际应用。第二,信息写读非常耗时。数码信息编入DNA目前只能由专门的DNA合成设备来做;而从DNA中取读信息,重组复原为数码文件,也很费时。高德曼团队用了整整两个星期,才完成五个文件739千字节的复原。第三,DNA介质不能重复使用,写录完毕,一般来说不能修改,不能再用。可是,我们已经习惯了常规存储,如硬盘和U盘的便利。十来美元买一只16GB存储量的U盘,插入电脑,就能周而复始地写文章,做计算,听音乐,看录像;人机(存储器)之间无缝交流,用我们普通人的标准,几乎达到了合一的地步。这些“简单”的基本功能,DNA介质却难以胜任。所以,DNA存储介质离实际应用还有漫长的路要走。
好在科学家大多是乐观派。高德曼团队对DNA整体研究的发展和编码本身的改进充满信心,认为DNA介质用于数码信息长期存储,前景是光明的。并且指出,DNA起始费用是很高,但那只是一次性的。后续的保养费用却极低,几乎可以忽略不计。反观常规介质,起始费用虽低,但后续费用高,人力消耗也很大。高德曼团队计算过,以目前价格看,只有需要保存六百年以上的信息,使用DNA存储才划算;换言之,存储六百年,才能使DNA一次性费用与常规介质的长期维持费用持平。但根据近年来DNA合成和测序费用大幅下降的走势,可以预计,十多年内价格有望下降一百倍。要是这样,存储期五十年以上,且无需多次存取的信息,DNA介质就很有竞争力了。
一位研究历史的朋友,听了这个故事,大为赞叹:这下好了,不仅可以把无数史籍乃至一座座图书馆都录入DNA,咱们的日常生活也能留给后人了——声像图文并茂,叫千秋万代之后的他们,接触真真实实的我们!
是啊,那该多好!DNA和数码信息携手,演绎着一个未来的故事:那承载生命的,让生命之造物得了“永存”。
诗酒风流近散场,心情无限对斜阳,如今只剩燕双双。
病酒願爲千日醉,看花誤惹一身香,夜來有夢怕還鄉。
这不就是游戏刺客信条的东西么?