DNA是已知密度最高也最稳定的信息存储介质。(网络图片)
在储存信息方面,硬盘与DNA相去甚远。我们的基因编码只需一克就能包含数十亿Gb信息,一毫克就能收录美国国会图书馆中的所有藏书内容,而且还能剩下足够多的空间。当然,所有这一切只是理论上的推断。现在,根据发表在《科学》上的一篇报告,研究人员成功将一本书储存在不到1微微克(10⁻12克)DNA中。这本HTML格式的书包含53,000个单词和11幅JPEG图像,以及一段JavaScript程序,大小为5.3MB,研究人员将其翻译成DNA序列,每比特一碱基,碱基流然后以96碱基分组,每组链接到一个19碱基地址,地址指示了数据储存在位置。所有这些序列用合成机器转成DNA,打印在DNA芯片上。
DNA是已知密度最高也最稳定的信息存储介质。理论上而言,DNA的每个核苷酸可以编码两个比特,每克单链DNA的存储容量可达455艾字节(1艾字节=10的18次方字节,1字节=8比特),大约相当于1000亿张DVD光盘的容量,存储密度几乎是闪存等现有数字媒体的五六百倍。而且,存储在DNA中的数据时隔几千后年仍能够被读出。
此前曾有研究人员尝试过将数据写进活细胞的基因组内,但这种方法存在很多问题:首先,一旦细胞死亡,存储的内容将会丢失;其次,细胞会分裂复制,在这一过程中可能会产生新的变异,从而更改存储数据。此外,利用DNA长序列读取和写入数据存在一定难度,而且成本很高,这使得利用DNA进行大规模数据存储不太现实。
为了解决这些问题,哈佛医学院合成生物学家乔治·丘吉尔带领的研究团队不使用细胞,而是用喷墨打印机将化学合成的DNA短片段嵌入到一个微小的玻璃芯片表面。他们将一本由丘吉尔参与编写的遗传学课本转换成“0”和“1”的比特形式,并用DNA的4个碱基中的A或C来编码 “0”,G或T来编码“1”,从而将课本内容写入了DNA中。这个DNA芯片采用了类似于计算机硬盘分区的方式,将课本内容分散为数据块来存储。
读取这些数据则需要一个DNA测序仪和一台计算机。由于每个DNA片段中都包含着一个数字“条形码”,记录了其在原始文件中的位置,因此所有的片段可被重新组装,并转换成数字格式。电脑还能帮助纠错:每个数据块都被复制了数千次,通过与其他副本相比较,任何一个小错误都可以被识别并修复。
研究人员将课本内容存入DNA,然后又重新转化为数字形式读出,结果显示,这个存储系统的底层读取错误率为每百万比特只有两个错误,可与DVD比肩,远远优于磁性硬盘驱动器。不过,由于数据编码是与DNA合成同步完成的,因此这种方式不支持可擦写数据存储,但适用于长期归档存储。
研究人员表示,因受操作成本、速度(此次花了大约几天时间)和测序仪大小的制约,将DNA作为一种通用的数据存储介质目前还不切实际,但这一领域正在快速发展,未来5年到10年内有望开发出比传统数字存储设备更快、更小、更便宜的DNA存储技术。