人类文明的发展离不开信息传递与交互。随着人类文明从狩猎文明到信息文明的转变,信息改变了人们生活的方方面面,甚至影响了人们的生存,例如我们每天吃饭离不开外卖、购物离不开手机等等。
而随着互联网技术的快速发展,人类世界的数据信息也在急剧增长。有统计数据显示,目前全世界每天产生的邮件、照片、推文、视频等等数字文件超过 250 万 Gb,而全世界总数字文件更是高达 10 万亿 Gb。这些数据大多被保存在巨大的数据中心中,一个存储量为 10 亿 Gb 的大型数据中心,占地可达数个足球场,建设和维护成本高达 10 亿美元。
而随着 5G 技术的发展,人类信息存储的需求会更加爆炸,在可预见的未来,基于传统硅基储存介质的储存方式将不可避免地陷入资源枯竭的困境。于是,开发新的储存技术就显得尤为重要。
近日,来自美国麻省理工学院生物工程系的 Mark Bathe 教授带领的研究团队,成功开发出了全新的以 DNA 为基础的信息存储和读取技术,实现了 DNA 数据的快速准确检索识别。简单来说,这一技术首先将数据储存在 DNA 中,然后将每个数据文件封装在一个直径 6 微米的二氧化硅颗粒中,并且通过可显示内容的短 DNA 序列进行标记,通过这些标记,人们可以快速搜索所需的信息。
该研究以 “Random access DNA memory using Boolean search in an archival file storage system” 为题发表在最新一期的 Nature Materials 杂志上。
对此 Bathe 教授表示,“我们需要新的方案来解决海量数据的存储问题,DNA 的密度实际上比闪存还要高 1000 倍,理论上一个装满 DNA 的咖啡杯就可以存储世界上所有的数据。另一个有趣的点在于,一旦你制造出了 DNA 聚合物,它就不会再消耗任何能量,我们可以将其永久储存。”
DNA 存储信息,靠谱吗?
我们都知道,所有信息在计算机中都是借助 0 和 1 两种代码存储的,而 DNA 是由 A、T、G、C 四种碱基组成的。因此,长期以来就有科学家设想,如果将四种碱基中的 A、T 表示 0,G、C 表示 1,那么 DNA 也可以存储信息了。
相比于目前常用的以硅基材料为基础的信息存储技术,DNA 得特性使其天生就是一种非常理想的存储介质。首先,DNA 非常稳定,合成和测序技术目前非常成熟,操作容易。其次,由于 DNA 密度较高,其数据存储密度远远超过传统数据存储技术,可存储规模更是远远超出现有最大数据中心的容量。直观来说,1 立方厘米的 DNA 存储的数据信息比一万亿张光盘存储量还多。
最后,之前已有科学家证实了使用 DNA 进行数据存储的可行性,例如在 2012 年,哈佛大学的乔治・丘奇(George Church)就曾在 Science 期刊发表论文,将自己的一本大小为 659kb 书存进了 DNA 中,并将其导入了大肠杆菌进行复制。
然而,目前以 DNA 为基础的存储技术要想应用到临床还需要解决两个非常重要的问题。例如 DNA 存储的成本问题,以目前 DNA 合成的成本计算,在 DNA 中存入 100 万 Gb 的数据,成本高达 1 万亿美元。
对此,Bathe 教授表示,“如果要跟硅基存储竞争,DNA 合成的成本需要再下降 6 个数量级。不过,就像过去几十年间硅基存储价格的大幅降低,DNA 合成成本预计在未来 20 年左右就会降到和硅基存储相当”。
除了成本之外,DNA 存储所面临的另外一个难题在于,如何从所有存储信息中挑出想要的文件。目前,人们常用的是 PCR(聚合酶链式反应)来检索 DNA 文件,每个 DNA 数据文件都包含一个特定的 PCR 引物结合序列。
不过,这一检索方法有一个致命的缺点,那就是引物和靶 DNA 序列之间可能存在干扰,脱靶会导致不需要的文件被拉出。此外,PCR 检索过程中需要酶,最终也会消耗掉大部分的 DNA。
新技术解决 DNA 存储信息检索难题
作为替代方法,Bathe 教授带领的研究团队开发了一种全新的检索技术。该技术首先将每个 DNA 文件封装到一个直径 6 微米的二氧化硅颗粒中,每个颗粒最高容量可达 1Gb,同时每个二氧化硅颗粒都被标记上与文件内容相关的 DNA 单链条形码。
接下来,研究团队验证了上述方法的可行性,他们将狮子、老虎、猫、狗、香蕉、飞机等等 20 个不同的图像编码到大约 3000 个核苷酸长度的 DNA 片段中,相当于大约 100 B。每个文件都标有与 “猫” 或 “飞机” 等标签相对应的条形码。
图 | 可内容寻址的分子文件系统的写 - 访问 - 读循环
当研究人员想要提取特定图像时,只需添加与他们正在寻找的标签相对应的引物,就能快速找到对应的文件。引物用荧光或磁性粒子标记,便于从样本中读取和识别匹配信息,这种方法允许人们自主删除所需的文件,而不会损坏其他 DNA 文件。
同时,研究人员使用了来自哈佛医学院 Stephen Elledge 教授开发的 100000 个序列库中的单链 DNA 序列,每个序列长约 25 个核苷酸。如果在每个 DNA 文件上放置两个这样的标签,可以对 100 亿个不同的文件进行唯一不重复标记,如果每个文件上有四个标签,则可以唯一不重复标记 1 万亿亿个不同的文件。通过这种方法,研究团队实现了每秒 1 KB 的搜索检索速度,目前来看,这一速度仍然太慢。
不过,研究团队表示,目前 DNA 存储技术比较适合用于存储 “冷” 数据,也就是保存一些不常访问的数据。目前 Bathe 教授正在成立一家名为 Cache DNA 的初创公司,致力于长期存储 DNA 技术的研究。
总的来说,Bathe 教授的研究突破了 DNA 存储技术发展的瓶颈,为 DNA 存储过程中的信息搜索提供了一种新的解决方案。未来,随着 DNA 作为存储介质成本的下降,人类基因测序和其他相关技术的发展,DNA 存储技术非常有希望替代传统的硅基存储。
参考资料:
https://www.sciencedaily.com/releases/2021/06/210610135710.htm
https://www.nature.com/articles/s41563-021-01021-3
编译:头条号 @学术头条