?> 一条DNA单链放下整部维基百科?这家美国公司做到了-严选好基因网
首页 > DNA新闻 > 基因检测 > 基因公司

一条DNA单链放下整部维基百科?这家美国公司做到了

我们的祖辈,用纸笔写下族谱并保护起来。因为作为介质的纸,一场大火足以付之一炬;
我们的父辈,开始用磁带、软盘和光盘,保存重要的资料。然而现如今,想要找到读取它们的设备越来越难;
今天,关于这一代所有的记录,都可以在我们的手机、电脑、钱包里的U盘和远方的“云”上找到。

一次次的科技进步,为我们带来更小、更高效、更持久和抗摧毁的数据存储方式。

但是很多人都没意识到,大自然也有着一项“天然”且十分“保险”的存储介质。它极其微小,且被每一个人所拥有。在遗传学家看来,这一介质承载了作为物种的人类,从类人猿进化到智人的所有数据记录

这一介质,就是 DNA。

最近,一家位于美国波士顿的医学科技公司 Catalog 宣布,在人造 DNA 作为数据存储介质的研究方面实现重要里程碑。

该公司成功在一条人造 DNA 单链当中,保存了整部维基百科(英文版)。

“人类在工程上的许多壮举,来自于我们对其它物种的模仿。我们看到会飞的鸟,发明了能让人类也飞起来的飞机,”Catalog 科学家 Milena Lazova 在一则视频里表示,“DNA 也是同理,我们看到人体存储了信息,为什么不用 DNA 来存储数据呢?”

DNA(脱氧核糖核酸)是一种生物大分子,构成基因的主要方式。通常,DNA 是以双螺旋结构 (double helix),也即两条链相互配对且紧密结合的形态存在的。

许多人可能都在生物课中学过 DNA 工作的基本原理。通俗来讲,DNA 链条上通常包含四种碱基 (A, T, C, G),而不同碱基的排列组合方式,最终决定了我们的长相、智力,以及不同病症的发病风险等。

对于包括人类在内的大部分物种,正是因为 DNA 上面含有信息,才能决定遗传的结果。

在过去的几年里,用于医学的基因编辑技术取得了长足的进展。人们现在可以在极小的、可接受的误差范围内,对已有的基因序列进行“Ctrl-x、c 和 v”。这一技术使得人类有机会攻克一些曾被认为无法根除的绝症,但也引发了一些道德争议[1]。

从 DNA 结构首次被发现到今天已经过去了将近70年,基因学家仍无法百分之百明确 DNA 序列的全部意义并利用它;但是,在数据存储的语境下,一切其实并没那么复杂:毕竟大部分的数据信息,最终还是回到1和0。

科学家将A、T、C、G分别定义为 01、10、00和11。这样,一条含有四种碱基排列组合的 DNA 单链实际上就变成了一条二进制的数字串。

而 Catalog 的厉害之处,在于他们找到了一种更快、更廉价地按照要求排列碱基,从而将数据编码到 DNA 分子里的方法:简单来说,大规模排列提前生产好的碱基片段,再进行合成。

比方说 bagel 这个词:

ASCII: b a g e l二进制: 01100010 01100001 01100111 01100101 01101100碱基排列: ATGT ATGA ATAC ATAA ATCG

研究人员只需要把上面这五段碱基序列,再用酶合成,就制成了一条 DNA;同理,一句话,一本书里的全部单词,甚至是一张 JPEG 照片,都可以转化成二进制编码,再编码到 DNA 里。

Catalog 自主开发了一台“DNA写入机”(详细资料不足,目测大约一台冰箱大小)。这台机器每天可以写入1TB左右的数据,从而实现了大规模人工编写 DNA 信息

市面上买到 DNA 测序仪并不难,所以任何人(只要有钱)都可以重新读取这些 DNA 信息,把它们转化为原来的文字或图片格式。

Catalog 由两位科学家联合创建,团队不足10人。CEO 朴显俊 (Hyunjun Park) 在威斯康辛州大学麦迪逊分校完成微生物学博士学位,创业前在麻省理工学院担任博士后研究员。首席技术创新官 Nathaniel Roquet 拥有哈佛大学生物物理学博士学位。

朴显俊和 Roquet 在2016年参加了 IndieBio 生物科技加速器。在当时,他们还没有发明出前面提到的那台机器,Roquet 必须用滴管来完成操作,花了足足4个小时,做完手都肿了。

幸运的是,他们完成了概念验证,首次成功在一段 DNA 中注入了美国著名诗人罗伯特·弗罗斯特的《未选择的路》,一段大约1KB的信息[2]。

在靠创始团队自己出资支持两年之后,Catalog 终于在2018年获得了恩颐投资 (NEA)、DataCollective 等在内的约800万美元注资。从《未选择的路》,到《银河系漫游指南》,到今天的英文版维基百科——因为DNA写入机的成功开发,Catalog 的数据录入效率越来越高。

对于大部分人,Catalog 开发的技术属于“杀鸡焉用牛刀”,毕竟基于硬盘或闪存芯片的本地或云端存储,目前已经十分廉价。

最适合使用 DNA 存储信息的,其实是那些需要长期存储海量数据,或者对于海量数据的全球运输有频繁需求的机构,比如数据中心和云计算公司。

硬盘本身的确便宜,但在数据中心里让大量机柜持续运转,费用极高,而且对于一些存储方案来说,断电会导致数据丢失,因此还要考虑灾备的进一步成本。

相比之下,DNA 的信息存储密度大约是闪存的一百万倍。

据 Catalog 计算,一座大型数据中心的存储容量大约在 1EB(一千PB或一百万TB)左右。而1EB数据如果写入到 DNA 上,大约只有一块方糖大小。

因为存储密度大,DNA 还很适合用于海量数据的运输。

举例:你的公司最近要把10PB的数据迁移到亚马逊 AWS 上,知道 AWS 会怎么做吗?
答案:AWS 会派来一辆卡车,把你的数据都保存到硬盘上,放到集装箱里,再运到数据中心里上传,费用大约是50万美元;当然,你也可以选择把硬盘寄给亚马逊。
为什么:数据量太大,带宽不够,效率太低。集装箱实际上是最高效的运输手段。

如果用 DNA 存储呢?这些数据还不到刚才那一枚方糖的大小。所以,在纸上滴一滴 DNA,寄给对方就可以了。

而且,把 DNA 存储当作灾备方案也很合适,因为 DNA 分子链很稳定,保存长达几千甚至上万年都不会丢失数据——当然,前提是未来的人们还在用 DNA 测序仪。

更进一步,如果未来人类真的走到行将灭绝的路口,需要提前将所有历史、知识、数据进行数字化保存……使用 DNA 进行存储的话,全人类的文明只要一个冰箱就能装下

“我热爱发明前人未曾想到的东西。但是更让我们感到激动的,是想到我们的发明能够为将来的世界带来巨大的价值。”Roquet 表示。

声明:该文观点仅代表作者本人.
阅读 ( )