目前,Project Silica 的硬件距离商业化还差一步。
长期归档存储一直面临诸多挑战。我们希望存储介质既拥有极高的密度,又能在数百年甚至更长时间内保持稳定,并且理想情况下,在未被访问时不消耗任何能源。围绕这一目标,业界提出过许多设想——甚至连 DNA 都曾被考虑过——但其中一个最简单的思路,是将数据刻写进玻璃中。许多类型的玻璃在物理和化学层面都非常稳定,而且在其内部刻写结构相对容易。
此前已经有大量前期研究,展示了玻璃存储系统的不同技术环节。而在本周三发表于《Nature》的论文中,微软研究院宣布推出 Project Silica,这是一个完整的工作系统演示,能够在小块玻璃板中读写数据,其存储密度超过每立方毫米 1 Gigabit。
写入玻璃
我们通常认为玻璃易碎、容易破裂,甚至有人误以为玻璃会在几个世纪内缓慢“流动”——尽管后者其实是个神话。事实上,“玻璃”是一类材料,不同的化学物质都可以形成玻璃态结构。通过选择合适的原材料,可以制造出一种如研究人员所描述的那样“在热学和化学上高度稳定,并且能够抵抗水汽渗透、温度波动以及电磁干扰”的玻璃。当然,它仍然需要小心处理以避免物理损伤,但在长期存储的需求下,玻璃提供了理想的稳定性。
将数据写入玻璃,理论上只是“刻写”而已。但刻写传统上是一个缓慢的过程,这一直是挑战之一。飞秒激光的出现改变了这一局面。飞秒激光的脉冲持续时间仅为 10^-15 秒级别,每秒可发射数百万次脉冲。这不仅显著缩短了写入时间,还能将刻写精确聚焦在极小区域,从而提高潜在的数据密度。
读取数据则有多种方案。我们已经成功利用激光从光盘中读取数据,尽管速度较慢。理论上,只要能够识别玻璃内部刻写的微小结构,就可以实现读取。
在这些技术基础之上,Project Silica 在理论层面已经具备条件。关键问题在于:如何将这些技术整合为一个可运行的系统。出于谨慎考虑,微软决定以两种不同方式来回答这一问题。
构建真实系统
这两种方案的核心区别,在于如何将一个数据单元(称为“体素”,voxel)写入玻璃。
第一种体素方案基于“双折射”(birefringence)原理。双折射是指光子在材料中的折射率取决于其偏振方向。利用偏振激光,可以在玻璃中刻写出具有双折射特性的体素,并生成小于衍射极限的微结构。具体实现中,首先用一个激光脉冲在玻璃内部形成椭圆形空洞,然后再用第二个偏振脉冲诱导双折射特性。体素的“身份”由椭圆的方向决定。由于可以区分多个方向,每个体素就能够存储多于 1 bit 的信息。
另一种方法则通过调节激光脉冲能量,改变材料的折射程度。同样,这些体素也能够区分超过两种状态,从而在单个体素中存储多个数据位。
微软 Flight Simulator 的地图数据被刻写在 Silica 存储介质上。图片来源:Microsoft Research
读取数据时,Silica 使用能够识别折射率差异的显微镜技术。对于显微成像爱好者来说,这意味着他们采用的是“相差显微镜(phase contrast microscopy)”。显微成像的能力决定了在一块玻璃中可以堆叠多少层体素。刻写时,各层之间保持足够间距,确保显微镜每次聚焦时只对准单一层面。刻写过程中还会加入特殊标记符号,帮助自动化显微系统精确定位玻璃中的特定区域。随后系统逐层调整焦平面,逐步扫描堆叠结构并捕获包含不同体素层的图像。
为了分析这些显微图像,微软使用了卷积神经网络。该模型会整合位于焦平面内以及临近焦平面的图像数据。之所以有效,是因为邻近体素会以微妙方式影响当前体素的呈现形态,而 AI 系统在获得足够训练数据后,可以识别这些细微差异。
系统的最后一个关键部分是数据编码。Silica 在存储原始比特流之前,会加入低密度奇偶校验码(LDPC)进行纠错——这与 5G 网络所使用的纠错方式相同。随后,相邻比特被组合成符号,以充分利用体素能够存储多位信息的能力。当符号流生成后,数据就可以被写入玻璃。
性能表现
写入过程仍然是系统的瓶颈。因此,微软开发了能够同时使用四束激光对单块玻璃进行写入的硬件,并控制热量不过度积累。这使写入速度达到 66 兆比特每秒。研究团队认为,未来还可以再增加多达十几束激光。
之所以需要更高写入速度,是因为单块玻璃板的存储容量可高达 4.84TB(尺寸为 12 厘米 × 12 厘米 × 0.2 厘米)。按照当前速度,完整写满一块玻璃需要超过 150 小时。
所谓“最高可达”的存储容量,与两种写入方法的数据密度差异有关。基于双折射的方案需要更复杂的光学设备,而且只适用于高品质玻璃,但它能够在相同体积内刻写更多体素,因此密度更高。另一种方法则在同样大小的玻璃中只能存储略高于 2TB 数据,但硬件更简单,并且可用于任何透明材料。
硼硅玻璃具有极强的稳定性。微软通过加速老化实验推测,在室温下数据可稳定保存超过 10,000 年。因此,微软宣称:“我们的结果表明,Silica 有潜力成为数字时代的归档存储解决方案。”
不过,这种说法或许略显乐观。例如,平方公里阵列(Square Kilometer Array)射电望远镜每年预计需要归档 700PB 数据。仅这一项目,每年就需要超过 14 万块玻璃板来存储数据。即便通过增加激光数量显著提高写入速度,也仍需超过 600 台 Silica 设备并行运作才能跟上数据增长速度。而平方公里阵列只是众多产生海量数据的项目之一。
尽管如此,Silica 仍然具备一些显著优势。最突出的是,在数据保存过程中几乎不需要消耗能源,而且在需要时可以迅速读取数据——这与 DNA 存储动辄需要数天时间才能提取数据形成鲜明对比。此外,不可否认的是,这种看起来仿佛来自科幻小说的存储介质,本身就具有独特的吸引力。