作者

Ariana Remme

地球上的每一块岩石都是一个时间胶囊,保存着矿物最初形成时我们星球的痕迹。

伊利诺伊大学芝加哥分校的有机地球化学家约瑟夫·帕斯特斯基(Joseph Pasterski)说,想象一下1.64亿年前的一小块粘土。一个大约2厘米长的样品包含了由地球遥远过去的无数分子组成的复杂混合物质层。

像帕斯特斯基这样的研究人员希望利用当今最先进的分析工具,对混在一起的矿物进行分类,以揭示古代生命的化学迹象。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第1张

 考古工作者挖掘出的新证据石器显示,距今240万年前就有古人类出现在北非

例如,使用飞行时间二次离子质谱法(TOF-SIMS),帕斯特斯基可以对古代粘土样品生成许多500×500 μ m的元素像块,每个像块产生大约62,000个谱图。

帕斯特斯基随后利用这些数据寻找可能是生命迹象的有机分子,比如甾烷。这些谱图不仅捕获了这些生物特征,还捕获了人们可能期望在一块古老的泥块中发现的所有其他沙砾和碎片。

帕斯特斯基说:“有很多数据不是噪音,但不一定与你提出的问题相关。” 他说,手动处理来自一个像块的谱图以识别感兴趣的信号就已经够乏味的了。现在想象一下处理整个粘土碎片的谱图或是样品的整个谱库。

对于科学家来说,这是一大块令人生畏的数据,但对于计算机来说呢?帕斯特斯基很好奇。在化学科学领域,他并不是唯一一个思考计算机能否成为数据分析助手的研究人员。

科学家们正在被海量的数据淹没。2022年,为了应对科学进步和数据存储量大增的需求,国际单位制引入4个新的用于构成十进倍数和分数单位的词头,分别扩展了最大和最小数字的计数单位......

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第2张

新增的4个词头分别是ronna、quetta、ronto和quecto。其中,ronna表示1027,quetta表示1030。分析仪器和方法的进步,以及越来越多的开放科学化学信息库,为研究人员提供了大量的数据,以探索生物和物理科学的问题。

一些科学家希望利用计算机来帮助他们理解所有这些信息。当涉及到谱图和显微图像等视觉数据时,机器可以很好地提供帮助。机器学习(ML)算法已经擅长识别模式和创建图像。

例如,科技公司OpenAI的Dall-E2程序可以根据文本提示生成图像。科技公司DeepMind开发的程序AlphaFold已经证明,机器可以学习化学概念:它已经预测了1000多万种物种的2亿多个蛋白的3D结构。

现在,计算科学家正在设计算法来自动化处理分子数据集,如多维核磁共振波谱、复杂质谱数据和显微照片。为了做到这一点,研究人员正在教计算机像人类化学家那样处理可视化数据。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第3张

在这种方法中,科学家们需要问,专家在这些谱图中看到的是什么?我们如何训练一台机器看同样的东西?

麻省理工学院的计算化学家康纳·科利(Connor Coley)说。由此产生的程序可以加快实验速度,处理大量数据,并使研究人员能够研究以前难以观察到的短寿命分子系统。

生物医学研究人员试图了解一种疾病在临床组织样本中的分子基础,必须通过化学汤(化学物质的溶液)进行筛选。临床医生用来评估组织样本化学成分的一种方法是质谱法。

质谱仪将材料离子化,以测量每种化合物的质荷比,让科学家通过它们的分子量来区分化学物质。进一步的方法可以将这些分子打碎成更小的碎片,这些碎片的质谱图为原子如何在化合物中排列提供了进一步的线索。

这些技术的结合有助于科学家通过分子的结构和分子量来描述分子。“这有点像看到了分子的拼图,你必须把它重新拼起来,”麻省理工学院与科利一起工作的计算生物学博士生萨姆·戈德曼(Sam Goldman)说。

质谱分析是一种对生物样本进行化学分析的强大工具,但目前的方法——无论是否有机器辅助——要将碎片模式与形成它们的分子联系起来都是非常困难的,科利说。戈德曼和科利意识到,通过解决这一瓶颈,机器学习可以帮助生物学家更容易地识别样本中的未知因素。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第4张

计算化学家已经在训练计算机,利用一组峰作为分子的指纹,通过其产生的数据对谱图进行分析。科利说,这些程序擅长发现整个分子的分子量及其产生的片段的模式,但由于缺乏专门的化学知识,导致它们的实用性受到限制。

观察这些谱图的人类科学家会首先识别整个分子的信号,然后寻找由片段峰形成的特征模式。具有化学专业知识的研究人员可以很快将两组片段之间的质量差异归因于功能基团的缺失。然后,他们可以凭直觉知道这些官能团是如何在整个分子中组合在一起的。

戈德曼和他的同事们希望通过诱导机器学习(ML)算法像研究人员一样思考,来改进现有的计算方法。他们的算法将质谱中的峰解读为化学分子式,并根据分子键合理论来理解同一谱图中的片段峰之间的关系。“你可以从大量的模式中学习,我们希望给模型最好的机会来选择正确的模式,”戈德曼说。

戈德曼和同事们对他们的程序进行了训练,这个程序被称为“Metabolite Inference with Spectrum Transformers (MIST)”,它使用了来自公共数据库(譬如美国国家标准与技术研究院和全球天然产物交互分子网络平台(GNPS)的数据库)的27000多张分子的谱图。MIST还从其他ML算法模拟的谱图中学习。

在基准实验中,MIST成功地从测试分子的质谱中识别出超过66%的测试分子的结构,这比其他程序有了明显的改进。随后,戈德曼和他的同事们利用炎症性肠病患者组织样本的谱图对MIST进行了测试。MIST向研究小组指出了与更严重症状相关的新型二肽和生物碱分子。相关结果发表在了预印本网站BioRxiv上以待同行评议。

戈德曼表示,MIST旨在与研究人员用于处理和解释高通量质谱数据的其他计算工具一起工作。他希望使用ML来完成计算繁琐的结构识别,这可以让生物学家们腾出更多的时间来思考复杂生物系统中的代谢物是如何发挥作用的。

ML还可以帮助研究人员分析数据来阐明蛋白质结构。例如,用于核磁共振应用的人工智能技术(ARTINA)可以直接从多维核磁共振谱图中求解蛋白质结构。相关成果发表在了《Nature Communications》上。

对于有兴趣研究溶液中甚至完整细胞内蛋白质动力学的科学家来说,核磁共振是一个有用的工具。蛋白质的核磁共振波谱图用于帮助科学家探索蛋白质的分子组成以及它如何与其他分子相互作用。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第5张

但实验得到的谱图结果可能较难处理。虽然一些谱图表现为沿着单轴的一系列峰,但其他的看起来更像地形图:不规则的、多维的峰簇在网格中蔓延。即使是专家也可能要花费数周或数月的时间挑选出所有相关信号,将它们分配给蛋白质中的氨基酸,并将这些氨基酸组装成一个合适的3D蛋白质结构。

法兰克福歌德大学和苏黎世瑞士联邦理工学院(ETH)的结构生物学家彼得·金特尔特(Peter Güntert)和他的同事们想利用ARTINA使这一过程变得更易于管理。

首先,金特尔特和他的同事们编制了一套实验和模拟蛋白质核磁共振波谱的训练集,其中每个峰都被标记并分配给所研究的蛋白质中的一个特征。利用这些数据集,研究人员教ARTINA可视化地检查波谱数据,以便它可以自动注释谱峰,并提出一个3D结构来解释它检测到的模式。

研究人员用了100个35到175个氨基酸长度的蛋白质的核磁共振波谱对ARTINA进行测试。该程序准确地解决了这些蛋白质的结构,并正确地将91%的波谱峰分配给这些结构中的特征。

就像人类专家一样,该程序在预测蛋白质骨架如何折叠方面比预测氨基酸侧链如何排列方面做得更好。最突出的错误出现在含有无序区域或某些二级结构(如松软的螺旋)的蛋白质中。结果足以表明ARTINA并不比一般的波谱学家差,金特尔特说。

虽然研究人员在使用该程序时应该谨慎,但错误通常很容易被发现。有时候程序很明显地搞砸了,没有输出结果,或者这个结构明显没有意义。“实际上,通常很难得到看起来不错但有实质性错误的结果,”金特尔特说。

现在,研究人员可以将数据上传到一个名为NMRtist的网络服务器上,该服务器可以执行蛋白质核磁共振分析的所有步骤,例如注释谱图和生成完整的蛋白质结构,而无需任何干预。上传的谱图被自动添加到新的训练集中,用于在未来的迭代中改进ARTINA。

由于ARTINA不需要专门培训,金特尔特希望他的团队的努力能够帮助不熟悉蛋白质核磁共振的临床医生和生物医学科学家将这些方法纳入他们的研究。

使用MIST和ARTINA,科学家将谱图输入程序并等待它返回结果。橡树岭国家实验室的研究科学家马克西姆·齐特迪诺夫(Maxim Ziatdinov)正在开发一种程序,帮助材料科学家进行实时显微实验。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第6张

对设计新材料感兴趣的科学家经常使用电子和扫描探针显微镜来研究样品的原子和分子特征。这些仪器还可以操控样品的结构。材料相应的反应方式则可以帮助研究人员阐明结构-功能关系,这是理解这种材料为什么会表现出这种行为的关键。

电子显微镜和扫描探针显微镜实验都可能很耗时。首先,这些显微镜在通常包含数千个原子和数百个特征的视场内逐帧记录样品的图像。齐特迪诺夫说,经过更仔细的观察,这些特征可能会揭示一些有趣的特性,比如导电性和储能能力。

因此,研究人员随后使用先进的显微技术,如激光脉冲,来操纵这些特征区域中的单个原子,以收集关键的结构-功能信息。“没有办法手动分析所有的(数据),” 齐特迪诺夫说。

因为暴露在显微镜的苛刻条件下会使样品降解,所以实验有时间限制。在整个样品被处理完之前,一些材料在仪器的高真空和高能电子束作用下会发生分解。因此,科学家们在对一个样品进行实验的次数上必须谨慎,或者干脆避免使用不稳定的材料。

齐特迪诺夫和他的同事们看到了一个将机器学习(ML)应用在优化成像和材料处理过程的机会。研究人员设计了一个名为AtomAI的程序,可以在每一帧扫描中识别每个原子及其位置。然后算法预测哪些区域最有可能产生一个给定的功能行为。相关成果发表在了《Nature Machine Intelligence》上。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第7张

“一般的想法是,你先确定容易获得结构图像的区域,在此区域内进行几次光谱测量,然后使用那些信息来预测该区域剩余部分的光谱可能是什么样子,” 齐特迪诺夫说。有了这些信息,研究人员就可以决定下一步要做什么,比如用激光脉冲处理结构,或者进行更广泛的测量,而不需要离开显微镜。

他说:“这是一个助手,可以让你更快地做出决定,因为在实验还在进行的时候,它能让你知道你的系统里发生了什么。” 他说,那种改进将实验时间从几周缩短到几天。

因此,AtomAI可以让研究人员研究在传统的、较慢的实验流程下非常不稳定的样品,齐特迪诺夫说。他认为,自驱式显微镜不仅可以让科学家更容易发现新材料,还可以促进原子精密设备的制造,比如量子信息技术所需的量子比特组件。

让我们把话题再拉回到伊利诺伊州,帕斯特斯基一直在使用TOF-SIMS和机器学习(ML)算法来研究那些古老的粘土样本。如果粘土的一个剖面主要包含的是有机或无机物质,这个组合的测试准确率可以超过80%。

根据他在芝加哥美国地球物理联合会2022年秋季会议上展示的研究成果,它还成功识别了基于甾烷的生物印记(生命的化学变化特征),准确率超过95%。帕斯特斯基认为,这些初步结果表明,进一步的发展可以使ML方法成为在地质样本中寻找生命迹象的有力工具。

特别是,他认为ML方法在一个极端的实验环境中会很有帮助:就是其他星球。当NASA的“毅力号”火星车等探测器在火星上研究样品时,由于距离地球极远,数据传输速度变慢,使得地球上的科学家很难指导这台机器如何分析材料。

电脑正在学习如何分析化学家的谱图和显微照片,图片,矿物,显微镜,机器学习 (ML),人工智能,数据处理,第8张

美国“毅力号“火星车完成着陆后首次行驶测试

此外,虽然这些探测器携带着强大的仪器,但由于发射时的重量限制,工程师们只能在这些远程实验室里安装这么多设备。帕斯特斯基认为,通过一个ML程序来指导探测器上的质谱仪,可以帮助探测器上的设备更有效地进行样品分析,减少对人工指导的依赖。

但计算科学家警告说,ML并不能解决化学家面临的所有实验挑战。麻省理工学院的科利说,科学家不应该仅仅为了使用ML而去接触ML。他说:“我们确实在努力找出它的优势所在,以及它比现有技术在哪些方面有优势。”而且人类在许多任务上仍然更胜一筹。

“我想说的是,人工智能实际上是被增强的智能(译者注:智能增强强调的是借助机器加强或拓展人类智能,而不是取代人类。),” 齐特迪诺夫说。因为,尽管计算机可能以令人眼花缭乱的速度处理数字,但人类科学家将永远是提出问题的人。


说明:本文主要译自美国化学会《化学化工新闻》Volume 101, Issue 7,February 26, 2023。