综合二维色谱是一种高效化学分离复杂混合物的强大技术,越来越多地用于样品分类和生物标记物发现等交叉样品分析。这些技术,如GCxGC和LCxLC,产生了大量信息丰富但高度复杂的数据集,并且需要使用稳健的方法进行自动化处理。一个重要的挑战是选择几个可以有效用于聚类和分类多个样本的标记。一种新开发的工作流程和相关工具允许分析员通过使用色谱和质谱信息来区分标记化合物的专业检测和识别约束,在许多样品中检测常见和独特的化合物。此外,用于多分类方法的新可视化工具不仅提供了度量值,还提供了关于哪些特征对区分样本有效的指导性预测。


介绍

非目标交叉样品分析(如样品分类和生物标记物发现)需要分离、量化和识别富含化学物质的样品中的大量化合物,然后跨样品和样品类别关联复杂成分。先进的色谱法、质谱法和统计数据分析方法可以结合起来解决这一挑战[1]。特别是,与传统的一维色谱法相比,使用综合二维色谱法(如GCxGC和LCxLC)进行的分离提供了更大的分离容量和信噪比[2,3]。结合高分辨率精确质谱,全面的二维色谱是一种强大的分析解决方案。然而,产生的大型复杂数据集也给数据分析带来了挑战。


InvestigorTM框架(GC Image,Lincoln NE,USA)开发了以前对多个样本的数据进行分析的方法,以提取一个特征模板,该模板全面捕获在保留时间平面中检测到的峰值模式[4,5]。如图1所示,自动特征模板提取通过以下方式进行:(1)匹配峰,以构建能够在色谱图中可靠匹配的对齐峰模式;(2) 对齐并合并样品的色谱图,以创建复合色谱图;检测复合色谱中观察到的峰区。然后,对于每个样本色谱图,将提取的特征模板转换为与检测到的峰模式对齐,并用于从转换后的峰区域生成一组特征测量值,以进行交叉样本分析。该方法避免了通常难以解决的综合峰值匹配问题,可以生成具有数千个特征的特征模板。


研究者框架的结果是一个具有三个数据维度的特征数据库:提取的化学特征(即峰和峰区域);为每个特征测量的各种属性,例如保留时间和响应;以及样品和样品类别,相对测量值可用于比较成分。这些特征数据库可用于化学指纹识别、样品分类、化学监测、样品聚类和生物标记物发现。一个重要的挑战是开发数据分析和可视化工具,这些工具可以帮助选择一些可以有效用于聚类和分类多个样本的标记。


标记选择的一个常见问题是检测出一些样本中出现的意外化合物,而不是其他样本中的意外化合物。开发了一种新的工作流程和相关工具,允许分析员检测许多样品中常见和独特的化合物。这一新的工作流程通过使用色谱和质谱信息来区分目标化合物的专业检测和识别约束扩展了研究者框架。此外,用于多分类方法的新可视化工具不仅提供了度量值,还提供了关于哪些特征对区分样本有效的指导性预测。通过GCxGC与四极飞行时间(Q-TOF)质谱联用分析两个样品集,证明了该工作流程。


经典统计学

给定由研究者框架提取的特征数据库,可以使用经典统计工具进行多类分析,以选择样本中相对存在与样本类别统计相关的成分。对于两个样本类,通常使用费希尔判别比(FDR)。FDR是组间方差与组内方差的比值[6,7]。它可用于评估每个峰区特征中测量值的两两类差异:


其中,FDR(x1,x2)是两类测量值样本集的FDR,其中x1来自类别1,x2来自类别2;μi是xi中样本值的平均值;σi2是xi中样本值的方差。对于多个样本类别,F值用于评估多类别差异[7,8]:


where K is the number of classes, Ni is the number of sample values in xi , N is the number of sample values in all classes, μi is the mean of sample values in xi , μ is the mean of all sample values, and xi ,j is the jth value in xi. For k=2 and N1=N2, FDR and F value are equal.


较大的FDR或F值表示相对于类内分布,类平均值之间存在较大的分离。变化的方向由平均值的差异表示。


虽然FDR和F值对于传统的数据分类分析很有效,但它们并不总是能够满足色谱数据分析和化学标记物选择的实际要求。例如,在实践中,每类采集多个样品或为每个样品采集多个色谱运行可能会很昂贵。在每个样品类别使用单一色谱的情况下,无法计算FDR和F值(因为它们依赖于类内方差)。此外,即使每个样品类别都有多个色谱运行,单靠FDR或F值可能无法提供通用性和唯一性的可靠预测。例如,具有高F值的复合特征可能只是由于响应差异,而不是所有样本的标识差异。因此,为了检测出现在一个样品类别中而不是其他样品类别中的独特化合物或出现在所有样品中的常见化合物,需要使用多个测量属性,例如保留时间、响应和光谱信息,来交叉检查化学特征的身份。


方法

开发了一种新的工作流程和相关工具,以根据色谱和质谱信息扩展研究者框架,并对其进行专业检测和识别,以区分目标化合物。其目的是提供在特征数据库上操作的搜索和可视化方法,以在多样本类或单样本类的多个样本中查找常见和独特的化合物。


从研究者框架开始,使用一个模板对每个色谱图进行分析,该模板包括:(1)一组可在色谱图中可靠识别的峰,用于色谱比对;(2)一组综合的峰区,用作半定量样品比较的特征。可靠的峰由所有可能的色谱对的双向配对匹配确定[9]。峰区特征通过对所有色谱图进行对齐和求和而生成的复合色谱图中的峰检测来描述[5]。对于每个色谱图的分析,使用可靠的峰对齐模板,然后将每个峰区域视为一个复合特征。识别每个色谱图中相同化合物特征的问题会自动隐式解决,因为测量是在每个色谱图的相同峰区中进行的。


然后,从色谱图中提取化合物特征的色谱和光谱信息并存入特征数据库。提取的色谱属性包括保留时间、信噪比(SNR)和每个峰区的总强度计数(TIC)。TIC值为色谱图中的化合物特征提供了相对测量值。为了在色谱图之间进行归一化,将TIC测量值归一化为同一色谱图中所有峰区的总TIC值,以给出百分比响应的测量值。提取的光谱信息包括每个复合特征的光谱及其基峰,可用于基于光谱相似性确定特征对应性。然后,通过应用指定的标准来构建和修剪复合样本类层次关联指数(HAI),该标准可以提供样本间复合偏差的分析有用信息,如图2所示。


HAI上的修剪过程使用以下三种通用过滤器:


•检测滤波器:SNR用于从仅包含背景信号的峰值区域中过滤出复合特征。


•交叉样本显著性检查:对于多样本类,使用基于方差的统计(即FDR或F值)来选择复合特征。低方差表示共性,高方差表示唯一性。对于单样本类,样本是通过应用于相对测度的阈值来选择的,该相对测度通过样本的最大值进行归一化。如果选择了所有样本,则相应的复合特征可能是通用的。如果只选择了一个样本,则复合特征可能是唯一的。


•交叉样品识别检查:通过匹配分数和基峰在样品间比较相同化合物特征的光谱。与其他样品相比,样品特有的化合物应具有较低的匹配分数。所有样本中常见的化合物在所有样本中应具有较高的匹配分数。


修剪结果通过彩色气泡图可视化。每个气泡代表一个常见或独特的复合特征。气泡的颜色表示检测化合物的类别。可以设置气泡的大小以指示其重要性,例如,单样本类的信噪比或多样本类的F值。根据气泡的保留时间放置所有气泡。得到的气泡图不仅提供了度量值,还提供了指导性预测,如以下结果所示,哪些特征对区分样品有效。


实验

这里给出了两个示例分析,以证明新工作流的有效性。使用GC Image GCxGC-HRMS Edition Software(美国林肯NE GC Image 2.7版)的开发版本对数据进行处理和可视化。


多样本类示例:稻瘟菌


第一个示例分析了4种稻瘟病菌(稻瘟病菌)的数据,包括野生型(wt)Guy11菌株和因缺失编码氮调节器(Δnut1)、碳调节器(△mdt1)和碳氮代谢积分器(△tps1)的基因而导致的突变菌株[10,11]。针对四个类别(wt、Δnut1、Δmdt1和Δtps1)中的每个类别收集了三个样品。收集菌丝组织样本,冷冻干燥,并在液氮中研磨。使用甲醇:氯仿:水(1:2.5:1,v/v/v)的混合物提取代谢物。在真空下干燥提取物,然后通过甲氧基化衍生,然后使用MSTFA 1%TMCS进行硅烷化。使用GCxGC-QTOFMS系统对12份样品进行分析。GCxGC系统(配备美国加利福尼亚州圣克拉拉安捷伦科技公司7890B型GC)采用了环路热调制器(美国德克萨斯州休斯顿Zoex公司ZX2型)。QTOFMS系统(7200系列GC/Q-TOF MS,安捷伦科技有限公司)以每秒50个光谱的速率获取二级塔流出物的高分辨率质谱。表1总结了仪器条件。


研究者框架提取了159个用于对齐的可靠峰和572个用于创建特征模板的峰区域。使用了以下标准

要搜索:


•检测滤波器:SNR>10,


• Cross-Sample Significance Check: SNR F Value Threshold = 5,


• Cross-Sample Identification Check: Spectral Match Factor Threshold = 500.


在总共572个特征中,发现35个特征为常见特征,5个特征为两种真菌类型的独特特征,如图3所示。在左侧,气泡图显示了具有F值作为气泡大小的所有特征。对于使用一对多策略计算出最大FDR值的类,为每个特征分配一种颜色[12]。具有较大FDR或多类F值的特征可被视为代谢组差异的潜在生物标志物。在右侧,气泡图显示了F值作为气泡大小的常见和独特特征。根据上述标准进行修剪后,每个唯一的特征都被分配给它所属样本的类标签。显然,并非所有潜在的标记都是特定类别的独特创造者。最有希望的标记可以进行更仔细的检查。图4显示了wt样品的一个显著特征。


一个示例类示例:精油

第二个例子分析了10种精油的数据,包括小豆蔻、丁香芽、芫荽、茴香、姜油、杜松子、薰衣草、肉豆蔻,薄荷和松节油[13]。每种精油只采集了一个样本。使用GCxGC-QTOFMS系统和Agilent 7890A GC/Zoex ZX2热调制系统以及Agilent 7200 Q-TOF对10个样品进行分析。直接注入样品。表2总结了仪器条件。


研究者框架提取了35个用于对齐的可靠峰值和1352个用于创建特征模板的峰值区域。使用以下标准进行搜索:


•检测滤波器:SNR>10,


• Cross-Sample Significance Check: Relative SNR Threshold = 0.1,


• Cross-Sample Identification Check: Spectral Match Factor Threshold = 500.


如图5所示,共有1352个特征,其中有12个共同特征和319个独特特征。在左侧,复合色谱图上覆盖了所有提取特征,这些特征由紫色矩形表示。在右侧,气泡图显示了常见和独特的特征,平均百分比响应是由上述标准确定的气泡大小和类别标签。图6显示了薰衣草的一个显著特征。在杜松子的色谱图中,该特征峰区为背景区;在姜油的色谱图中,它含有另一种光谱不同的化合物。如果没有交叉样本身份检查,这个特征就不会被发现是薰衣草的独特化合物。


结论

经典统计工具很有用,但不足以进行实际交叉样本数据分析。上述新的工作流程和相关工具将经典统计工具与高级数据处理、过滤和可视化相结合,以检测多个样本中常见和独特的化合物。使用GCxGC-QTOFMS数据,通过两个典型的非目标分析案例演示了该工作流程。同样的工作流程可用于使用任何全面的二维色谱技术分析多类样品。


附件
New-Investigator-Tools-for-Finding-Unique-and-Common-Components-in-Multiple-Samples-with-Comprehensive-Two-Dimensional-Chromatography.pdf
1373kb
pdf
所有平台
下载文件
附件购买
售价:0 芽币

登录注册购买