探索、优化并获得性能优良的催化材料过程中的变量众多,传统的人脑化学直觉驱动的多参数空间中的试错优化过程,很有可能会导致一些重要的影响因素被人为地忽略;引入机器学习的方法进行数据挖掘,能够从数据驱动的分类/回归模型中获得特征重要程度排序以获得人类研究者难以直观地从实验数据中获得的见解。以沸石咪唑骨架(ZIF-8)衍生的氧还原催化剂为应用领域,除热解温度之外,绝大多数研究都没有将热解时间设置为变量,但机器学习建模的结果却表明其具有决定性。在机器学习模型的预测下,材料性能、表征结果与机器学习模型运用可解释方法解析得到的规律展现出高度的一致性;三者的结合,不仅使研究者获得了一种优良的非贵金属ORR催化剂(E1/2=0.82 V vs. RHE),而且揭示了一种被忽略的火山型演变规律,还证明了机器学习有能力挖掘隐藏在复杂实验数据中的关键因素和机制,以促进能源材料的优化。 

【背景简介】 对于催化材料设计而言,传统研究往往是依赖研究者的化学直觉进行的:设计不同的合成条件与参数变量来考察产品在性能和理化性质上的变化。然而目前许多领域内,高性能材料的合成方法正越来越复杂并牵涉到越来越多的变量,因此绝大多数报道只能集中于调整少数变量,并且其结论是在本工作得到的有限实验结果数据集人工提炼得出的。通常,通过正交实验探索高维参数空间中所有可能的因素来优化催化性能在成本上是不可接受的。另一方面,仅凭主观化学直觉设计实验可能会因为研究者的学术背景与经验带来偏见,从而导致有一些重要影响因素可能会被研究者人为忽略。以沸石咪唑骨架(ZIF-8)衍生的氧还原催化剂为例,大多数研究都着重于煅烧前ZIF-8前驱体的化学组分调控和其他表面工程以及热解温度在热力学上对活性位点种类带来的影响。大量的同领域报道使得后续研究趋于同质化并固化研究者的思维,因此先例可能限制了后续研究进一步提升性能的创新空间。 

【研究出发点】 在面对多变量、高维度的复杂数据时,人类研究者察觉并归纳获得可靠规律的能力是非常有限的。随着人工智能(AI)领域的兴起,训练机器学习算法对数据集进行数据挖掘以获得独特而可靠的见解是一种新兴的解决方案,并且已被广泛应用于许多研究领域。在材料研究领域,应用机器学习建立数据驱动模型来指导实验也正在成为一种新兴趋势。通过高通量实验、第一性原理模拟、有限元分析以及文献中提取的数据集训练的机器学习模型目前在诸多研究工作中都被证明能够充分帮助研究人员找到理想性能的材料设计参数,并协助研究者加深对合成方法、材料结构和材料性能之间关系的理解。 因此,研究基于由高质量文献构建的大型数据库训练机器学习模型,以分析影响ZIF衍生 ORR 催化剂活性的复杂因素。由9种机器学习算法构建的54个分类模型和18个回归模型在网格搜索优化后得到的特征重要性分布结果表明,在催化剂的14个物理化学性质中,吡啶氮物种的含量对ORR活性具有决定性作用。此外针对14个与合成过程先关的参数,同样方法构建并分析另外 36 个分类模型和 18 个回归模型的结果表明,热解时间对吡啶氮物种含量的影响仅次于热解温度,而这在构成数据库的共计103篇相关工作中却几乎不被注意。对照实验的结果验证了机器学习见解,发现ORR性能在不同温度下皆与热解时间呈火山型关系。表征结果和被应用于解释机器学习黑箱模型的SHapley Additive exPlanations (SHAP)算法表现出高度一致,并揭示了导致这一规律的演变机制来自于三个随时间连续变化的过程:初始阶段Zn-N 物种损失,Fe-N 物种的形成和最后阶段的转化为石墨氮物种。除了催化剂设计上的新发现,研究者还证明了机器学习可以对人类研究人员难以处理的数据集进行数据挖掘。因此,这项工作可以成为新兴研究范式的一个很好的先例,该范式将机器学习作为一种工具,帮助科学家开发高性能材料、识别关键点并获得新的科学规律。

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第1张

图1 机器学习指导并挖掘隐藏要素的工作流程示意图 

【图文解析】 机器学习挖掘隐藏要素 在 ZIF 衍生的 ORR 催化剂中,在酸性介质中起决定性作用的活性位点通常被认为是原子分散的过渡金属-氮-碳物种。因此,较高的活性位点密度可以导致更好的宏观ORR活性,这可以直观地反映在表征得到的过渡金属和氮元素的整体含量上。然而,除此之外,催化材料的比表面积及其微孔和中孔结构等其他性质也会对反应物的传质路径产生很大影响。位于化学极化和传质极化混合控制区的半波电位被认为是评价ORR催化剂催化活性的常用指标。然而,半波电位也会受到研究人员测试方法的影响。例如活性无关的测试参数,催化剂负载,在各种研究中经常有不同的报告。因此,通过机器学习对数据集的分析可以阐明复杂的微观化学性质、测试参数和性能指标(酸性条件下的半波电位)之间的关系,以协助研究人员进行实验设计和机理研究。机器学习包含两个建模部分,从数据科学的角度研究电催化剂化学性质与半波电位之间的关系以及合成参数与吡啶物种含量之间的关系。 化学性质与半波电位 使用材料的化学性质和影响半波电位的测试参数作为模型的输入特征,而将半波电位设置为目标输出。对于九种不同的机器学习算法,设置了三种不同的分类标签来训练机器学习模型来区分电催化剂是否合格(半波电位超过 0.78/0.80/0.82 V vs RHE)。此外,还训练了直接预测半波电位的回归模型。共计36个模型针对14个化学性质的特征排序结果于中,机器学习认为 Fe 含量和 BET表面积是两个最重要的特征,符合化学直觉。值得注意的是,吡啶氮物种含量被视为第三个最重要的属性且与 Fe 含量的差距很小,甚至优于总氮含量。在去除掉重要性较低的特征后,重新训练的36个模型的特征排序结果中吡啶氮物种的含量仍然保持在前三。尤其当正例分类界限为较严苛的0.82 V vs. RHE时,吡啶氮物种是氧还原活性最重要的代表性特征。 合成参数和吡啶氮物种含量 与前一建模部分相同,将两个不同的吡啶物种含量(2/3 at.%)作为分类标签构建了18 个分类模型和 9 个回归模型。热解温度和热解时间超过铁盐、2-甲基咪唑和锌盐比例被认为是影响吡啶氮物种形成的两个最重要的合成参数。在仅使用一半的输入特征重新训练 27 个模型之后,热解时间也仍然是第二重要的特征。此外,在针对3 at.% 的分类任务模型中,热解时间的重要性超过了热解温度。尽管已经有很多研究从热力学的角度探讨了温度对活性位点形成的影响。然而,这些研究往往将热解时间固定在相同的值,很少有研究人员对从动力学角度探索热解时间如何影响催化剂感兴趣。相关缺乏信息可能是由于 ZIF 衍生催化剂通常采用的高热解温度超过 900 ℃,以保证锌物质的蒸发。研究者们往往采用的高温条件导致能带来高石墨化程度和相对良好的化学稳定性。然而,这容易让研究者相信最终产品似乎已达到稳定状态从而对热解时长忽视。

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第2张

图2 机器学习模型特征排序结果 

实验验证 为了探究机器学习的见解是否真正找到了人类忽略的点,研究者进行了相应的样品合成评估和表征。在不同的热解温度下,两个活性指标,即 0.8 V 时的半波电位和动态电流(vs. RHE),皆显示出与热解时间的“火山型关系。最佳样品在0.1 M HClO4 中表现出 0.82 V vs. RHE的优秀半波电位。通过对一系列在较高温度下热解的样品进行TEM表征,催化剂中没有明显的由 Fe 形成的颗粒或团簇,而能谱图则证明Fe、N 和 C 均匀分布在 ZIF 衍生的碳化颗粒上。因此可以认为,优秀的氧还原活性来自于原子级分散的Fe-Nx催化剂,这已被大量研究所报道过。表征结果显示,对于最重要的吡啶氮物种,其总体物种含量及其占总体氮物种的比例均呈现相似的下降,趋于平稳并再次下降的趋势。对于其他类型的氮物种,吡咯氮物种的含量和比例随热解时间增加持续下降,但石墨氮物种的比例不断随时间增加。无论在何种温度下,都可以观察到类似的吡啶物种类变化趋势和石墨化程度的增加。

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第3张

图3 不同热解时间与热解时长的ZIF衍生Fe-N-C样品在酸性介质中的ORR极化曲线

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第4张

图4 最佳样品Fe-1000-1h的BET/XRD/TEM 表征结果

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第5张

图5 Fe-ZIF-8前驱体与1000℃下不同热解时长样品的XPS与raman表征结果 

机理揭示 通过比较吡啶氮种类和催化活性随热解时间的变化趋势,可以发现ORR性能首先与吡啶类的含量呈负相关,在超过一定时长后呈正相关。这一时间边界在 900 ℃为 2 h,在 1000 和 1100 ℃,相应的点分别降到 1 和 0.25 h。初始负相关时间区段会随着温度的升高而变短。此外,研究者向机器学习模型引入了一种可解释的方法,SHAP,以试图了解“AI化学家”如何做出通常隐藏在黑盒模型中的决定。可以发现机器学习在 ZIF 衍生的催化剂体系中,吡啶类物质的 SHAP 值也首先呈正相关,而后变为负相关。这一发现意味着它对催化活性的影响从正面变为负面,并且吡啶氮物种物质太高或太低都不利于半波电位的提升。该结果与前述的实验表征结果一致,即过量的吡啶类物质将位于负相关区域并且不利于催化活性。 结合热重-质谱等其余表征方法对初始阶段Zn-N物种损失过程的证明。结合上述对照实验的表征结果和“AI化学家”使用SHAP方法提出的观点,研究者提出了隐藏在 Fe 掺杂 ZIF衍生催化剂中吡啶氮物种的背后演化机制。在热解之前,ZIF-8 中的决定性吡啶氮物种为Zn-N,当热解开始时,最初的主要过程是 Zn 在约 900 ℃以上的温度下蒸发。因此,该时期吡啶氮物种的含量与催化性能呈负相关,因为催化剂尚未达到足够高的石墨化程度以成为典型的 Fe-N-C 催化剂。在去除大部分 Zn-N 后(速度取决于温度),吡啶氮物种开始表现出与催化性能相同的变化趋势,因为它们主要代表作为 ORR 活性位点的原子分散的 Fe-Nx 物种直到在Fe-N 位点的含量达到饱和最大值。然而,当热解时间过长时,过度的石墨化将 Fe-N 活性位点转化为石墨氮的非活性位点,氮总量的减少进一步降低了最后阶段活性位点的丰度。

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第6张

图6 不同温度下热解时长、半波电位与吡啶氮物种含量的变化规律;代表性机器学习模型针对吡啶氮物种-半波电位关系的SHAP解释结果;热重-质谱测试结果

 刘建国ACS Catalysis: 机器学习挖掘非贵ORR催化剂设计关键,图片,材料,催化剂,元素,能源,金属,贵ORR催化剂,第7张

图7 人类研究者与 AI 合作在本工作中合作发现的机制示意图 

【总结】 突破传统化学直觉而依靠机器学习的见解,研究者在AI的帮助下发现被忽视的热解时间对吡啶氮物种的含量在目标材料体系中有很大影响。在机器学习结果的指导下,实验验证和表征结果以及可解释的方法引入有助于进一步研究发生的过程及其背后的组合机制。这项工作开发了一种新的研究范式,通过使用人工智能挖掘数据集中的底层设计元素。这为未来具有更复杂变量的能源材料的开发和优化提供了一种新思路。 一作心得与体会 本工作的初期构想仅在于设计一种高性能的非贵金属催化剂。在使用机器学习建模进行数据挖掘和分析前,笔者也未曾想到热解时长在本体系中是一个非常关键的要素并认为这一计算结果具有偶然性而不可置信。因为在构建数据集的过程中,发现同领域的研究者往往受限于一些权威高档次工作的思路而趋于同质化,集中于前驱体的类型和组分调控或是设计一些精妙的调控形貌的策略上。然而进一步的算法和建模任务拓展以及实验表征结果让我们确信,机器学习的方法确实能够在非常庞杂的数据中,找到人类研究者没有能力通过肉眼看出的规律。另外本工作还要感谢陈雅文同学对实验部分样品合成的支持,以及李佳老师,刘建国老师的支持和指导。