摘要
利用机器学习探究铝合金缓蚀剂的结构-性能关系
有机缓蚀剂在替代传统防护技术方面发挥着至关重要的作用,因为传统防护技术存在严重的*性问题,比如用重金属无机盐作为腐蚀抑制剂。然而,为什么一些有机化合物能抑制腐蚀,而另一些则不能,其中的机理至今仍不清楚。本案例测试了不同的机器学习(ML)方法,以区分常用的铝合金高效缓蚀剂。研究成果可以大大有助于在未来自动搜索新的更高效的防腐解决方案:
1
确定了一种ML算法,该算法能够正确地分类有效抑制剂(即,效率超过50%)和非抑制剂(即,效率低于或等于50%),即使在同一数据集中包含了不同pH下不同合金的信息,这可以显著增加可用来训练模型的信息;
2
对与分子自关联相关的新描述符进行了评估,但对模型的预测能力的改进有限;
3
确定了抑制剂和非抑制剂的描述符的平均差异,有可能作为选择潜在抑制分子体系的指南。
该案例表明ML可以作为一种工具来执行分子的初始虚拟筛选,从而显著加快该领域的研究。
引言
金属露在腐蚀介质中(水环境和氧气),金属腐蚀通常是氧化还原电化学反应的结果,即氧气的还原和金属的氧化。当金属表面有缓蚀剂保护膜时,缓蚀剂吸附在金属表面形成一层致密的保护膜,有效阻碍了腐蚀介质与金属的直接接触,从而起到抑制腐蚀电化学的反应。
图1铝表面的腐蚀电化学过程,包括阴极和阳极反应(上图),以及典型缓蚀剂(如1,2,3-苯并三唑)的吸附,以取代水分子并保护表面免受腐蚀性物种的侵害。为了快速地筛选出高效的铝合金缓蚀剂分子,本案例采用机器学习方法对缓蚀剂的结构-性能关系进行研究,并对不同的ML算法进行比较分析,以区分铝合金的缓蚀剂和非缓蚀剂化合物的分类。这项工作有助于更好地理解每种算法的优缺点,从而预测有机化合物的缓蚀潜力。案例还提供与缓蚀剂最简单形式的自缔合有关的新描述符,即二聚化焓和二聚化吉布斯能。这些描述符是分子之间相互作用的强度的一个粗略的近似值,以在金属表面上形成粘性薄膜。这种薄膜还可以演变成多层,防止或至少减少侵略性物种与金属表面的相互作用。虽然二聚化能的计算通常比获得电子量子特性的计算要求更高,但它提供了与机械过程(保护膜形成过程中分子的自相互作用)更紧密的并行性,而仅通过将抑制效率与电子特性联系起来是无法实现的。
建立AI预测模型
01
数据和描述符
本文共研究了个有机化合物,其中主要包括芳香族基团和/或氨基、羧基、羟基和硫醇基团,涉及到两种铝合金AA和AA,以及弱酸性(pH4)和碱性(pH10)条件,总共有个数据条目。描述符种类:分子量、分子折射率、辛醇/水分配系数、极性表面积、分子体积、分子面积、极性体积、给体原子数、环数(芳香族或非芳香族)、疏水基团数、受体原子数和旋转键数、AA_pH4抑制效率、AA_pH10抑制效率、AA_pH4抑制效率、AA_pH10抑制效率、二聚化焓和二聚化吉布斯能。
02
方法
机器学习方法:K近邻、决策树、带Boosting的决策树、定义错误代价的决策树、Bagging、随机森林、分类规则、人工神经网络和支持向量机。为了评估预测模型,案例采用了5倍交叉验证方法(图2)。
图2举例说明本工作中采用的5倍交叉验证统计方法。
结果与讨论
01
探索性数据分析
图3显示了本案例中评估的不同条件下实验抑制效率(方框图和条形图,纵坐标0表示没有缓释作用)根据箱形图可看出碱性条件下抑制剂的效率低于酸性条件下的效率。从柱状图可以看出,有效缓蚀剂的数量比弱缓蚀剂和非缓蚀剂的数量要少得多,这使得ML算法更难了解数据并正确识别化合物为缓蚀剂。
图4抑制效率和描述符回归分析得到的线性相关图(蓝色表示正线性相关,而红色表示负线性相关。圆越大表示绝对线性相关值越高,而圆越小或没有则表示绝对相关值越低或线性相关为零)。图4研究结果表明只有氢键供体原子数与抑制效率有较好的相关性,其次是极性表面积、极性体积和环数。这表明,能够作为缓蚀剂的分子结构的识别是一个高度非线性的问题,线性回归是没有用的。
02
不同机器学习方法的对比
图5抑制剂和非抑制剂分类的四种可能结果。
(1)
(2)
(3)
对于分类任务,性能指标考虑测试集的类别。感兴趣的类别(此处为缓蚀剂)称为正类别,而另一类非缓蚀剂称为负类别。两类缓蚀剂之间的关系如图5所示,包括四种可能的结果:(i)真阳性(TP),正确分类的缓蚀剂;(ii)真阴性(TN),正确分类的非腐蚀抑制剂;(iii)误报(FP),被归类为缓蚀剂的化合物,实际上是非缓蚀剂;(iv)假阴性(FN),被归类为非缓蚀剂但实际上是缓蚀剂的化合物。公式1、2和3定义的平衡准确性、灵敏度和特异性被用作分类的性能指标。
图6(上图)ML算法分别研究两种合金在不同pH条件下的数据集的性能,(下图)ML算法研究同时包含两种合金在不同pH条件下的数据集的性能。图6研究结果表明大多数方法的特异性接近90%,甚至更高。然而,高特异性(正确识别非抑制剂的概率)可能是由于数据集中非抑制剂的数量较多。因此,在统计上,他们的正确识别更可能是偶然的。另一方面,灵敏度是指正确分类真正抑制剂的概率,这些抑制剂的数量较少,并且也是具有本研究所