在合成有機(jī)分子和天然產(chǎn)物中,結(jié)構(gòu)的確定是一項(xiàng)非常具有挑戰(zhàn)性的工作。結(jié)構(gòu)上接近的異構(gòu)體和非對(duì)映異構(gòu)體在1D NMR光譜中的差異非常細(xì)微,要想?yún)^(qū)分它們得耗費(fèi)大量的時(shí)間和精力。
利用計(jì)算機(jī)進(jìn)行核磁譜圖識(shí)別給研究者提供了大量幫助,其原理是基于密度泛函理論(DFT)計(jì)算所有不確定結(jié)構(gòu)非對(duì)映異構(gòu)體的核磁位移,并使用相關(guān)系數(shù)、平均絕對(duì)誤差(MAE)和校正平均絕對(duì)誤差(CMAE)等參數(shù)將這些預(yù)測(cè)結(jié)果與已公布的光譜數(shù)據(jù)進(jìn)行比較。其中,DP4分析是一種特別強(qiáng)大的工具,它不僅可以預(yù)測(cè)分子的立構(gòu)化學(xué)特性,還可以給出每個(gè)可能結(jié)構(gòu)是否正確的概率,在天然產(chǎn)物及藥物合成中已有成功應(yīng)用。
自發(fā)布以來(lái),DP4的計(jì)算過(guò)程已經(jīng)進(jìn)行了極大的簡(jiǎn)化,用戶輸入越來(lái)越少。但是,最耗費(fèi)用戶精力的仍然是NMR譜圖的歸屬問(wèn)題,這不僅非常耗時(shí)費(fèi)力,而且容易出錯(cuò)。
少數(shù)商用軟件,如Mestrelab?Mnova,雖然為1H NMR譜圖提供了歸屬算法,但無(wú)法對(duì)原始NMR數(shù)據(jù)進(jìn)行自動(dòng)處理和歸屬。
成果介紹
基于以上分析,劍橋大學(xué)Jonathan M. Goodman教授課題組針對(duì)1H和13C NMR原始數(shù)據(jù),提出了一種譜圖自動(dòng)處理和歸屬方法DP4-AI,它可以自動(dòng)進(jìn)行有機(jī)分子立構(gòu)化學(xué)特性和結(jié)構(gòu)歧義的預(yù)測(cè)。研究發(fā)現(xiàn)NMR-AI可以在1分鐘左右的時(shí)間處理完NNR原始數(shù)據(jù),而此前同樣的任務(wù)大約需要8個(gè)小時(shí),速率提升了480倍,每天可以處理的分子數(shù)量增加了60倍,這使得高通量NMR譜圖分析成為可能,為通過(guò)機(jī)器學(xué)習(xí)發(fā)現(xiàn)新的分子結(jié)構(gòu)鋪平了道路。
DP4-AI的結(jié)構(gòu)和計(jì)算流程
DP4-AI包含了NMR-AI和PyDP4兩部分,其中NMR-AI負(fù)責(zé)處理用戶輸入的NMR原始數(shù)據(jù),并進(jìn)行化學(xué)位移的歸屬,PyDP4則對(duì)這一歸屬正確與否的概率進(jìn)行計(jì)算,從而自動(dòng)闡述分子的立體化學(xué)結(jié)構(gòu)。
DP4-AI對(duì)NMR數(shù)據(jù)處理的流程如下:當(dāng)用戶輸入原始NMR數(shù)據(jù)后,程序首先對(duì)相和基線進(jìn)行校正,然后從中提取出各個(gè)峰的化學(xué)位移值,并計(jì)算積分值,利用DFT方法計(jì)算每個(gè)原子的化學(xué)位移并對(duì)其進(jìn)行歸屬,最后DP4分析這種歸屬的概率,同時(shí)給出物質(zhì)的化學(xué)結(jié)構(gòu)。
DP4-AI中NMR峰的提取過(guò)程
在提取1H NMR位移峰時(shí),使用原始數(shù)據(jù)的一階和二階導(dǎo)數(shù)進(jìn)行操作:如果峰的一階導(dǎo)數(shù)為零,二階導(dǎo)數(shù)最小,而且峰值在二階導(dǎo)數(shù)的幅度閾值以上以及第二閾值以下時(shí),則提取該峰。以這種方式進(jìn)行峰值提取時(shí)可以將兩個(gè)閾值設(shè)置得非常低,在盡可能多地過(guò)濾掉噪聲的情況下,盡可能少的丟失信號(hào)。
為了避免將噪聲誤認(rèn)為信號(hào)峰,研究者開(kāi)發(fā)了一種利用目標(biāo)模型選擇來(lái)消除噪聲的算法。間隔小于18 Hz的提取峰被分組在一起,形成了一個(gè)信號(hào)區(qū)域,對(duì)于每個(gè)區(qū)域,使用多個(gè)廣義洛倫茲線形函數(shù)構(gòu)建線形模型,每個(gè)區(qū)域模型中的參數(shù)進(jìn)行迭代變化,直到模型的積分收斂到相應(yīng)光譜區(qū)域1%以內(nèi)。如果模型的貝葉斯信息低于閾值,則認(rèn)為這些參數(shù)描述的是噪聲,相應(yīng)的峰會(huì)被刪除。
DP4-AI中NMR峰的歸屬
研究者認(rèn)為DP4-AI開(kāi)發(fā)過(guò)程中最具挑戰(zhàn)性的工作是歸屬算法的開(kāi)發(fā),該算法將分子的每個(gè)非對(duì)映異構(gòu)體中的原子分配給光譜中提取到的峰。研究者采用GIAO方法對(duì)不同峰進(jìn)行分配,歸屬算法的核心是計(jì)算分配概率矩陣M,該矩陣的元素Mij是計(jì)算出的化學(xué)位移i對(duì)應(yīng)于實(shí)驗(yàn)峰值j的概率。矩陣M通過(guò)匈牙利線性和最小化方法找到最可能的分配結(jié)果。
13?C NMR的算法還考慮了實(shí)驗(yàn)峰的幅度。M中的每一個(gè)元素Mij乘以一個(gè)從實(shí)驗(yàn)峰值j的幅度得出的權(quán)重因子Aj。13?C NMR光譜中的峰通常分為三組,可以通過(guò)幅度來(lái)區(qū)分:噪聲、1-原子信號(hào)和對(duì)應(yīng)于多個(gè)等效碳原子的峰。為了捕獲這種變化,研究者估算了譜圖中峰值幅度的概率密度函數(shù),當(dāng)峰值中該函數(shù)的二階導(dǎo)數(shù)的最小值位于其振幅之間時(shí),這些峰分為一組,然后使用每組中的峰數(shù)和結(jié)構(gòu)中預(yù)期的碳原子數(shù)來(lái)計(jì)算振幅權(quán)重。
DP4-AI的性能評(píng)估
研究者為了評(píng)估NMR-AI的性能,構(gòu)建了由47個(gè)分子(每個(gè)分子平均3.49個(gè)立構(gòu)中心)組成的測(cè)試組,其中包含了各種結(jié)構(gòu)的碳骨架。測(cè)試組中包含了天然產(chǎn)物、合成中間體和天然產(chǎn)物的碎片結(jié)構(gòu),以盡可能包含更多類型的有機(jī)分子結(jié)構(gòu)。
為了描述DP4-AI進(jìn)行NMR預(yù)測(cè)的誤差概率,研究者測(cè)試了四個(gè)不同的統(tǒng)計(jì)模型,結(jié)果發(fā)現(xiàn)單區(qū)域3高斯模型得出的預(yù)測(cè)誤差最優(yōu)。
在最高的測(cè)試?yán)碚撍较?,DP4-AI的可靠性與耗時(shí)的成對(duì)歸屬算法相似,而后者需要一位訓(xùn)練有素的化學(xué)家才能完成。在測(cè)試數(shù)據(jù)集中,正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,表明DP4-AI的表現(xiàn)非常可靠。最令人印象深刻的是,DP4-AI在32和64個(gè)非對(duì)映異構(gòu)體中正確對(duì)分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。
NMR-AI可以在1分鐘左右的時(shí)間處理完NNR數(shù)據(jù),而在此之前同樣的任務(wù)大約需要8個(gè)小時(shí),這相當(dāng)于每天處理的分子數(shù)量可以增加60倍。
小結(jié)
為了快速有效的處理NMR原始數(shù)據(jù),劍橋大學(xué)Jonathan M. Goodman教授課題組提出了一種譜圖自動(dòng)處理和歸屬方法DP4-AI,這種方法由NMR-AI和PyDP4兩部分組成,用戶只需要輸入原始的NMR數(shù)據(jù),程序就會(huì)自動(dòng)提取各個(gè)峰值,并對(duì)其進(jìn)行歸屬,直接給出最可能的分子結(jié)構(gòu)以及這種歸屬的概率。研究者構(gòu)建了由47個(gè)分子組成的測(cè)試組,發(fā)現(xiàn)程序正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,并正確對(duì)分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。僅需要1分鐘的時(shí)間,NMR-AI就可以處理完NNR數(shù)據(jù),與之前的方法相比,速率提高了480倍,每天處理的分子數(shù)量可以增加60倍。
原文鏈接:
https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a