美國能源部橡樹嶺國家實驗室的一組計算科學家已經生成并發布了規模空前的數據集,這些數據集提供了超過1000萬個有機分子的紫外可見光譜特性。了解分子如何與光相互作用對于揭示其電子和光學特性至關重要,這反過來又在太陽能電池或醫療成像系統等產品中具有潛在的光活性應用。
ORNL團隊利用橡樹嶺領導計算設施的高性能計算資源,進行量子化學計算,生成龐大的數據集。對于每一種有機分子,研究小組用不同的近似值進行原子材料建模計算,以計算不同的感興趣的激發態特性。該團隊的研究結果發表在《科學數據》雜志上。
開源數據集的最終用途是訓練一個深度學習模型,以識別具有定制光電和光反應性特性的分子,這種方法比目前的方法更快,更容易進行。
ORNL計算科學與工程部的數據科學家Massimiliano Lupo Pasini說:“使用深度學習模型進行分子設計是必不可少的,因為必須探索尋找這些分子的化學空間非常大。”
“實驗和現有的第一性原理計算都是基于確定物質和能量如何在亞原子水平上相互作用的物理定律,由于不同的原因,它們根本負擔不起。實驗是勞動密集型的,第一性原理計算可以輕易地擊敗超級計算設備。但深度學習模型為克服這些障礙提供了非常有前途的工具。”
當ORNL計算化學和納米材料科學小組的負責人Stephan Irle發現分子的紫外可見光譜是用DL模型預測的有用屬性時,該項目開始了。
建立一個足夠復雜的深度學習模型來識別理想的分子特性,需要用大量的數據來訓練它,這些數據可以探索化學空間的所有不同區域。收集的數據越多,在其上訓練的深度學習模型就越能達到有效運行所必需的魯棒性和泛化性。然而,為可擴展的深度學習收集如此大量的科學數據可能會帶來數據流問題,特別是在OLCF(位于ORNL的美國能源部科學辦公室用戶設施)等擁有多個用戶的設施中。
“生成大量數據時面臨的一個挑戰是,需要管理的文件數量急劇增加。如果管理不當,如此大量的數據可能會危及并行文件系統的功能,而并行文件系統是最先進的高性能計算設施的重要組成部分,”Lupo Pasini說。
為了應對這一挑戰,Lupo Pasini與ORNL計算機科學家Kshitij Mehta合作開發了一種可擴展的工作流軟件,以確保由量子力學代碼生成的文件得到妥善處理,而不會對文件系統造成壓力,例如OLCF的Orion,這是一種共享資源,用于處理超級計算機系統上數據的輸入、輸出和存儲。
作為概念驗證測試,該團隊生成了GDB-9-Ex數據集,其中包含96,766個由碳、氮、氧和氟組成的分子,最多有9個非氫原子。結果表明,所設計的工作流程是有效的,深度學習訓練能夠準確地預測出紫外可見光譜中最相關峰的位置和強度。
從最初的成功開始,研究小組用ornl_aaid - ex數據集擴大了其體積,該數據集包含由碳、氮、氧、氟和硫組成的10,502,917個分子,最多有71個非氫原子。Irle團隊的博士后研究員Pilsun Yoo開發了分析結果數據集的工具。
描述分子激發模式的紫外-可見光譜,被計算了超過1000萬個分子中的每一個。這一信息揭示了需要什么樣的光頻率才能鎖定一個分子并破壞化合物的某些鍵。
為每個分子計算的另一個有趣的性質是HOMO-LUMO間隙——最高已占據分子軌道和最低未占據分子軌道之間的能量間隙——它可靠地測量了分子的穩定性。有了這些信息,DL模型可以有效地篩選數據,以識別有前途的分子,用于不同的潛在用途。
事實上,ORNL的Lupo Pasini和他的團隊,包括機器學習的計算科學家Pei Zhang和HPC數據研究科學家Jong Youl Choi,正在開發這樣一個深度學習模型:HydraGNN。
“HydraGNN架構采用原子結構,將其轉換為圖形,然后試圖預測第一原理代碼將產生的輸出。它是昂貴的第一性原理計算的替代模型,”Lupo Pasini說。
HydraGNN在數據集上的訓練結果及其分子發現將在即將發表的論文中詳細介紹。