[發(fā)明專利]一種面向化合物建模的集合表示學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202111524100.0 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN114171138A | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計)人: | 馬帥;周金雨 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G16C20/70 | 分類號: | G16C20/70;G16C20/30;G06N3/08 |
| 代理公司: | 北京中創(chuàng)陽光知識產(chǎn)權(quán)代理有限責(zé)任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 化合物 建模 集合 表示 學(xué)習(xí)方法 | ||
1.一種面向化合物建模的集合表示學(xué)習(xí)方法,其特征在于:針對某一化合物,通過構(gòu)建一個低維稠密向量來表示的原子群對化合物進(jìn)行多粒度建模,構(gòu)成集合表示學(xué)習(xí)方法的一個特性,并在此基礎(chǔ)上,構(gòu)建集合表示學(xué)習(xí)的化合物標(biāo)簽預(yù)測模型CombiSet預(yù)測化合物標(biāo)簽;
所述原子群用于建模化合物分子的方法為:
其中分別代表一階、二階和三階原子群,表示原子群內(nèi)的原子xi,xj與xi,xj,xk存在關(guān)聯(lián)信息,多階群體的最大階數(shù)不會超過原有集合的元素數(shù)量,并且僅有一個最大階的群體;
所述原子群用于建模化合物標(biāo)簽預(yù)測值的方法為:
其中的為所有單原子對待預(yù)測值的貢獻(xiàn),通過原子的向量表示、特征和原子之間的結(jié)構(gòu)特征計算得到;
表示兩階原子群對待預(yù)測值的貢獻(xiàn),所述兩階原子群指具有關(guān)聯(lián)信息的兩個一階原子群組合而成的整體,將所有兩階原子群作為頂點組成一個新圖,新圖的邊可以定義為兩個兩階原子群都共享同一個一階原子群,在新圖中的頂點貢獻(xiàn)同樣是通過頂點的向量表示、特征和原子之間的結(jié)構(gòu)特征計算得到,兩階原子群的向量表示通過該原子群內(nèi)部包含原子的向量表示進(jìn)行哈達(dá)瑪積等計算得到,它的頂點和邊的特征向量需要通過特征工程得到,兩階原子群可以視為對化合物的化學(xué)鍵的建模,它的結(jié)構(gòu)特征是化學(xué)鍵之間的夾角;
進(jìn)而,表示三個具有關(guān)聯(lián)信息的原子群對待預(yù)測值的貢獻(xiàn)。大于二階的原子群可以建模化合物的官能團(tuán)等局部結(jié)構(gòu),它們的結(jié)構(gòu)特征可以是面夾角等復(fù)雜空間屬性;
所述集合表示學(xué)習(xí)的化合物標(biāo)簽預(yù)測模型CombiSet包含五個模塊:輸入層、交互層、排列不變層、集合表示層和輸出層;
所述輸入層包含一個嵌入查找表和神經(jīng)網(wǎng)絡(luò),對每個原子共享,用于獲取的首輪向量表示輸入原子群的低維稠密向量,首先原子的離散特征通過嵌入查找表得到特征對應(yīng)的嵌入表示該向量之后與原子預(yù)訓(xùn)練得到的初始向量表示進(jìn)行連接操作,接著通過神經(jīng)網(wǎng)絡(luò)計算出首輪向量表示
所述交互層用于對原子向量表示進(jìn)行多輪訓(xùn)練迭代,迭代次數(shù)為k,將不同粒度的相鄰原子整體建模成對應(yīng)階數(shù)的原子群,同階的原子群包含相同的低階原子群時具有鄰接關(guān)系,同階原子群對應(yīng)的向量表示在交互層進(jìn)行連接操作,之后送入到神經(jīng)網(wǎng)絡(luò)中;對于不同階的原子群將它們向量表示累加起來,送入到神經(jīng)網(wǎng)絡(luò)中;進(jìn)入神經(jīng)網(wǎng)絡(luò)后的中間向量會求和,得到下一輪的向量表示,所述交互層對每個原子群進(jìn)行k次迭代計算,形成k輪訓(xùn)練迭代,;
所述排列恒等層對每個原子群的首輪向量表示計算得到經(jīng)過k輪訓(xùn)練迭代后原子群的影響會傳遞到k-階鄰近度的原子;
所述集合表示層對每一階的原子群的低維稠密向量表示求和,然后以縱向連接方式組成一個矩陣,之后通過卷積層操作得到集合的向量表示Eset;
所述輸出層包含三層神經(jīng)網(wǎng)絡(luò),其中的輸出層維度取決于待解決問題需要的維度,所述輸出層最后將預(yù)測數(shù)值與判斷結(jié)果對應(yīng),對每個標(biāo)簽取值都輸出它的預(yù)測的可能性,然后最大可能性的標(biāo)簽的判斷結(jié)果取值作為輸出結(jié)果。
2.如權(quán)利要求1所述的一種面向化合物建模的集合表示學(xué)習(xí)方法,其特征在于:所述輸入層的具體結(jié)構(gòu)為:對于當(dāng)前輸入特征向量是第c階中的第i個原子Atomc,i,該原子的原始特征向量分別為連續(xù)型的特征向量Cc,i、離散型的特征向量Dc,i,使用嵌入查找表來將Dc,i映射成隱向量將與初始表示向量Pc,i連接起來一起輸入到一個全連接神經(jīng)網(wǎng)絡(luò)中,計算得到Atomc,i初始向量表示的計算方式為:
式中是全連接層中可訓(xùn)練參數(shù),是向量連接符號,φ1是激勵函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111524100.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





