[發(fā)明專利]一種分子生成方法和計算設(shè)備在審
| 申請?zhí)枺?/td> | 202010621991.0 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111816265A | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計)人: | 張琳;范方達(dá);李遠(yuǎn)鵬;賴力鵬;溫書豪;馬健 | 申請(專利權(quán))人: | 北京晶派科技有限公司 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50 |
| 代理公司: | 北京思睿峰知識產(chǎn)權(quán)代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分子 生成 方法 計算 設(shè)備 | ||
本發(fā)明公開了一種分子生成方法,在計算設(shè)備中執(zhí)行,計算設(shè)備中存儲有分子片段庫,該片段庫中的分子片段具有節(jié)點向量,該方法包括:生成一個多維向量作為一個生成分子的樹向量,樹向量代表該生成分子的聯(lián)結(jié)樹,聯(lián)結(jié)樹的節(jié)點為由生成分子拆分出的多個分子片段,相鄰的分子片段用邊連接;從作為全零向量的空節(jié)點開始,采用預(yù)設(shè)的解碼模型依次判斷每個當(dāng)前節(jié)點之后是否需要新增下一節(jié)點,并在需要新增時,基于樹向量和當(dāng)前節(jié)點向量從分子片段庫中選取下一節(jié)點所對應(yīng)的分子片段,從而得到聯(lián)結(jié)樹;以及確定聯(lián)結(jié)樹中相鄰分子片段之間的連接方式,并采用該連接方式對相鄰分子片段進(jìn)行連接,得到生成分子。本發(fā)明還一并公開了用于執(zhí)行該方法的計算設(shè)備。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種分子序列的生成方法、裝置和計算設(shè)備。
背景技術(shù)
眾所周知,藥物研發(fā)是一個漫長的過程,存在著研發(fā)周期長,研發(fā)成果率低,研發(fā)費用高的困境。而隨著計算機(jī)技術(shù)的更新以及大數(shù)據(jù)技術(shù)的發(fā)展,人工智能正在各行各業(yè)中發(fā)揮巨大的應(yīng)用價值,在制藥行業(yè)也受到了廣泛的關(guān)注。藥物發(fā)現(xiàn)的關(guān)鍵挑戰(zhàn)是找到具有所需化學(xué)性質(zhì)的靶分子。當(dāng)前,這項任務(wù)需要專業(yè)化學(xué)家和藥理學(xué)家多年的開發(fā)和探索。而對于分子量在500Da以內(nèi)的類藥小分子,其種類估計達(dá)到10的30至60次方,只靠人類的認(rèn)知很難廣泛探索,因此需要借助計算機(jī)來幫助人類尋找新的分子。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明提出了一種分子生成方法和計算設(shè)備,以力圖解決或者至少解決上面存在的問題。
根據(jù)本發(fā)明的一個方面,提供了一種分子生成方法,適于在計算設(shè)備中執(zhí)行,該計算設(shè)備中存儲有分子片段庫,該分子片段庫包括從多個已知分子中拆分出的多個分子片段,每個分子片段具有向量表示,該方法包括步驟:生成一個多維向量作為一個生成分子的樹向量,該樹向量適于代表該生成分子的聯(lián)結(jié)樹,該聯(lián)結(jié)樹的節(jié)點為由生成分子拆分出的多個分子片段,相鄰的分子片段用邊連接;從作為全零向量的空節(jié)點開始,采用預(yù)設(shè)的解碼模型依次判斷每個當(dāng)前節(jié)點之后是否需要新增下一節(jié)點,并在需要新增時從分子片段庫中選取下一節(jié)點所對應(yīng)的分子片段,從而得到所述聯(lián)結(jié)樹;以及確定聯(lián)結(jié)樹中相鄰分子片段之間的連接方式,并采用該連接方式對相鄰分子片段進(jìn)行連接,得到所述生成分子。
可選地,在根據(jù)本發(fā)明的分子生成方法中,生成一個多維向量作為樹向量的步驟包括:根據(jù)預(yù)設(shè)的樹向量維度和分布特點隨機(jī)生成一個對應(yīng)維度的向量作為所述生成分子的樹向量。
可選地,在根據(jù)本發(fā)明的分子生成方法中,生成一個多維向量作為樹向量的步驟包括:接收用戶的輸入分子,將該輸入分子拆分為多個分子片段;將其中一個分子片段作為根節(jié)點,并根據(jù)各分子片段之間的連接關(guān)系生成輸入分子的聯(lián)結(jié)樹;采用預(yù)設(shè)的編碼模型對輸入分子的聯(lián)結(jié)樹進(jìn)行編碼,得到對應(yīng)的樹向量;對輸入分子的樹向量疊加微小擾動后,得到生成分子的樹向量。
可選地,在根據(jù)本發(fā)明的分子生成方法中,編碼模型的輸入為第一組合向量、輸出為從當(dāng)前節(jié)點指向下一節(jié)點的出鏈邊向量,第一組合向量包括當(dāng)前節(jié)點向量和指向當(dāng)前節(jié)點的入鏈邊向量,當(dāng)前節(jié)點的入鏈邊向量為上一節(jié)點的出鏈邊向量。
可選地,在根據(jù)本發(fā)明的分子生成方法中,采用預(yù)設(shè)的編碼模型對所述輸入分子的聯(lián)結(jié)樹進(jìn)行編碼的步驟包括;從該聯(lián)結(jié)樹的葉子節(jié)點開始,基于編碼模型向根節(jié)點方向依次計算每個節(jié)點的出鏈邊向量,以得到根節(jié)點的入鏈邊向量;以及將根節(jié)點向量和根節(jié)點的入鏈邊向量進(jìn)行拼接,并經(jīng)過全連接層降維后,得到輸入分子的樹向量。
可選地,在根據(jù)本發(fā)明的分子生成方法中,若根節(jié)點有多個入鏈邊向量,則將根節(jié)點向量和根節(jié)點的入鏈邊向量進(jìn)行拼接的步驟包括:將該多個入鏈邊向量進(jìn)行求和之后,與根節(jié)點向量進(jìn)行拼接。
可選地,在根據(jù)本發(fā)明的分子生成方法中,解碼模型的輸入為第二組合向量、輸出為當(dāng)前節(jié)點之后是否新增子節(jié)點,第二組合向量包括當(dāng)前節(jié)點向量、指向當(dāng)前節(jié)點的入鏈邊向量之和、以及生成分子的樹向量;其中,初始的當(dāng)前節(jié)點為空節(jié)點,其當(dāng)前節(jié)點向量和指向當(dāng)前節(jié)點的入鏈邊向量均為全零向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京晶派科技有限公司,未經(jīng)北京晶派科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010621991.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





