[發(fā)明專利]一種單步逆向合成方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011383345.1 | 申請(qǐng)日: | 2020-12-01 |
| 公開(公告)號(hào): | CN112397155B | 公開(公告)日: | 2023-07-28 |
| 發(fā)明(設(shè)計(jì))人: | 謝朋宇;卓漢逵 | 申請(qǐng)(專利權(quán))人: | 中山大學(xué) |
| 主分類號(hào): | G16C20/30 | 分類號(hào): | G16C20/30;G16C20/70;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 深圳市創(chuàng)富知識(shí)產(chǎn)權(quán)代理有限公司 44367 | 代理人: | 李思坪 |
| 地址: | 510275 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 逆向 合成 方法 系統(tǒng) | ||
本發(fā)明公開了一種單步逆向合成方法及系統(tǒng),該方法包括:獲取反應(yīng)方程訓(xùn)練集;S2、以反應(yīng)方程訓(xùn)練集訓(xùn)練反應(yīng)中心識(shí)別模塊;以反應(yīng)方程訓(xùn)練集訓(xùn)練語法樹生成模塊;獲取待測(cè)產(chǎn)物SMILES表達(dá)式并輸入到訓(xùn)練完成的反應(yīng)中心識(shí)別模塊,得到待測(cè)合成子序列;將待測(cè)合成子序列輸入到訓(xùn)練完成的語法樹生成模塊,得到待測(cè)抽象語法樹;基于抽象語法樹的語法規(guī)則得到對(duì)應(yīng)反應(yīng)物的SMILES表達(dá)式。該系統(tǒng)包括:反應(yīng)中心識(shí)別模塊和語法樹生成模塊。本發(fā)明在保證可拓展性前提下具有更高預(yù)測(cè)準(zhǔn)確率。本發(fā)明作為一種單步逆向合成方法及系統(tǒng),可廣泛應(yīng)用于化合物合成分析領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明屬于化合物合成分析領(lǐng)域,尤其涉及一種單步逆向合成方法及系統(tǒng)。
背景技術(shù)
逆合成分析是解決有機(jī)合成路線的重要方法,其實(shí)質(zhì)是通過分析目標(biāo)分子結(jié)構(gòu),逐步將其拆解為更簡(jiǎn)單、更容易合成的中間產(chǎn)物,直到推理出的所有反應(yīng)物都是現(xiàn)有的構(gòu)建塊,從而完成對(duì)目標(biāo)分子合成路線的設(shè)計(jì)。現(xiàn)有的單步逆向合成分析在體系上可以分為基于模板和免模板的方法。模板是利用反應(yīng)方程提取出的通配模式,反映了具有相同反應(yīng)中心的反應(yīng)方程的規(guī)律。基于模板的方法需要預(yù)處理得到模板,不僅耗費(fèi)資源,而且泛化性能受限。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種單步逆向合成方法及系統(tǒng),實(shí)現(xiàn)了在保證可拓展性前提下具有更高預(yù)測(cè)準(zhǔn)確率。
本發(fā)明所采用的第一技術(shù)方案是:一種單步逆向合成方法,包括以下步驟:
獲取反應(yīng)方程數(shù)據(jù)集并對(duì)反應(yīng)方程數(shù)據(jù)集進(jìn)行預(yù)處理,得到訓(xùn)練集;
根據(jù)訓(xùn)練集中反應(yīng)方程的反應(yīng)物和產(chǎn)物訓(xùn)練預(yù)構(gòu)建的反應(yīng)中心識(shí)別模塊,得到訓(xùn)練完成的反應(yīng)中心識(shí)別模塊;
根據(jù)訓(xùn)練集中反應(yīng)方程的合成子序列訓(xùn)練預(yù)構(gòu)建的語法樹生成模塊,得到訓(xùn)練完成的語法樹生成模塊;
獲取待測(cè)產(chǎn)物SMILES表達(dá)式并輸入到訓(xùn)練完成的反應(yīng)中心識(shí)別模塊,得到待測(cè)合成子序列;
將待測(cè)合成子序列輸入到訓(xùn)練完成的語法樹生成模塊,得到待測(cè)抽象語法樹;
基于抽象語法樹的語法規(guī)則對(duì)待測(cè)抽象語法樹進(jìn)行處理,得到對(duì)應(yīng)反應(yīng)物的SMILES表達(dá)式。
進(jìn)一步,還包括:
將部分反映方程數(shù)據(jù)集作為驗(yàn)證集,對(duì)訓(xùn)練完成的反應(yīng)中心識(shí)別模塊和訓(xùn)練完成的語法樹生成模塊進(jìn)行驗(yàn)證。
進(jìn)一步,所述獲取反應(yīng)方程數(shù)據(jù)集并對(duì)反應(yīng)方程數(shù)據(jù)集進(jìn)行預(yù)處理,得到訓(xùn)練集這一步驟,其具體包括:
獲取反應(yīng)方程數(shù)據(jù)集;
過濾反應(yīng)方程數(shù)據(jù)集中產(chǎn)物數(shù)量大于1的方程;
過濾反應(yīng)方程數(shù)據(jù)集中含有不合法SMILE表達(dá)式的方程;
得到訓(xùn)練集。
進(jìn)一步,所述根據(jù)訓(xùn)練集中反應(yīng)方程的反應(yīng)物和產(chǎn)物訓(xùn)練預(yù)構(gòu)建的反應(yīng)中心識(shí)別模塊,得到訓(xùn)練完成的反應(yīng)中心識(shí)別模塊這一步驟,其具體還包括:
根據(jù)訓(xùn)練集中反應(yīng)方程的產(chǎn)物和反應(yīng)物的對(duì)比,標(biāo)記產(chǎn)物在反應(yīng)過程中需要斷開的鍵對(duì),得到標(biāo)簽矩陣;
基于RDKIT獲取產(chǎn)物中的原子并以原子為節(jié)點(diǎn)、鍵對(duì)為邊的邏輯,得到產(chǎn)物分子圖;
根據(jù)標(biāo)簽矩陣和產(chǎn)物分子圖訓(xùn)練預(yù)構(gòu)建的反應(yīng)中心識(shí)別模塊,得到訓(xùn)練完成的反應(yīng)中心識(shí)別模塊。
進(jìn)一步,所述根據(jù)訓(xùn)練集中反應(yīng)方程的合成子序列訓(xùn)練預(yù)構(gòu)建的語法樹生成模塊,得到訓(xùn)練完成的語法樹生成模塊這一步驟,其具體包括:
以標(biāo)題向量為指引,并基于多頭注意力機(jī)制學(xué)習(xí)向量之間的相關(guān)性,得到句子間的語義關(guān)系;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011383345.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





