[發(fā)明專利]一種基于向量化的參考反應(yīng)查詢方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211441411.5 | 申請日: | 2022-11-17 |
| 公開(公告)號: | CN116226472A | 公開(公告)日: | 2023-06-06 |
| 發(fā)明(設(shè)計)人: | 段永耀;馬汝建;彭宣嘉 | 申請(專利權(quán))人: | 上海藥明康德新藥開發(fā)有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F18/213 |
| 代理公司: | 上海市匯業(yè)律師事務(wù)所 31325 | 代理人: | 余艷 |
| 地址: | 201200 上海市浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 量化 參考 反應(yīng) 查詢 方法 系統(tǒng) | ||
1.一種基于向量化的參考反應(yīng)查詢方法,其特征在于,包括以下步驟:
根據(jù)每個反應(yīng)對應(yīng)一個總向量,通過聚類算法將數(shù)據(jù)庫中的若干反應(yīng)劃分為若干簇類,得到每個簇類的聚類中心的總向量;計算query反應(yīng)與每個所述簇類的聚類中心兩兩之間的相似度,得到與所述query反應(yīng)相似度最大的聚類中心;計算query反應(yīng)與所述相似度最大的聚類中心所在簇類的所有反應(yīng)兩兩之間的相似度,得到與所述query反應(yīng)最相似的N個反應(yīng),N>0;
所述總向量包含AI指紋、反應(yīng)傳統(tǒng)指紋和產(chǎn)物分子傳統(tǒng)指紋;S加權(quán)=(w1×SAI+w2×S反應(yīng)+w3×S產(chǎn)物)/(w1+w2+w3);S加權(quán)表示兩個反應(yīng)之間的相似度;SAI表示兩個反應(yīng)之間的AI指紋相似度,由對應(yīng)的兩個AI指紋之間通過余弦距離計算獲得;S反應(yīng)表示兩個反應(yīng)之間的反應(yīng)傳統(tǒng)指紋相似度,由對應(yīng)的兩個反應(yīng)傳統(tǒng)指紋之間通過Jaccard距離計算獲得;S產(chǎn)物表示兩個反應(yīng)之間的產(chǎn)物分子傳統(tǒng)指紋相似度,由對應(yīng)的兩個產(chǎn)物分子傳統(tǒng)指紋之間通過Jaccard距離計算獲得;w1、w2和w3分別表示AI指紋的權(quán)重、反應(yīng)傳統(tǒng)指紋的權(quán)重和產(chǎn)物分子傳統(tǒng)指紋的權(quán)重,w1:w2:w3=(1~10):(1~10):1。
2.如權(quán)利要求1所述的基于向量化的參考反應(yīng)查詢方法,其特征在于,w1:w2:w3=3:3:1。
3.如權(quán)利要求1所述的基于向量化的參考反應(yīng)查詢方法,其特征在于,所述聚類算法包括以下步驟:
S1、每個所述總向量對應(yīng)高維空間中的一個數(shù)據(jù)點,隨機選取K個數(shù)據(jù)點作為種子聚類中心,K>1;
S2、計算所述數(shù)據(jù)庫中的其他各個數(shù)據(jù)點與各個所述種子聚類中心之間的距離,并將這些數(shù)據(jù)點分配給距離最近的所述種子聚類中心,與所述種子聚類中心一起形成一個簇類;平均所述簇類中所有數(shù)據(jù)點對應(yīng)的所述總向量的各個維度,獲得的平均總向量就是這一輪的聚類中心,下一輪的種子聚類中心;
S3、重復(fù)所述步驟S2直到滿足下述終止條件中的任何一個,完成簇類劃分和確定聚類中心:
1)聚類中心的位置變化小于指定的閾值,所述指定的閾值為0.0001;
2)達(dá)到最大迭代次數(shù),所述最大迭代次數(shù)為1~1000次。
4.如權(quán)利要求1所述的基于向量化的參考反應(yīng)查詢方法,其特征在于,所述AI指紋為通過深度神經(jīng)網(wǎng)絡(luò)中的Bert模型生成的向量;所述反應(yīng)傳統(tǒng)指紋為通過枚舉反應(yīng)物和產(chǎn)物分子的官能團、反應(yīng)中心獲得的相應(yīng)的0-1編碼;所述產(chǎn)物分子傳統(tǒng)指紋為通過枚舉產(chǎn)物分子的官能團獲得的相應(yīng)的0-1編碼。
5.一種基于向量化的參考反應(yīng)查詢系統(tǒng),其特征在于,包括:
反應(yīng)向量化模塊,用于獲得反應(yīng)數(shù)據(jù)SMILES表達(dá)式的AI指紋、反應(yīng)傳統(tǒng)指紋和產(chǎn)物分子傳統(tǒng)指紋;
反應(yīng)相似度模塊,用于通過公式S加權(quán)=(w1×SAI+w2×S反應(yīng)+w3×S產(chǎn)物)/(w1+w2+w3)獲得兩個化學(xué)反應(yīng)之間的相似度;S加權(quán)表示兩個反應(yīng)之間的相似度;SAI表示兩個反應(yīng)之間的AI指紋相似度,由對應(yīng)的兩個AI指紋之間通過余弦距離計算獲得;S反應(yīng)表示兩個反應(yīng)之間的反應(yīng)傳統(tǒng)指紋相似度,由對應(yīng)的兩個反應(yīng)傳統(tǒng)指紋之間通過Jaccard距離計算獲得;S產(chǎn)物表示兩個反應(yīng)之間的產(chǎn)物分子傳統(tǒng)指紋相似度,由對應(yīng)的兩個產(chǎn)物分子傳統(tǒng)指紋之間通過Jaccard距離計算獲得;w1、w2和w3分別表示AI指紋的權(quán)重、反應(yīng)傳統(tǒng)指紋的權(quán)重和產(chǎn)物分子傳統(tǒng)指紋的權(quán)重,w1:w2:w3=(1~10):(1~10):1;
向量化搜索模塊,用于在所述反應(yīng)相似度模塊基礎(chǔ)上,采用聚類算法搜索數(shù)據(jù)庫獲得與query反應(yīng)相似度最大的聚類中心所在簇類,再通過所述query反應(yīng)分別與所述相似度最大的聚類中心所在簇類的所有反應(yīng)兩兩之間的相似度中,搜索得到與所述query反應(yīng)最相似的N個反應(yīng),N>0。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海藥明康德新藥開發(fā)有限公司,未經(jīng)上海藥明康德新藥開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211441411.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





