[發明專利]建立分子結構與活性數據庫的方法有效
| 申請號: | 202010140921.3 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111415702B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 牛春意;方磊;徐旻;溫曉明;齊珍珍;張佩宇;馬健;溫書豪;賴力鵬 | 申請(專利權)人: | 深圳晶泰科技有限公司 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G06F16/215;G06F16/951;G16B50/00 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡玉 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 分子結構 活性 數據庫 方法 | ||
1.建立分子結構與活性數據庫的方法,其特征在于,包括以下步驟:
(1)數據的采集
從化合物數據庫上進行搜索獲取與選定靶點相關的所有化合物,并記錄化合物的相關信息,收集后的數據上傳至臨時文件中;
(2)數據清洗
數據清洗模塊按照需求將外部數據轉換成為標準化格式;步驟(2)中的清洗標準為:
A、根據不同數據庫所獲得的原數據,調用不同的數據清洗模塊;數據清洗模塊根據不用的數據內容以及標記類型,調用相對應的解釋器;
B、包括分子結構數據解釋器、分子實驗活性數據解釋器;
C、用過Jupyter調用篩選模塊,過濾掉一些不符合標準的分子;篩選標準包括分子的活性測試方法、分子的活性表示方法以及數據的來源標準;
D、解釋器根據所規定的標準化格式,將數據逐一匹配,匹配成功的,就將數據存儲在內存相應的數據結構中;
(3)數據校驗
通過對不同數據庫的數據進行校驗核對確保數據的準確性;
(4)數據檢索
將校驗通過存儲的臨時文件,上傳至MongoDB數據庫中,供后續使用;
用戶通過SDK向數據檢索模塊發送檢索請求,其中包括了要查詢的數據表、分子結構、字段和查詢條件;
數據檢索模塊將請求轉化成可識別語句,訪問數據庫得到結果;
結果將返回數據檢索模塊后傳給用戶SDK,最終完成檢索;
(5)構效分析
根據用戶的需求通過上述的數據檢索方式,選取某一靶點,提取包含該靶點的全部數據;后調用Jupyter中的構效分析模塊,根據用戶所輸入的母核結構以及相似度的要求,對該結構與數據庫中的結構進行亞機構匹配以及相似度比較計算;所述步驟(5)包括以下步驟:
(5.1)對數據庫中的分子進行亞結構匹配,調用rdkit中的亞結構匹配模塊,匹配所有包含該結構的亞結構;
(5.2)將匹配到的分子結構轉化成為分子指紋,后計算其Tanimoto相似度與用戶需求進行匹配;
(5.3)在滿足匹配要求的化合物當中,利用rdkit化學工具包取代側鏈模塊以及取代基轉換模塊,對取代基團以及取代位點進行切割、轉換、分類;最后列出SAR列表便于用戶對結構以及活性進行比較分析。
2.根據權利要求1所述的建立分子結構與活性數據庫的方法,其特征在于,步驟(1)中,收集數據方法是通過自動收集以及主動上傳兩種方式進行數據收集:
(1.1)自動收集是從開源的數據庫Chembl,首先確定所選擇靶點的Uniprot?ID,根據ID鎖定準確且唯一的靶點,后利用python網絡爬蟲技術進行自動收集生成原始數據;
(1.2)主動上傳是針對付費數據庫,這類數據庫無法使用python網絡爬蟲技術,通過手動下載后,再將數據由本地進行上傳。
3.根據權利要求1所述的建立分子結構與活性數據庫的方法,其特征在于,步驟(3)數據校驗,包括以下步驟:
(3.1)數據清洗后,調用數據校驗模塊,將需要校驗的數據由清洗模塊系統傳入數據校驗模塊;
(3.2)在校驗模塊中,逐條對數據進行校驗;首先數據類型,根據數據類型讀取不同的校驗規則;對于同一個分子,如果活性測試類型一樣,但是存在多條數據的情況;若數據之間差值不超過規定范圍則取平均值,若相差超過規定范圍,則輸出提示后,并將數據來源的文獻下載輸出供人工查驗;
(3.3)按照校驗規則逐一匹配需要校驗的數據,校驗完成后通過校驗的數據會被模塊持久化到臨時文件系統當中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳晶泰科技有限公司,未經深圳晶泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010140921.3/1.html,轉載請聲明來源鉆瓜專利網。





