[發明專利]建立分子結構與活性數據庫的方法有效

申請號：	202010140921.3	申請日：	2020-03-03
公開（公告）號：	CN111415702B	公開（公告）日：	2023-05-05
發明（設計）人：	牛春意;方磊;徐旻;溫曉明;齊珍珍;張佩宇;馬健;溫書豪;賴力鵬	申請（專利權）人：	深圳晶泰科技有限公司
主分類號：	G16B15/30	分類號：	G16B15/30;G06F16/215;G06F16/951;G16B50/00
代理公司：	深圳市科吉華烽知識產權事務所(普通合伙) 44248	代理人：	胡玉
地址：	518000 廣東省深圳市福田***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	建立分子結構活性數據庫方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.建立分子結構與活性數據庫的方法，其特征在于，包括以下步驟：

(1)數據的采集

從化合物數據庫上進行搜索獲取與選定靶點相關的所有化合物，并記錄化合物的相關信息，收集后的數據上傳至臨時文件中；

(2)數據清洗

數據清洗模塊按照需求將外部數據轉換成為標準化格式；步驟(2)中的清洗標準為：

A、根據不同數據庫所獲得的原數據，調用不同的數據清洗模塊；數據清洗模塊根據不用的數據內容以及標記類型，調用相對應的解釋器；

B、包括分子結構數據解釋器、分子實驗活性數據解釋器；

C、用過Jupyter調用篩選模塊，過濾掉一些不符合標準的分子；篩選標準包括分子的活性測試方法、分子的活性表示方法以及數據的來源標準；

D、解釋器根據所規定的標準化格式，將數據逐一匹配，匹配成功的，就將數據存儲在內存相應的數據結構中；

(3)數據校驗

通過對不同數據庫的數據進行校驗核對確保數據的準確性；

(4)數據檢索

將校驗通過存儲的臨時文件，上傳至MongoDB數據庫中，供后續使用；

用戶通過SDK向數據檢索模塊發送檢索請求，其中包括了要查詢的數據表、分子結構、字段和查詢條件；

數據檢索模塊將請求轉化成可識別語句，訪問數據庫得到結果；

結果將返回數據檢索模塊后傳給用戶SDK，最終完成檢索；

(5)構效分析

根據用戶的需求通過上述的數據檢索方式，選取某一靶點，提取包含該靶點的全部數據；后調用Jupyter中的構效分析模塊，根據用戶所輸入的母核結構以及相似度的要求，對該結構與數據庫中的結構進行亞機構匹配以及相似度比較計算；所述步驟(5)包括以下步驟：

(5.1)對數據庫中的分子進行亞結構匹配，調用rdkit中的亞結構匹配模塊，匹配所有包含該結構的亞結構；

(5.2)將匹配到的分子結構轉化成為分子指紋，后計算其Tanimoto相似度與用戶需求進行匹配；

(5.3)在滿足匹配要求的化合物當中，利用rdkit化學工具包取代側鏈模塊以及取代基轉換模塊，對取代基團以及取代位點進行切割、轉換、分類；最后列出SAR列表便于用戶對結構以及活性進行比較分析。

2.根據權利要求1所述的建立分子結構與活性數據庫的方法，其特征在于，步驟(1)中，收集數據方法是通過自動收集以及主動上傳兩種方式進行數據收集：

(1.1)自動收集是從開源的數據庫Chembl，首先確定所選擇靶點的Uniprot?ID，根據ID鎖定準確且唯一的靶點，后利用python網絡爬蟲技術進行自動收集生成原始數據；

(1.2)主動上傳是針對付費數據庫，這類數據庫無法使用python網絡爬蟲技術，通過手動下載后，再將數據由本地進行上傳。

3.根據權利要求1所述的建立分子結構與活性數據庫的方法，其特征在于，步驟(3)數據校驗，包括以下步驟：

(3.1)數據清洗后，調用數據校驗模塊，將需要校驗的數據由清洗模塊系統傳入數據校驗模塊；

(3.2)在校驗模塊中，逐條對數據進行校驗；首先數據類型，根據數據類型讀取不同的校驗規則；對于同一個分子，如果活性測試類型一樣，但是存在多條數據的情況；若數據之間差值不超過規定范圍則取平均值，若相差超過規定范圍，則輸出提示后，并將數據來源的文獻下載輸出供人工查驗；

(3.3)按照校驗規則逐一匹配需要校驗的數據，校驗完成后通過校驗的數據會被模塊持久化到臨時文件系統當中。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于深圳晶泰科技有限公司，未經深圳晶泰科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010140921.3/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】