[發(fā)明專利]面向藥物研發(fā)的數(shù)據(jù)處理方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011085891.7 | 申請日: | 2020-10-12 |
| 公開(公告)號(hào): | CN112164430A | 公開(公告)日: | 2021-01-01 |
| 發(fā)明(設(shè)計(jì))人: | 吳楚楠;徐旻;張佩宇;馬健;溫書豪;賴力鵬 | 申請(專利權(quán))人: | 深圳晶泰科技有限公司 |
| 主分類號(hào): | G16C20/70 | 分類號(hào): | G16C20/70 |
| 代理公司: | 深圳市科吉華烽知識(shí)產(chǎn)權(quán)事務(wù)所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 藥物 研發(fā) 數(shù)據(jù)處理 方法 系統(tǒng) | ||
1.一種面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,包括:
數(shù)據(jù)集成:構(gòu)建多種數(shù)據(jù)集成器,根據(jù)不同數(shù)據(jù)采用與其匹配的數(shù)據(jù)訪問方式,獲取數(shù)據(jù),將獲取的數(shù)據(jù)序列化成字符串推送給數(shù)據(jù)收集管道,數(shù)據(jù)收集管道將獲取的數(shù)據(jù)以批量、異步的方式存儲(chǔ)于數(shù)據(jù)倉庫中,并對(duì)每一個(gè)存儲(chǔ)數(shù)據(jù)記錄標(biāo)定唯一標(biāo)識(shí),此時(shí)存儲(chǔ)的數(shù)據(jù)為原始數(shù)據(jù);
數(shù)據(jù)處理:通過觸發(fā)器將存儲(chǔ)在數(shù)據(jù)倉庫中的原始數(shù)據(jù)的唯一標(biāo)識(shí)發(fā)送給數(shù)據(jù)清洗管道,數(shù)據(jù)清洗訂閱者處理數(shù)據(jù)清洗管道中的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行處理,清洗過程中通過唯一標(biāo)識(shí)訪問原始數(shù)據(jù)的內(nèi)容,將處理后的數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)倉庫中,并加上新的標(biāo)識(shí),此時(shí)存儲(chǔ)的數(shù)據(jù)為干凈數(shù)據(jù);
分析:對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析,并將分析結(jié)果存儲(chǔ)于知識(shí)庫中。
2.根據(jù)權(quán)利要求1所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理還包括:將來源于不同數(shù)據(jù)源的分子通過規(guī)律規(guī)則和數(shù)據(jù)補(bǔ)充形成一致的信息列表。
3.根據(jù)權(quán)利要求2所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理包括:對(duì)不同源的化合數(shù)據(jù)進(jìn)行合理性檢驗(yàn)、排除規(guī)則檢驗(yàn)、手性分子的手性信息一致性檢驗(yàn)、互變異構(gòu)體的數(shù)據(jù)補(bǔ)充、pKa預(yù)測值的補(bǔ)充的一種或多種處理。
4.根據(jù)權(quán)利要求3所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理還包括:
重算:若處理規(guī)則變更,根據(jù)數(shù)據(jù)的唯一標(biāo)識(shí)獲取歷史收集的相關(guān)原始數(shù)據(jù),通過觸發(fā)器將存儲(chǔ)在數(shù)據(jù)倉庫中的原始數(shù)據(jù)的唯一標(biāo)識(shí)發(fā)送給數(shù)據(jù)清洗管道,根據(jù)變更后的處理規(guī)則進(jìn)行重新處理,得到新的處理后的干凈數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉庫中。
5.根據(jù)權(quán)利要求1所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理還包括:
聚合:對(duì)不同數(shù)據(jù)源的同一分子進(jìn)行去重,同時(shí)保留其來源信息,對(duì)不同數(shù)據(jù)源中因?yàn)樾畔⒉粚?duì)稱帶來的數(shù)據(jù)不一致的情況進(jìn)行合并。
6.根據(jù)權(quán)利要求5所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述分析包括:將清洗、聚合后數(shù)據(jù),通過化學(xué)物理計(jì)算對(duì)化合物的性質(zhì)進(jìn)行預(yù)測計(jì)算得到的結(jié)果及化合物信息一并存儲(chǔ)到知識(shí)庫中。
7.根據(jù)權(quán)利要求1至6任意一項(xiàng)所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)處理還包括:將處理完后的化合物信息及其相應(yīng)的附屬信息通過CSV組織成一致的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)倉庫中。
8.根據(jù)權(quán)利要求7所述的面向藥物研發(fā)的數(shù)據(jù)處理方法,其特征在于,所述化合物信息包括:SMILES分子式、化合物來源信息、化合物唯一標(biāo)識(shí)中的一種或多種;所述附屬信息包括:手性、互變異構(gòu)體、是否符合Lipinski’s Rule of Five、是否可購買到的一種或多種信息;
所述數(shù)據(jù)集成器包括:API接口集成器、文件對(duì)象集成器、數(shù)據(jù)流對(duì)象集成器、事件對(duì)象集成器中的一種或多種;
所述API接口集成器實(shí)現(xiàn)的數(shù)據(jù)訪問方式為HTTPS API,根據(jù)文檔要求獲取并解析其返回其結(jié)果,并將返回的內(nèi)容寫成JSON或CSV格式的字符串傳輸?shù)綌?shù)據(jù)收集管道;
所述文件對(duì)象集成器實(shí)現(xiàn)基于文件對(duì)象的數(shù)據(jù)訪問方式,通過下載接口下載得到文件形式的數(shù)據(jù),完成下載獲取的數(shù)據(jù)、檢驗(yàn)文件下載的完整性并發(fā)送給數(shù)據(jù)收集管道;
所述事件對(duì)象集成器實(shí)現(xiàn)基于事件的數(shù)據(jù)訪問方式,間隔設(shè)定時(shí)間輪訓(xùn)訪問數(shù)據(jù)源的數(shù)據(jù)及更新情況,比對(duì)上次最新數(shù)據(jù)獲取時(shí)間,將新發(fā)布的數(shù)據(jù)通過HTTPS API或文件下載方式獲取并發(fā)送至數(shù)據(jù)收集管道;
所述數(shù)據(jù)流對(duì)象集成器實(shí)現(xiàn)基于流對(duì)象的數(shù)據(jù)訪問方式,獲取能夠給出增量或分頁的數(shù)據(jù)獲取方式的數(shù)據(jù),記錄上一次訪問數(shù)據(jù)的參數(shù)信息,增量獲取下一次的訪問數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳晶泰科技有限公司,未經(jīng)深圳晶泰科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011085891.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)化和數(shù)據(jù)匹配方法和代碼推薦方法及相關(guān)裝置
- 一種基于服務(wù)協(xié)作模式的研發(fā)管理方法和系統(tǒng)
- 基于流程驅(qū)動(dòng)研發(fā)任務(wù)的方法及系統(tǒng)
- 一種研發(fā)工時(shí)計(jì)算方法和裝置
- 一種企業(yè)研發(fā)管理方法及系統(tǒng)
- 產(chǎn)品研發(fā)管理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 軟件研發(fā)管理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種研發(fā)試制信息管理方法及系統(tǒng)
- 軟件研發(fā)安全能力動(dòng)態(tài)評(píng)估和提升方法及系統(tǒng)
- 研發(fā)項(xiàng)目資金監(jiān)管系統(tǒng)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





