[發(fā)明專利]基于KEGG數(shù)據(jù)庫的注釋方法、裝置、設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202011210906.8 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112420130A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃龍;韓繼臣;李麗翠 | 申請(專利權(quán))人: | 上海美吉生物醫(yī)藥科技有限公司 |
| 主分類號: | G16B50/10 | 分類號: | G16B50/10;G16B30/10;G06F16/951 |
| 代理公司: | 上海光華專利事務(wù)所(普通合伙) 31219 | 代理人: | 李治東 |
| 地址: | 201321 上海市浦東新區(qū)中國(上海)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 kegg 數(shù)據(jù)庫 注釋 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種基于KEGG數(shù)據(jù)庫的注釋方法,其特征在于,所述方法包括:
按一定頻率從KEGG官方數(shù)據(jù)庫下載或更新數(shù)據(jù)文件,并針對不同物種、及層級構(gòu)建子數(shù)據(jù)庫;
分別提取不同物種的關(guān)鍵信息并進(jìn)行數(shù)據(jù)整理以得到對應(yīng)各子數(shù)據(jù)庫的統(tǒng)一格式的信息文件;
利用核酸序列同源性比對尋找同源ID,并根據(jù)所述信息文件進(jìn)行數(shù)據(jù)注釋;其中,針對不同物種對應(yīng)的不同層級分別進(jìn)行數(shù)據(jù)注釋。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)文件包括:物種通路信息表、通路詳情表、基因詳情表、gene文件、kgml文件、compound文件、及model文件中任意一種或多種組合;
其中,所述通路詳情表包含該通路中的KO號;所述基因詳情表包含該基因的核酸序列和氨基酸序列。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別提取不同物種的關(guān)鍵信息包括以下任意一種或多種,包括:
1)根據(jù)需求使用python編程語言對所述數(shù)據(jù)文件中的目標(biāo)信息進(jìn)行提取;
2)依據(jù)下載完成后的數(shù)據(jù)文件中的物種通路信息表,解析各個(gè)通路的數(shù)據(jù)文件,以提取各個(gè)通路的關(guān)鍵信息、及對應(yīng)的gene文件中的關(guān)鍵信息;
3)解析KEGG官方信息中未注釋到確定通路的gene文件,以獲取gene文件的關(guān)鍵信息、及序列信息。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用核酸序列同源性比對尋找同源ID,并根據(jù)所述信息文件進(jìn)行數(shù)據(jù)注釋,包括:
在數(shù)據(jù)注釋過程中選擇嚴(yán)格的控制參數(shù)對流程結(jié)果進(jìn)行整理和讀寫;
其中,針對比對結(jié)果,根據(jù)E值選擇最優(yōu)的同源ID對作為同源geneID,以用于對目標(biāo)序列進(jìn)行注釋;和/或,針對注釋信息,給出不同層次和對象的文件輸出;其中,分別針對KO號和geneID進(jìn)行匹配信息的輸出,同時(shí)還輸出相應(yīng)的統(tǒng)計(jì)信息、描述信息、及name信息。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用核酸序列同源性比對尋找同源ID,并根據(jù)所述信息文件進(jìn)行數(shù)據(jù)注釋,包括:
利用從KEGG官方數(shù)據(jù)庫下載的數(shù)據(jù)文件中的kgml文件,通過python模塊openCV生成并修改相應(yīng)的通路圖和目標(biāo)格式;
和/或,對差異基因中上下調(diào)基因的邊框分別進(jìn)行顏色標(biāo)識,以及對通路圖中的邊信息進(jìn)行去冗余操作。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述按一定頻率從KEGG官方數(shù)據(jù)庫下載或更新數(shù)據(jù)文件,包括:
針對不同物種的使用和更新頻率設(shè)置不同下載頻率;其中,針對人、鼠模式物種每日進(jìn)行下載與更新;針對真核、原核物種每月進(jìn)行下載與更新。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對不同物種、及層級構(gòu)建子數(shù)據(jù)庫,包括:
從KEGG官方數(shù)據(jù)庫獲取不同物種已分類的子數(shù)據(jù)庫;或,按照KEGG官方數(shù)據(jù)庫中提供的物種分類方式,整合不同樣品的序列數(shù)據(jù),以形成物種特有的或不同分類界元的各個(gè)子數(shù)據(jù)庫;
根據(jù)各所述子數(shù)據(jù)庫中包含的物種列表或各物種應(yīng)對不同的功能場景,利用精確靶向物種的方式對不同物種的子數(shù)據(jù)庫,在允許范圍內(nèi)針對特定的多個(gè)層級進(jìn)行整合和使用,以供提供不同的注釋方式;
所述層級包括:綱、目、科、屬、及種中任意一種或多種組合。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用核酸序列同源性比對尋找同源ID所采用的軟件包括:diamond、blast、及bowti2中任意一種。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
在數(shù)據(jù)注釋完成后,提供必要的項(xiàng)目信息,并基于python編程語言實(shí)現(xiàn)自動分析,以得到KEGG注釋報(bào)告;
和/或,引入SGE和SLURM兩種HPC任務(wù)投遞系統(tǒng),以支持并行任務(wù)處理方式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海美吉生物醫(yī)藥科技有限公司,未經(jīng)上海美吉生物醫(yī)藥科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011210906.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 全細(xì)胞蛋白和基因相互作用網(wǎng)絡(luò)分析系統(tǒng)
- 一種基因組代謝網(wǎng)絡(luò)初模型信息挖掘方法
- 一種快速篩查疾病候選標(biāo)志物或靶標(biāo)的方法
- 毛蕊花糖苷生物合成途徑及其合成酶相關(guān)基因
- 一種獲得艾納香的轉(zhuǎn)錄組及功能基因的方法
- 霉菌毒素生物降解劑在促進(jìn)豬健康生產(chǎn)中的應(yīng)用
- 一種KEGG數(shù)據(jù)庫的反應(yīng)信息補(bǔ)充方法
- 基于參考基因組注釋文件的高通量測序技術(shù)動物tRFs數(shù)據(jù)分析方法
- 單組學(xué)及多組學(xué)KEGG PATHWAY map表達(dá)熱圖個(gè)性化展示的方法及應(yīng)用
- 基于KEGG數(shù)據(jù)庫的注釋方法、裝置、設(shè)備和介質(zhì)
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置
- 用于處理注釋的策略
- 圖片處理方法、裝置及移動終端
- 用于注釋的系統(tǒng)和方法
- 一種三維模型的注釋方法、注釋系統(tǒng)以及計(jì)算機(jī)可讀存儲介質(zhì)
- 字段值注釋的更新方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種注釋方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種基于決策樹的注釋分類方法
- 數(shù)據(jù)表字段的修改方法、裝置、設(shè)備和介質(zhì)
- 代碼注釋文檔的生成方法、裝置、電子設(shè)備及存儲介質(zhì)
- 保險(xiǎn)合同輔助解讀方法、系統(tǒng)、電子設(shè)備及介質(zhì)





