[發明專利]一種基于圖數據庫的蛋白質組數據管理方法、介質和設備有效
| 申請號: | 202010816554.4 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN112116951B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 范曉宣;曹華偉;葉笑春;范東睿 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G06F16/31;G06F16/901 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據庫 蛋白質 數據管理 方法 介質 設備 | ||
本發明實施例提供了一種基于圖數據庫的蛋白質組數據管理方法、介質和設備,該方法包括:獲取蛋白質組對應的圖數據,圖數據包括多個節點和邊,其中,節點記錄其所代表的蛋白質,邊記錄其連接的兩個節點間的關系;根據該蛋白質組對應的圖數據建立底層的雙向鏈表,該雙向鏈表中的節點按照其所代表蛋白質的名稱的字典序依次排列;從底層的雙向鏈表開始,每兩個節點提取一個節點到上一層索引以在各索引層建立單向的索引鏈表,直至頂部的索引鏈表僅有兩個節點,以建立包括多層索引的快速索引;本發明在圖數據庫原有的基礎上建立快速索引,以提高對大規模的蛋白質組的索引效率。
技術領域
本發明涉及數據庫領域,具體來說涉及圖數據庫索引技術領域,更具體地說,涉及一種基于圖數據庫的蛋白質組數據管理方法、介質和設備。
背景技術
隨蛋白質測定技術(如質譜分析技術)的發展,研究方向逐漸集中于蛋白質分子間復雜相互作用及衍生的網絡。由此產生諸多熱門方向,如蛋白質相互作用的預測、蛋白質功能預測等,蛋白質組實驗數據的數據量亦隨之呈指數級上升。為高效存儲、管理分析和利用這些海量蛋白質組數據,通常采用數據庫來管理蛋白質組數據。目前常用的關系型數據庫由于頻繁的連接操作,不適宜于海量半結構化數據的存儲、統計和更新。以Neo4j、Tigergraph為代表的圖數據庫在處理蛋白質組這類非結構化數據,尤其是復雜連接的情況下,具有響應速度快、擴展性好、可靠性高等優勢。基于圖數據庫數據結構抽象出的生物網絡采用節點(Node)記錄蛋白質,關系(Relationship)記錄蛋白質組間相互作用,頂點有標簽屬性,在關系上添加邊的屬性(Properties)代表關系的權重。系統分析大量蛋白在生物系統中的相互作用關系,對于了解生物系統中蛋白質的工作原理,了解疾病等特殊生理狀態下生物信號和能量物質代謝的反應機制,以及了解蛋白之間的功能聯系都有重要意義。
目前的圖數據庫通常采用原生圖存儲的圖數據庫。以Neo4j圖數據庫為例,在Neo4j圖數據庫中,節點、關系、節點和關系的屬性都是分開存儲的,且可以直接物理定位到節點、關系、屬性的物理地址。鑒于關系是邊的物理存儲,后續以邊作為關系的簡稱。邊的物理結構包含邊起始點的上條邊、下條邊,邊終點的上條邊、下條邊。物理存儲時所有邊僅存儲一次。當前圖數據庫的蛋白質組索引查找主要基于圖數據庫的原生圖存儲結構遍歷,在小型的蛋白質組網絡中,基于搜索引擎Elasticsearch的原始的倒排索引表現優越;但在大規模復雜的蛋白質組網絡中,倒排索引的表現不佳。為此,有必要對基于倒排索引的圖數據庫進行改進。
發明內容
因此,本發明的目的在于克服上述現有技術的缺陷,提供一種基于圖數據庫的蛋白質組數據管理方法、介質和設備。
本發明的目的是通過以下技術方案實現的:
根據本發明的第一方面,一種基于圖數據庫的蛋白質組數據管理方法,包括:獲取蛋白質組對應的圖數據,圖數據包括多個節點和邊,其中,節點記錄其所代表的蛋白質,邊記錄其連接的兩個節點間的關系;根據該蛋白質組對應的圖數據建立底層的雙向鏈表,該雙向鏈表中的節點按照其所代表蛋白質的名稱的字典序依次排列;從底層的雙向鏈表開始,每兩個節點提取一個節點到上一層索引以在各索引層建立單向的索引鏈表,直至頂部的索引鏈表僅有兩個節點,以建立包括多層索引的快速索引。
在本發明的一些實施例中,所述方法包括:響應于圖數據庫中任意蛋白質組對應的圖數據達到預設規模的信號,按照前述方式僅為達到預設規模的蛋白質組在原始的倒排索引之外建立快速索引。所述方法包括:未達到預設規模的蛋白質組仍采用原始的倒排索引。
在本發明的一些實施例中,所述方法還包括:在向建立有快速索引的蛋白質組對應的圖數據中插入新的蛋白質對應的節點時,生成一個用于決定該蛋白質組對應的圖數據的快速索引的更新方式的隨機變量,根據隨機變量所屬的不同數值范圍設置用于更新快速索引的不同更新方式。
在本發明的一些實施例中,所述隨機變量服從參數為p的幾何分布,其中,所述p=0.5。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010816554.4/2.html,轉載請聲明來源鉆瓜專利網。





