[發明專利]生物學數據分析方法和系統有效
| 申請號: | 201410432465.4 | 申請日: | 2014-08-28 |
| 公開(公告)號: | CN105468933B | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 王瑩瑩;蔡云鵬 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F19/10 | 分類號: | G06F19/10 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 吳平 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生物學數據 知識庫 背景知識 特征篩選 原始數據 數據集 預篩選 高維 接收原始數據 計算機分析 生物學意義 矩陣形式 數據特點 所屬類型 分析 構建 樣本 查找 分類 轉換 統計 | ||
1.一種生物學數據分析方法,其特征在于,所述方法包括:
接收原始數據,并將原始數據轉換為矩陣形式,行代表特征,列代表樣本;
根據原始數據的技術領域查找生物學背景知識數據;
依據所述生物學背景知識數據的數據特點進行分類,構建不同類型的本體論知識庫和/或數據集,包括:判斷所述生物學背景知識數據是否是文本類型,若是,則將所述生物學背景知識數據構建為源自文本型的本體論知識庫;若否,則判斷所述生物學背景知識數據的內部是否有結構關系,若否,則將所述生物學背景知識數據構建為源自獨立背景知識集合的n倍數據集,若是,則判定所述生物學背景知識數據為非獨立背景知識的數據集,所述n為背景知識集合中數目超過原始數據特征數的倍數;
判斷所述本體論知識庫和/或數據集的所屬類型,根據所述類型選擇對應的特征篩選步驟;
所述源自文本型的本體論知識庫對應的特征篩選步驟包括:利用統計學方法計算所述矩陣形式中特征是否在所述本體論知識庫節點中富集,選出所有不高于預設第一閾值的節點,選擇可富集于所述節點的特征,作為預篩選的結果;
所述源自獨立背景知識集合的n倍數據集對應的特征篩選步驟包括:
當n小于或接近1時,將所述矩陣形式中的特征映射到此數據集中,獲取預篩選的結果;當n遠大于1時,利用統計學方法計算所述矩陣形式中特征是否在所述數據集中富集,選出所有不高于預設第二閾值的數據集,選擇可富集于所述數據集的特征,作為預篩選的結果;在進行n值判斷時,若n與1的差在預設誤差范圍內時,則n接近1若n與1相加,和的近似值與n相等,則n遠大于1;
執行選擇的特征篩選步驟,獲得預篩選的結果。
2.根據權利要求1所述的生物學數據分析方法,其特征在于,所述特征篩選步驟從以下步驟中擇一選擇:利用統計學方法計算所述矩陣形式中特征是否在本體論知識庫或數據集中富集以獲取預篩選結果的步驟,將所述矩陣形式中的特征映射到相應數據集中以獲取預篩選結果的步驟,在利用統計學方法計算所述矩陣形式中特征是否在本體論知識庫或數據集中富集之后、再利用計算向量相關性的方法計算特征之間的表達相關性以獲取預篩選結果的步驟,根據所述矩陣形式中的特征與數據集節點之間的拓撲性質計算節點拓撲度并進行排序以獲取預篩選結果的步驟。
3.根據權利要求1所述的生物學數據分析方法,其特征在于,所述依據所述背景知識的數據特點進行分類用以構建不同類型的本體論知識庫和/或數據集的步驟還包括:
若所述生物學背景知識數據的內部有結構關系,則繼續判斷所述內部結構關系是否有從屬性,將所述非獨立背景知識的數據集中內部有從屬結構關系的生物學背景知識數據構建為源自非文本型的本體論知識庫。
4.根據權利要求1所述的生物學數據分析方法,其特征在于,所述依據所述背景知識的數據特點進行分類用以構建不同類型的本體論知識庫和/或數據集的步驟還包括:
若所述生物學背景知識數據的內部有結構關系,則繼續判斷所述內部結構關系是否有方向性,若是,則將所述生物學背景知識數據中有方向性結構關系的數據構建為源自非獨立背景知識集合的有向網,若否,則將所述生物學背景知識數據中無方向性結構關系的數據構建為源自非獨立背景知識集合的無向網。
5.根據權利要求3所述的生物學數據分析方法,其特征在于,所述源自非文本型的本體論知識庫對應的特征篩選步驟包括:
利用統計學方法計算所述矩陣形式中特征是否在所述本體論知識庫節點中富集,選出所有不高于預設第三閾值的節點,選擇可富集于所述節點的特征,再利用計算向量相關性的方法計算所選擇出的特征之間的表達相關性,選出所有滿足預設第四閾值的特征,作為預篩選的結果。
6.根據權利要求4所述的生物學數據分析方法,其特征在于,所述源自非獨立背景知識集合的有向網或無向網對應的特征篩選步驟包括:將所述矩陣形式中特征與所述有向網或無向網中節點相對應,計算節點的拓撲性質,根據拓撲性質將其排序,設置第五閾值,選擇排序靠前且不超過第五閾值的特征,作為預篩選的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410432465.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡?,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





