[發明專利]一種基于稀疏匹配的多組學數據關聯關系發現方法有效
| 申請號: | 201810258802.0 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108509771B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 蔡就倫;蔡宏民 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 稀疏 匹配 多組學 數據 關聯 關系 發現 方法 | ||
1.一種基于稀疏匹配的多組學數據關聯關系發現方法,其特征在于,包括步驟:
S1、對輸入數據進行預處理;
S2、根據數據特點,選擇合適的相似性度量,計算數據特征之間的相似性矩陣;
S3、基于特征之間的相似性網絡,融入先驗信息,挖掘數據特征之間的潛在關聯關系;從而有效充分地利用被證實的先驗組學信息,減少噪音對結果的影響、降低數據誤差所帶來的不確定性和提高結果的精確性與魯棒性;
建立模型發掘組學數據之間特征關聯關系;令M1和M2表示利用高通量測序技術對同一批病人測序所得的兩個組學數據矩陣;兩個矩陣的維度分別m×n1和m×n2,其中m表示病人樣本個數,n1表示M1中的特征個數,n2表示M2中的特征數量;問題是如何在兩個組學數據中找出相互關聯的特征,此問題在數學上等價描述為如何確定一個n1×n2維的0-1矩陣X:
此外,在模型中引入現有已被證實的先驗信息;使用表示組學數據M1的特征的相互關聯網絡,表示組學數據M2的特征的相互關聯網絡,它們的元素的取值范圍為[0,1],表示組學數據自身特征之間的相關程度,0則表示完全不相關;基于此,提出基于稀疏匹配的組學數據關聯關系發現模型如下:
s.t.XI1≤b1
XII2≤b1
Xij∈{0,1}
其中,矩陣X為要求解的目標變量;l1和b1均為n2×1維的列向量,其中l1的元素值全部為1,而b1的元素值均為一常量參數c1;l2和b2都是維數為n1×1的列向量,其中l2的元素值全部為1,而b2的元素值均為c2,c2是一常量參數;矩陣H為組學數據M1中的所有特征與組學數據中M2的全部特征之間的相似性度量矩陣,維度為n1×n2;采用兩特征之間皮爾森相關系數的負絕對值作為度量標準,取值范圍為[-1,0],值越趨于-1,說明兩特征之間的相關性越大,反之亦然;λ1、λ2和β為對應正則項的參數,用于調節各個正則項對最終結果的影響;為通過組學數據M1的先驗關聯權重矩陣計算得出的拉普拉斯矩陣,其計算方式如公式(1-2)所示;為利用組學數據M2的先驗關聯權重矩陣計算得出的標準化拉普拉斯矩陣,其計算過程與類似;
其中,是一個n1×n1維的對角矩陣,其對角元素的值等于中該元素所在列的列和;
在所述基于稀疏匹配的組學數據關聯關系發現模型的目標函數中,第一項tr(HXT)根據組學數據M1中第i個特征與組學數據M2中第j個特征的相似性來影響結果Xij的值,組學數據M1中第i個特征與組學數據M2中第j個特征的相關性越大,則Xij的值越趨于1,反之亦然;第二項的作用為根據組學數據M1的特征的相互關聯網絡來影響結果X,先驗相互關聯網絡中越相似的M1的兩個特征,在結果X中對于M2中的同一個特征的值越相近;λ1則控制調節此正則項對結果影響程度的大小;第三項的作用與第二項類似,融入組學數據M2的特征的先驗關聯網絡來提高結果X的精度,其影響程度的大小由參數λ2控制調節;第四項β||X||0為L0-范數,定義為矩陣X中非0元素的個數,用來描述結果的稀疏性,非0元素越少,說明結果越稀疏,并由參數β來控制結果的稀疏程度;第一個約束條件Xl1≤b1用于約束與組學數據M1中的某個特征關聯的M2的特征的個數不超過一定的數目;b1的元素值設為不同的值,表示對M1中的不同特征進行不同的約束;本方法中為簡化模型,降低復雜度,對b1的元素值均設為某一常量值c2;第二個約束條件XTl2≤b1的作用與第一個約束條件的作用相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810258802.0/1.html,轉載請聲明來源鉆瓜專利網。





