[發明專利]一種用于糾正高通量組學數據缺失的數據分區填充方法有效

申請號：	202011285428.7	申請日：	2020-11-17
公開（公告）號：	CN112200270B	公開（公告）日：	2022-12-20
發明（設計）人：	劉驍;冀樹伸	申請（專利權）人：	金弗康生物科技（上海）股份有限公司
主分類號：	G06K9/62	分類號：	G06K9/62;G16B15/00
代理公司：	合肥方舟知識產權代理事務所(普通合伙) 34158	代理人：	朱榮
地址：	200000 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種用于糾正通量數據缺失分區填充方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種用于糾正高通量組學數據缺失的數據分區填充方法，其特征在于：所述方法包括以下步驟：

步驟一：根據高通量組學數據表達矩陣的分組情況和數據檢出分布情況計算分區臨界值Blow和Bup，實現對數據的分區；

步驟二：按缺失量由多到少對數據進行排序，并根據分區臨界值，將數據分為真實缺失、不穩定缺失和技術缺失三個分區；

步驟三：對三個分區的數據分別使用對應的填充算法進行填充；

所述步驟一的具體步驟如下：

(1)計算每個分子在每個高通量組學數據表達矩陣的分組中的檢出率：分子在分組i中的檢出率＝檢測值不為0的樣本個數/分組i的總樣本數；

(2)計算分區臨界值Blow和Bup，針對每個高通量組學數據表達矩陣的分組，使用k-means算法，將該組中每個樣本中含有的所有分子根據其檢測表達量分為三個cluster，計算每個cluster中含有的分子的檢出率的中位數，其中最小和最大兩個中位數即分區臨界值Blow和Bup。

2.根據權利要求1所述的一種用于糾正高通量組學數據缺失的數據分區填充方法，其特征在于：所述步驟三的具體步驟如下：

(1)對真實缺失的填充：分子檢出率小于最小臨界值的不進行填充；

(2)對不穩定缺失的填充：

對于由于分子自身表達不穩定而產生的缺失使用貝葉斯算法預測填充個數后進行填充：使用貝葉斯算法計算需要填充的樣本個數，首先計算分子在該組內的潛在缺失率missp，使用的公式為：missp＝PA*(PBA/((PBA*PA)+(0.05*(1-PA))))，其中PBA為該數據集中該分子的組內缺失率，PA為該數據集中某個分子的整體缺失率，再使用公式：IN＝min(Mj/2,(1-missp)*Mi)，計算該分子在組內需要填充的個數IN，其中Mi為該組內未檢測到的樣本個數，Mj表示該組內檢測到的樣本個數；最后對于改組中檢測值為0的樣本，進行隨機算法，選擇IN個需要填充的樣本，使用組內非零最小值進行填充；

(3)對技術缺失的填充：對于檢測率大于最大臨界值的分子，使用該組的分子檢測值的中位數進行空值填充。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于金弗康生物科技（上海）股份有限公司，未經金弗康生物科技（上海）股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011285428.7/1.html，轉載請聲明來源鉆瓜專利網。