[發明專利]一種針對單細胞轉錄組數據的降噪聲算法在審
| 申請號: | 201611014369.3 | 申請日: | 2016-11-18 |
| 公開(公告)號: | CN106777870A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 鄒欣 | 申請(專利權)人: | 鄒欣;上正大(上海)基因生物工程有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 上海旭誠知識產權代理有限公司31220 | 代理人: | 鄭立 |
| 地址: | 200240 上海市閔行區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 單細胞 轉錄 數據 噪聲 算法 | ||
技術領域
本發明涉及分子生物學領域,尤其涉及一種針對單細胞轉錄組數據的降噪聲算法。
背景技術
單細胞轉錄組數據測量的是每一個細胞中基因的表達量,并由此鑒定出不同類型細胞的區別。單細胞技術可以揭示同一組織中細胞的多樣性,因此已經被廣泛應用于很多基礎生物醫學領域的研究中,比如組織發育和癌癥等。然而由于每個細胞中所含的RNA數量有限,這使得單細胞轉錄組數據中往往較傳統轉錄組數據含有更多的技術噪聲。技術噪聲的存在會極大的影響數據的解讀和細胞類型的判定。
針對廣泛存在的技術噪音,目前主要依靠人工判定的方法,去除受噪聲影響大的基因。由于表達量低的基因往往受噪聲影響比較大,這部分基因通常被除去。同時,在不同細胞間表達量波動小的基因可以被認為對細胞分類無貢獻,這部分基因通常也可以被除去。然而,這種方法受研究者主觀因素影響很大,并有可能將真正的差異表達基因去除掉,從而引起數據信息損失。
針對單細胞轉錄組數據的自動去噪算法還比較少。Bo Ding最近提出了一種算法通過建立RNA濃度與轉錄組數據FPKM數值之間的回歸模型,降低噪聲水平。但是這種方法并不能有效的降低那些低表達基因的噪聲水平,并可能引起更多的偏差,因為相對于低表達水平的基因,它們的FPKM值并不能反映其真實RNA濃度。
因此,本領域的技術人員致力于開發一種針對單細胞轉錄組數據的降噪聲算法,摒除了人為因素的干擾,從而提高了數據處理效率,降低了信息丟失的可能性。
發明內容
有鑒于現有技術的上述缺陷,本發明所要解決的技術問題是如何去除單細胞轉錄組數據中的技術噪聲。
為實現上述目的,本發明提供了一種針對單細胞轉錄組數據的降噪聲算法,包括:
步驟1、計算每一個基因的平均表達水平μ和方差σ2;
步驟2、μ和σ2被配置為有以下關系:σ2=a0μ2+a1μ;
步驟3、通過使用回歸模型建立μ和σ2之間的關系,從而估計a0,a1的值。基于估計的a0,a1和每一個基因的平均表達水平,噪聲的方差水平σ02用a0μ2+a1μ來估計;
步驟4、建立數據讀數篩選準則;
步驟5、輸出的結果中只包含高可靠的基因表達數值。
進一步地,所述步驟2中,使用通用線性(GLM)回歸模型來計算公式中的系數a0和a1。
進一步地,所述數據讀數篩選準則包括:
(1)對于一個基因,基于μ和σ02計算95%置信區間,如果該區間包括零點,則該基因被認為噪聲污染基因;
(2)如果一個基因,其表達水平方差σ2<σ02,則該基因被認為噪聲污染基因;
(3)對于一個基因在某一個細胞中的表達量讀數x,如果x<σ0,則認為該數值的信號噪聲比<1,此時x被設為0。
本發明的優點是可以全自動的判定數據的可靠性,從而找出受噪聲影響的大基因表達值讀數。這個過程基于統計最優化原則,摒除了人為因素的干擾,從而提高了數據處理效率,降低了信息丟失的可能性。
以下將結合附圖對本發明的構思、具體結構及產生的技術效果作進一步說明,以充分地了解本發明的目的、特征和效果。
附圖說明
圖1是本發明的一個較佳實施例的算法運行流程圖。
具體實施方式
以下結合具體實施步驟和附圖,對本發明作進一步的詳細說明。實施本發明的過程、條件、實驗方法等,除以下專門提及的內容之外,均為本領域的普遍知識和公知常識,對于本領域公知的一些技術特征未進行描述,本發明沒有特別限制內容。
本發明提出了一種針對單細胞轉錄組數據的降噪聲算法,包括:
步驟1、計算每一個基因的平均表達水平和表達水平方差;
步驟2、建立平均表達水平和方差之間的回歸模型;
步驟3、利用建立的回歸模型,估計噪聲的方差;
步驟4、利用自定義的準則,對數據進行篩選,去除受噪聲影響大的讀數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄒欣;上正大(上海)基因生物工程有限公司,未經鄒欣;上正大(上海)基因生物工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611014369.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





