[發明專利]一種基于PHMM模型的差分可辨性基因序列聚類方法有效
| 申請號: | 202110738987.7 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113380330B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 尚濤;任旭杰;楊英;姜亞彤;劉建偉 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G16B40/30 | 分類號: | G16B40/30;G16B30/00 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 phmm 模型 差分可辨性 基因 序列 方法 | ||
本發明公開了一種基于PHMM模型的差分可辨性基因序列聚類方法,包括以下步驟:步驟一:初始化算法迭代輪數r=1;隨機生成K個Profile HMM模型步驟二:計算序列數據對每個Profile HMM模型輸出的分數,按最高分數將序列劃分到相應的聚類;步驟三:確定該輪迭代差分可辨性隱私參數ρr;步驟四:計算每個Profile HMM模型的狀態轉移概率和發射概率;對計算得到的發射概率添加噪聲;步驟五:計算每個Profile HMM模型與上一輪迭代時之間的散度距離,若散度距離的和小于預設的閾值,則輸出聚類結果;否則迭代輪數r=r+1,并重復迭代執行步驟二~步驟五。本發明提供了基因序列數據聚類中的隱私保護以抵抗推理攻擊,同時給出了隱私參數的迭代分配方法,使最終模型滿足差分可辨性隱私定義。
技術領域
本發明涉及一種基于PHMM模型的差分可辨性基因序列聚類方法,屬于網絡空間安全技術領域。
背景技術
生物基因序列數據隱含了基因中物種進化、遺傳性狀和潛在的疾病信息。借助生物基因組大數據和現代計算方法,如機器學習技術,人們在基因組學、轉錄組學、蛋白質組學的研究得以進一步發展,為疾病診斷及治療、藥物研發、生殖健康等領域提供幫助。聚類是一種無監督的機器學習技術,通過將相似度高的數據劃分為一個簇,相似度低的數據劃分為不同簇,實現對無標簽數據的自動化歸類。將聚類分析技術應用于基因組數據中,能夠實現對基因的同源性、遺傳疾病和溯源等分析。輪廓隱馬爾可夫模型(Profile HiddenMarkov Model,PHMM)模型是生物信息學中經典的序列比對算法模型,可被用于基因序列的同源程度的度量。
數據量激增的同時,基因序列中包含的個人可鑒別隱私信息易被攻擊者利用,從基因片段中提取個人獨有的信息使隱私信息泄露。傳統的隱私保護方法可分為匿名化和數據擾動。匿名化技術將數據庫中的個體敏感信息進行替換,以經典的k匿名算法為例,經過匿名化處理的數據庫使k個個體的敏感信息無法區分,達到隱私保護的目的。但匿名化技術易遭到一致性攻擊和背景知識攻擊,并且缺少嚴格的數學證明。差分隱私是一種具有嚴格數學基礎的隱私定義,它通過限制個體對數據庫輸出的影響來保護隱私。實現差分隱私的機制主要有拉普拉斯機制和指數機制,噪聲大小由隱私預算ε決定。2012年,Lee和Clifton認為差分隱私沒有關注數據庫中個體被敵手識別的風險,這與相關法規的定義不符,此外差分隱私的參數設置是一個比較棘手的問題,從而提出了差分可辨性(DifferentialIdentifiability,DI)的概念。差分可辨性將隱私泄露風險定義為數據庫中個體被敵手識別的概率,且能提供與差分隱私相當的隱私保護能力。差分可辨性的參數ρ表示敵手成功識別敏感數據的概率,相比差分隱私,差分可辨性的隱私參數設置更加直觀,對非相關專業的從業者提供了簡便的參數設置方法。
綜上,在基于PHMM模型對基因序列數據進行挖掘分析時,有出現敏感隱私信息泄露的風險。因此,本發明將給出經過差分可辨性隱私保護的PHMM模型構建方法,同時基于構建的PHMM模型進行基因序列的聚類,在聚類算法的迭代執行過程中確定差分可辨性隱私參數的分配,實現最終聚類結果滿足差分可辨性定義的隱私性,同時滿足一定的可用性。
發明內容
本發明的技術解決問題:針對基因序列聚類算法中可能出現的安全性問題,提供一種基于PHMM模型的差分可辨性基因序列聚類方法,解決基因序列聚類過程中隱私泄露的問題。
本發明采取的技術方案是:一種基于PHMM模型的差分可辨性基因序列聚類方法,它包含以下步驟:
步驟1:輸入基因序列數據集記錄數為n,初始化算法迭代輪數r=1。隨機生成K個PHMM模型具體過程如下:
輸入序列數據集共有n條記錄,表示為O={O1,O2,...,On}。其中每條序列長度為L。聚類算法開始前,迭代輪數r初始化為1。隨機生成K個PHMM模型其中akl表示隱狀態k到l的轉移概率,ek(a)表示隱狀態k下發射觀測符號a的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110738987.7/2.html,轉載請聲明來源鉆瓜專利網。





