[發明專利]一種甲基化作用的預測方法、裝置有效
| 申請號: | 201310534661.8 | 申請日: | 2013-10-31 |
| 公開(公告)號: | CN103559423B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 周豐豐;趙苗苗;張召;劉記奎;葛瑞泉 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F19/12 | 分類號: | G06F19/12 |
| 代理公司: | 深圳中一專利商標事務所44237 | 代理人: | 張全文 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 甲基化 作用 預測 方法 裝置 | ||
1.一種甲基化作用的預測方法,其特征在于,所述方法包括:
下載得到被甲基化作用的數據;
根據所述被甲基化作用的數據獲取原始蛋白質序列數據;
對所述原始蛋白質序列數據進行預處理,得到陽性數據集和陰性數據集;
對所述陽性數據集和所述陰性數據集中的字符串數據進行編碼,得到數值型數據;
對所述陽性數據集和所述陰性數據集中的數值型數據利用分類算法進行建模,根據建模得到的模型計算最佳的分割方式,最后根據所述分割方式將需要預測是否被甲基化的數據集中的數據劃分為兩類,一類為被甲基化作用的數據,另一類為沒有被甲基化作用的數據。
2.如權利要求1所述的方法,其特征在于,所述根據所述被甲基化作用的數據獲取原始蛋白質序列數據包括:
從所述被甲基化作用的數據中依次讀取被甲基化作用的蛋白質名稱;
根據蛋白質名稱依次從網頁http://www.uniprot.org/uniprot/中查找與每個蛋白質名稱對應的數據;
由這些數據組成與各個蛋白質名稱對應的原始蛋白質序列,所述原始蛋白質序列數據中包括與所述被甲基化作用的數據中的各個蛋白質名稱對應的被甲基化作用的數據和沒有被甲基化作用的數據。
3.如權利要求1所述的方法,其特征在于,所述對所述原始蛋白質序列數據進行預處理,得到陽性數據集和陰性數據集包括:
以K或R為中心,從所述原始蛋白質序列數據中選取設定長度的字符串;
將被甲基化作用的字符串作為陽性對照,而其他的沒有被甲基化作用的字符串作為陰性對照;
將陽性對照添加至陽性數據集中,將陰性對照添加至陰性數據集中。
4.如權利要求1所述的方法,其特征在于,所述對所述陽性數據集和所述陰性數據集中的字符串數據進行編碼,得到數值型數據中的編碼方法包括概率型編碼、數值編號型編碼、正交型編碼和二進制編碼中的一種。
5.如權利要求1所述的方法,其特征在于,所述分類算法是隨機森林、隨機樹中的一種。
6.一種甲基化作用的預測裝置,其特征在于,所述裝置包括:
數據下載單元,用于下載得到被甲基化作用的數據;
原始數據獲取單元,用于根據所述被甲基化作用的數據獲取原始蛋白質序列數據;
預處理單元,用于對所述原始蛋白質序列數據進行預處理,得到陽性數據集和陰性數據集;
編碼單元,用于對所述陽性數據集和所述陰性數據集中的字符串數據進行編碼,得到數值型數據;
分類單元,用于對所述陽性數據集和所述陰性數據集中的數值型數據利用分類算法進行建模,根據建模得到的模型計算最佳的分割方式,最后根據所述分割方式將需要預測是否被甲基化的數據集中的數據劃分為兩類,一類為被甲基化作用的數據,另一類為沒有被甲基化作用的數據。
7.如權利要求6所述的裝置,其特征在于,所述原始數據獲取單元包括:
蛋白質名稱獲取模塊,用于從所述被甲基化作用的數據中依次讀取被甲基化作用的蛋白質名稱;
數據查找模塊,用于根據蛋白質名稱依次從網頁http://www.uniprot.org/uniprot/中查找與每個蛋白質名稱對應的數據;
數據拼接模塊,用于由這些數據組成與各個蛋白質名稱對應的原始蛋白質序列,所述原始蛋白質序列數據中包括與所述被甲基化作用的數據中的各個蛋白質名稱對應的被甲基化作用的數據和沒有被甲基化作用的數據。
8.如權利要求6所述的裝置,其特征在于,所述預處理單元包括:
字符串選定模塊,用于以K或R為中心,從所述原始蛋白質序列數據中選取設定長度的字符串;
陽陰性對照獲取模塊,用于將被甲基化作用的字符串作為陽性對照,而其他的沒有被甲基化作用的字符串作為陰性對照;
數據集獲得模塊,用于將陽性對照添加至陽性數據集中,將陰性對照添加至陰性數據集中。
9.如權利要求6所述的裝置,其特征在于,所述編碼單元采用的編碼方法是概率型編碼、數值編號型編碼、正交型編碼和二進制編碼中的一種。
10.如權利要求6所述的裝置,其特征在于,所述分類單元采用的分類算法是隨機森林、隨機樹中的一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310534661.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:諧波抑制混頻器
- 下一篇:多周期調制結構分布反饋半導體激光器及方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





