[發明專利]用于選擇用于建模上位性效應的標記的信息處理方法和系統有效
| 申請號: | 201410025013.4 | 申請日: | 2014-01-20 |
| 公開(公告)號: | CN103942467B | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | D·霍斯;何丹;L·P·帕里達 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 張亞非;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因標記 集合 表型 建模 信息處理 特征集 處理器 | ||
各個實施例選擇用于建模上位性效應的標記。在一個實施例中,處理器接收基因標記集合和表型。針對基因標記集合中的每個來確定關于表型的相關性評分。基于具有最高相關性評分的基因標記的相關性評分來設置閾值。針對基因標記集合中的至少一個基因標記來確定該至少一個基因標記和基因標記集合中的至少一個其他基因標記之間的至少一個交互的相關性評分。基于該至少一個交互的相關性評分滿足閾值,該至少一個交互被添加到最高k特征集。
技術領域
本發明一般涉及計算生物學領域,且更具體地,涉及選擇用于建模用于表型預測的基因上位性(epistasis)的特征。
背景技術
特征選擇方法對于分類和回歸問題是關鍵的。例如,在大型學習應用中,特別是對于諸如基因表達和表型數據等生物數據(其中變量的數量遠超過樣本數量),這是常見的。“維數災難”(curse of dimensionality)問題不僅影響學習算法的計算效率,而且導致這些算法的低性能。為解決這個問題,可使用各種特征選擇方法,其中,選擇重要特征的子集,并且基于這些特征來訓練學習算法。
發明內容
在一個實施例中,公開了一種用于選擇用于建模上位性效應的標記(marker)的信息處理方法。計算機實施方法包括由處理器接收一組基因標記和表型。針對表型,確定用于該組基因標記的每個的相關性評分。基于該組基因標記中具有最高相關性評分的基因標記的相關性評分設置閾值。針對該組基因標記中的至少一個基因標記,確定用于該至少一個基因標記和該組基因標記中的至少一個其他基因標記之間的至少一次交互的相關性評分。基于該至少一次交互的相關性評分滿足閾值,該至少一次交互被添加到最高k(top-k)特征集。最高k特征集中的每個特征是各包括最高k相關性評分的基因標記和交互中的一個。選擇最高k特征集的子集以用于建模對物理特性的上位性效應。
在另一個實施例中,公開了一種用于選擇用于建模上位性效應的標記的信息處理系統。信息處理系統包括:被配置為由處理器接收一組基因標記和表型的模塊;被配置為為該組基因標記中的每個確定針對表型的相關性評分的模塊;被配置為基于該組基因標記中具有最高相關性評分的基因標記的相關性評分設置閾值的模塊;被配置為為該組基因標記中的至少一個基因標記確定用于該至少一個基因標記和該組基因標記中的至少一個其他基因標記之間的至少一次交互的相關性評分的模塊;以及被配置為基于該至少一次交互的相關性評分滿足閾值,添加該至少一次交互到最高k特征集的模塊,其中最高k特征集中的每個特征是各包括最高k相關性評分的基因標記和交互中的一個。
附圖說明
在全部附圖中類似的參考標號指示相同或功能類似的元件,且其與以下的詳細描述結合并形成說明書的一部分,用于進一步描述各種實施例并解釋根據本發明的各種原理和優勢,在附圖中:
圖1是示出根據本發明的一個實施例的操作環境的一個例子的框圖;且
圖2是示出根據本發明的一個實施例的用于選擇用于建模上位性效應的標記的一個例子的操作性流程圖。
具體實施方式
圖1示出了根據本發明的一個實施例的一個操作環境100的概圖。特別地,圖1示出了可被用在本發明的實施例中的信息處理系統102。圖1示出的信息處理系統102僅是合適的系統一個例子,且不旨在限定以上描述的本發明的實施例的使用范圍或功能。圖1的信息處理系統102能夠實施和/或執行上述任何功能。任何被合適配置的處理系統可被用作本發明實施例中的信息處理系統102。
如圖1所示,信息處理系統102是通用計算設備的形式。信息處理系統102的組件可包括但不限于一個或多個處理器或處理單元104、系統存儲器106和總線108,總線108將包括系統存儲器106的各種系統組件耦合到處理器104。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410025013.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





