[發明專利]一種遺傳變異研究數據存儲方法及裝置在審
| 申請號: | 201710170244.8 | 申請日: | 2017-03-21 |
| 公開(公告)號: | CN106951533A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 為朔醫學數據科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F19/18 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 朱文杰 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 遺傳 變異 研究 數據 存儲 方法 裝置 | ||
技術領域
本發明涉及數據分析及基因技術領域,具體而言,涉及一種遺傳變異研究數據存儲方法及裝置。
背景技術
單基因遺傳病是指受一對等位基因控制的遺傳病,約有6600多種,并且每年在以10-50種的速度遞增,較為常見的有紅綠色盲、血友病、白化病等,目前,單基因遺傳病對人類的健康已經構成了很大的威脅,因此,在某些情況下需要對單基因遺傳病進行檢測,而在檢測單基因遺傳病時,需要使用單基因遺傳病知識庫。
現有的單基因遺傳病知識庫有人類孟德爾遺傳(Online Mendelian Inheritance in Man,OMIM)、人類基因突變知識庫(The Human Gene Mutation Database,HGMD)等,在這些單基因遺傳病知識庫中存儲有基因變異數據、基因變異對單基因遺傳病的致病性的評估依據等數據,但是,這些數據以文本等非結構化的形式存儲在單基因遺傳病知識庫中,使得計算機無法識別知識庫中的數據,進而影響對知識庫中數據的自動檢索與分析等。
發明內容
有鑒于此,本發明實施例的目的在于提供一種遺傳變異研究數據存儲方法及裝置,以解決現有技術中遺傳變異研究數據以非結構化數據的形式存儲在遺傳變異知識庫中,導致計算機無法識別該數據,進而影響對知識庫中的數據的自動檢索與分析的問題。
第一方面,本發明實施例提供了一種遺傳變異研究數據存儲方法,其中,所述方法包括:
創建遺傳變異知識庫;
獲取遺傳變異研究數據,并確定所述遺傳變異研究數據的類別;
將所述遺傳變異研究數據轉換為遺傳變異研究元數據;
根據所述遺傳變異研究數據的類別,將所述遺傳變異研究元數據存儲到所述遺傳變異知識庫中。
結合第一方面,本發明實施例提供了上述第一方面的第一種可能的實現方式,其中,所述確定所述遺傳變異研究數據的類別,包括:
確定從預設的分類樣本集和預設的分類標準中獲取的多個關鍵詞中每個關鍵詞在所述遺傳變異研究數據中出現的概率,所述預設的分類樣本集中包括多個分類樣本;
計算每種類別的分類樣本在所述預設的分類樣本集中的概率;
根據每個所述關鍵詞對應的概率和所述每種類別的分類樣本對應的概率,確定所述遺傳變異研究數據的類別。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第二種可能的實現方式,其中,所述根據每個所述關鍵詞對應的概率和所述每種類別的分類樣本對應的概率,確定所述遺傳變異研究數據的類別,包括:
計算所有所述關鍵詞對應的概率的第一乘積;
計算所述第一乘積和所述每種類別的分類樣本對應的概率的第二乘積;
將所述第二乘積確定為所述遺傳變異研究數據屬于所述每種類別的概率;
根據所述遺傳變異研究數據屬于所述每種類別的概率,確定所述遺傳變異研究數據的類別。
結合第一方面的第二種可能的實現方式,本發明實施例提供了上述第一方面的第三種可能的實現方式,其中,所述根據所述遺傳變異研究數據屬于所述每種類別的概率,確定所述遺傳變異研究數據的類別,包括:
比較所述遺傳變異研究數據屬于所述每種類別的概率;
確定所述遺傳變異研究數據屬于所述每種類別的概率中的最大概率;
將所述最大概率對應的類別確定為所述遺傳變異研究數據的類別。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第四種可能的實現方式,其中,所述確定從預設的分類樣本集和預設的分類標準中獲取的多個關鍵詞中每個關鍵詞在所述遺傳變異研究數據中出現的概率,包括:
計算每個所述關鍵詞在所述每種類別的似然度;
根據每個所述關鍵詞在所述每種類別的似然度,確定每個所述關鍵詞在所述遺傳變異研究數據中出現的概率。
結合第一方面的第一種可能的實現方式,本發明實施例提供了上述第一方面的第五種可能的實現方式,其中,根據以下步驟從預設的分類樣本集和預設的分類標準中獲取多個關鍵詞:
根據詞語在所述預設的分類樣本集和所述預設的分類標準中出現的次數,篩選所述預設的分類樣本集和所述預設的分類標準中的候選詞語;
計算所述候選詞語在預設的語料庫中的詞頻和逆文檔頻率,所述預設的語料庫包括所述預設的分類樣本集和所述預設的分類標準;
根據所述候選詞語對應的所述詞頻和所述逆文檔頻率,確定所述關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于為朔醫學數據科技(北京)有限公司,未經為朔醫學數據科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710170244.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙軸農業廢棄物粉碎機
- 下一篇:一種帶有過濾裝置的中藥材粉碎裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





