[發明專利]一種從生物醫學文本中挖掘蛋白質亞細胞定位信息的方法有效
| 申請號: | 201810436260.1 | 申請日: | 2018-05-09 |
| 公開(公告)號: | CN108846257B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 王順芳;鄧琳;房園;郭磊;曹子成 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G06F40/295 |
| 代理公司: | 云南凌云律師事務所 53207 | 代理人: | 董建國 |
| 地址: | 650091*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生物醫學 文本 挖掘 蛋白質 細胞 定位 信息 方法 | ||
1.一種從生物醫學文本中挖掘蛋白質亞細胞定位信息的方法,其特征在于,該方法包括以下步驟:
步驟1:對源文本中的蛋白質命名實體進行識別;
步驟1.1:對源文本進行預處理,首先分割短語,然后將所有字母轉換為小寫字母,將再所有的單詞轉換根據專家詞典SPECIALIST Lexicon為原型,利用現有的詞性標注工具Brill-Tagger進行詞性標注;
步驟1.2:利用正則表達式消除源文本中的命名實體邊界錯誤;
步驟1.3應用生物醫學同義詞詞典BioThesaurus和超級敘詞表Metathesaurus詞典進行匹配,得到詞典匹配結果;
步驟1.4:將核心詞特征、POS詞性特征、拼詞法特征、詞綴特征結合步驟1.3得到的詞典特征來構造特征集合,使用條件隨機域模型進行訓練,得到蛋白質命名實體信息;
步驟2:對源文本中的亞細胞位置的關鍵詞進行識別,利用字典在每個文檔中進行關鍵詞匹配,進而在文本數據中對亞細胞位置的關鍵詞進行提取;
步驟2.1:對源文本進行預格式化處理; 首先將大段的文本內容劃分成句子和單詞,單詞是原子的、不再可分的,關鍵詞匹配時涉及的每個詞組由若干個單詞組成; 然后是將英文單詞的數、時態語法變形去除,將相同的單詞化為一個統一的形式,以免遺漏一些匹配;
步驟2.2:通過收集六類物種細胞中的亞細胞位置信息,構建亞細胞位置信息字典;
步驟2.3:利用字典在每個文檔中進行關鍵詞匹配,進而在文本數據中進行信息提取,得到亞細胞位置關鍵字信息;
步驟3:針對步驟1中的蛋白質命名實體信息和步驟2中的亞細胞位置關鍵字信息,將包含著這兩者的句子進行篩選,得到蛋白質命名實體和亞細胞位置信息共現的句子數據集;
步驟4:針對步驟3中得到的數據集,分別提取相應特征構建特征集合;
步驟4.1:利用現有的命名實體識別工具ABNER對步驟3中得到的數據集進行預處理,從而得出數據集的詞特征與邏輯特征;
步驟4.2:針對步驟4.1中得到的詞特征,利用現有的神經網絡模型word2vec將詞特征向量化,得到詞特征向量矩陣;
步驟4.3:將步驟4.1中得到的詞性特征數字化,提取詞性序列,計算狀態轉移矩陣概率,得到狀態轉移概率矩陣;
步驟4.4:將步驟3中得到的數據集利用現有的詞性標注工具Stanford-postagger進行詞性標注,得到詞性特征;
步驟4.5:將步驟4.1中的得到的邏輯特征、步驟4.2中的得到的詞特征向量及步驟4.3中的得到的狀態轉移矩陣進行合并,得到特征集合;
步驟5:針對步驟4中的特征集合,通過訓練多個分類器,最后使用疊加式的方法組合單個分類器的預測結果,構建分類模型;
步驟6,將步驟5中構造的分類模型應用到生物醫學文本挖掘當中。
2.根據權利要求1所述的方法,其中所述的源文本是由一個或多個句末帶有終結符號構成的英文文本,文本包含蛋白質亞細胞定位信息且符合語法規則,其中終結符號包括句號、逗號、問號、感嘆號和分號,且該文本經過專家注釋,規模較小。
3.根據權利要求1所述的方法,其中所述的蛋白質命名實體是指蛋白質名稱。
4.根據權利要求1所述的方法,其中所述的邏輯特征包括了蛋白質命名實體與亞細胞位置信息間的單詞數、動詞及標點符號數。
5.根據權利要求1所述的方法,其中所述的神經網絡模型word2vec指的是現有的一款將詞表征為實數值向量的高效工具。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810436260.1/1.html,轉載請聲明來源鉆瓜專利網。





