[發明專利]一種生物文本中蛋白質相互關系的半監督抽取方法有效
| 申請號: | 201310072341.5 | 申請日: | 2013-03-07 |
| 公開(公告)號: | CN103136361B | 公開(公告)日: | 2016-11-30 |
| 發明(設計)人: | 陳一飛 | 申請(專利權)人: | 陳一飛 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 211815 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生物 文本 蛋白質 相互關系 監督 抽取 方法 | ||
1.一種生物文本中蛋白質相互關系的半監督抽取方法,其特征在于,按如下步驟進行:
(1)將已標注蛋白質相互作用信息的生物文本集做為訓練樣本集L0,將未標注蛋白質相互作用信息的生物文本集做為未標注樣本集U0,將所述訓練樣本集L0和所述未標注樣本集U0輸入預處理器,依次分別進行蛋白質命名實體識別、分句處理和指代消解處理,生成預處理過的文本集;
(2)在步驟(1)中的預處理過的訓練樣本集L0中提取候選蛋白質作用對;
(3)在候選蛋白質作用對與其存在的句子和全文的基礎上提取SSW-SVMs分類模型需要的特征集F=(f1,f2......,fn),對特征集F的特征值通過半監督學習方法進行基于信息強度的加權:,式中:其中M為預定義的類別總數,C為預定義的類別;
(4)基于信息強度加權的特征值訓練SSW-SVMs分類模型,并對未標注樣本集U0進行標注,利用主動學習方法選擇標注后的U0樣本,將最有價值的生物文本加入到樣本標注集S,更新訓練樣本集更新未標注樣本集U1=U0/S,用更新后的訓練樣本集L1和未標注樣本集U1重復步驟(3)-(5),對分類過程進行迭代,直到收斂。
2.根據權利要求1所述的一種生物文本中蛋白質相互關系的半監督抽取方法,其特征在于,步驟(4)中利用主動學習方法選擇樣本的方法為:
(1)利用5折疊的交叉驗證方法訓練SSW-SVMs模型,并在每次交叉驗證中得到未標注樣本集U0中樣本xu的分類標號,xu屬于類別i的概率為P(yi|xu),其中,yi是對樣本xu的分類標號;
則樣本xu的最優標號為:其中,yi是對樣本xu的分類標號,Y為yi的取值范圍,yoptimal是樣本xu的最優分類標號;
(2)根據樣本xu到當前SSW-SVMs分類面的距離對樣本進行采樣,最靠近分類面的樣本被認為是最具信息量的,計算xu到當前SVM分類面的距離作為位置信息Position(xu);
(3)將樣本集U0中符合下列樣本選擇條件的樣本xu添加到樣本集S中:p(yoptimal|xu)≥threshold&Position(xu)<distance,其中,threshold是最優分類樣本選取的閾值,distance是位置參數閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陳一飛,未經陳一飛許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310072341.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種太陽能空氣源熱泵熱水可視化遠程監控系統
- 下一篇:一種機床控制電路





