[發(fā)明專利]一種大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法有效
| 申請?zhí)枺?/td> | 201710148320.5 | 申請日: | 2017-03-14 |
| 公開(公告)號: | CN106933805B | 公開(公告)日: | 2020-04-28 |
| 發(fā)明(設計)人: | 陳一飛;劉峰;韓冰青 | 申請(專利權)人: | 陳一飛;劉峰 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 北京市領專知識產權代理有限公司 11590 | 代理人: | 林輝輪 |
| 地址: | 210000 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 集中 生物 事件 觸發(fā) 識別 方法 | ||
本發(fā)明涉及生物事件觸發(fā)詞的識別方法技術領域,具體涉及一種大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法,為并行欠采樣方法(PUS),包括數(shù)據(jù)分割、邊界因子計算、樣本欠抽樣、邊界集歸并和最后修剪步驟,可以用于處理類別之間存在顯著的分布偏差的大訓練數(shù)據(jù)集,通過并行減少屬于多數(shù)類別的樣本實例來達到目的。該方法對數(shù)據(jù)的選擇是基于邊界因子的計算,其衡量每個樣本實例的所攜帶的信息對于分類的重要性。上述技術方案提供的大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法,能同時解決數(shù)據(jù)量大及類別間樣本分布不平衡問題,以達到更好的生物事件觸發(fā)詞的識別效果。
技術領域
本發(fā)明涉及生物事件觸發(fā)詞的識別方法技術領域,具體涉及一種大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法。
背景技術
隨著信息技術的提高以及互聯(lián)網(wǎng)的日益普及,生物醫(yī)學電子文獻作為科學研究的產物,呈指數(shù)增長的趨勢,這些在線文獻資源蘊藏大量的系統(tǒng)生物學研究急需的寶貴生物醫(yī)學知識。面對海量生物醫(yī)學文本信息的不斷激增,文本挖掘技術正作為提取隱藏在文獻中重要知識的技術,在生物醫(yī)學領域得以廣泛的應用。
生物事件抽取是指在海量醫(yī)學研究文獻中自動檢測基因和蛋白質等生物分子之間交互關系描述的過程,從而抽取預先定義的事件類型的結構化信息。在這個過程中,如果能夠準確地識別出生物事件觸發(fā)詞,事件抽取的性能將大大提高。事件觸發(fā)詞識別是生物事件抽取過程中的首要步驟,它所識別的觸發(fā)詞是事件元素識別的基礎,是整個事件的核心。在觸發(fā)詞識別中,還需識別觸發(fā)詞的類別,觸發(fā)詞的類別也就是整個事件的類別,如果觸發(fā)詞識別有誤,后續(xù)工作也失去了意義,因此做好觸發(fā)詞識別是進行生物醫(yī)學事件抽取的關鍵。其中,基于支持向量機(SVM)與基于豐富特征表示的方法是事件觸發(fā)詞識別中最常用的、結果最好的ML模型。然而,在實際的事件觸發(fā)識別應用中,關于數(shù)據(jù)的復雜性有兩個關鍵問題。首先,數(shù)據(jù)在類別間分布的不平衡性。其次,訓練數(shù)據(jù)集的大數(shù)據(jù)性。對于大數(shù)據(jù)集,許多分類算法存在很大的限制并導致性能降低。例如,SVM的訓練復雜度高度依賴于數(shù)據(jù)集的大小,在大數(shù)據(jù)集上訓練耗時較多。因此,大數(shù)據(jù)集及數(shù)據(jù)分布高度不平衡的特點為事件觸發(fā)詞的識別帶來了了非常巨大的挑戰(zhàn)。
面對大數(shù)據(jù)集,欠采樣技術是最有效的方法,它通過去除一些多數(shù)類別中的樣本實例來來構建平衡數(shù)據(jù)集,這樣做可以降低計算復雜性。因此,欠采樣技術在大數(shù)據(jù)下仍是有效的。為此,許多更高效的欠采樣方法被提出來。其中,基于聚類的欠采樣方法,旨在通過計算數(shù)據(jù)集的聚類解決不平衡數(shù)據(jù)分布問題。在這類方法中,訓練數(shù)據(jù)被分成幾簇,然后根據(jù)比例從多數(shù)類別的簇群中選擇具有代表性的樣本實例,與少數(shù)類別實例組成平衡的數(shù)據(jù)集。通過使用基于聚類的欠采樣方法和集成學習能有效地解決不平衡數(shù)據(jù)問題。另外,一種新的反向隨機欠抽樣方法(IRUS),通過對多數(shù)類別數(shù)據(jù)集的隨機大量抽樣,在類別之間構建復合決策邊界。然而,這些方法雖然能在一定程度上緩解不平衡數(shù)據(jù)學習的問題,但仍然需要耗費大量的時間來迭代地聚類或尋找最近的鄰居的邊界。因此,面對大數(shù)據(jù)集,這些方法并非真正高效的。
對于大數(shù)據(jù)集,為了克服SVM訓練復雜性的瓶頸,各種方法也被提出來,例如,順序最小優(yōu)化(SMO)將大QP問題分解為一系列的最小可能QP問題,允許SMO處理大訓練集。另有使用最小封閉球(MEB)聚類的數(shù)據(jù)集通過MEB方法劃分訓練數(shù)據(jù),聚類的中心用于SVM分類。然而,這些方法對不平衡數(shù)據(jù)的分類沒有幫助。
現(xiàn)有的方法都未能很好的同時解決在分類問題中同時存在的數(shù)據(jù)量大及類別間樣品分布不平衡問題,這是解決生物事件觸發(fā)詞識別的重要環(huán)節(jié)。
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法,能同時解決數(shù)據(jù)量大及類別間樣本分布不平衡問題,它能解決在大數(shù)據(jù)集下的樣本不平衡分類問題,能夠達到更好的生物事件觸發(fā)詞的識別效果。
為解決上述技術問題,本發(fā)明采用了以下技術方案:一種大數(shù)據(jù)集中生物事件觸發(fā)詞的識別方法,為并行欠采樣方法(Parallel Under-Sampling,PUS),包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陳一飛;劉峰,未經(jīng)陳一飛;劉峰許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710148320.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





