[發(fā)明專利]一種科技文本命名實體識別方法在審
| 申請?zhí)枺?/td> | 202011244352.3 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112395879A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 李國徽;潘鵬;周思遠;徐志鵬;邱啟弘;鐘芳郅;袁凌 | 申請(專利權(quán))人: | 華中科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 尹麗媛;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 科技 文本 命名 實體 識別 方法 | ||
本發(fā)明屬于文本關(guān)鍵信息抽取領(lǐng)域,具體為一種科技文本命名實體識別方法,包括:采用實體識別標注模型對目標領(lǐng)域科技文本進行實體識別標注;其中該模型訓練方法為:將目標領(lǐng)域的標注樣本和源領(lǐng)域的部分樣本輸入源領(lǐng)域標注模型,分別得到目標領(lǐng)域和源領(lǐng)域的深層特征向量,計算該兩個向量間的MMD;基于MMD調(diào)整源領(lǐng)域標注模型參數(shù);采用新的源領(lǐng)域標注模型為目標領(lǐng)域每個未標注樣本預測偽標簽,將目標領(lǐng)域的標注樣本和帶偽標簽的樣本按比例混合并輸入新的源領(lǐng)域標注模型,再次計算MMD,重復上述直至MMD最小,得到實體識別標注模型。本發(fā)明是面向多領(lǐng)域、多范圍文本的基于遷移學習的命名實體識別,有效解決深度學習對特定領(lǐng)域少量數(shù)據(jù)學習能力不足的問題。
技術(shù)領(lǐng)域
本發(fā)明屬于文本關(guān)鍵信息抽取技術(shù)領(lǐng)域,更具體地,涉及一種科技文本命名實體識別方法。
背景技術(shù)
隨著科技的發(fā)展,海、陸、空、網(wǎng)及科技、電子、材料、生物、能源等多領(lǐng)域多范圍的數(shù)據(jù)量迅猛增長。在海量信息的分析處理過程中,關(guān)鍵信息抽取發(fā)揮著至關(guān)重要的作用。它指從一段文本中抽取特定的信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個數(shù)據(jù)庫供用戶查詢和使用,具體地,包括命名實體識別與關(guān)系抽取。
現(xiàn)有的實體識別方法,存在以下缺陷:基于詞典規(guī)則的方法建立完整字典規(guī)則的周期長,需要專家干預,移植性差;基于機器學習方法對特征的選擇要求比較高,需要人工抽取文本特征;基于深度學習的方法需要大規(guī)模的手工實體標注,難以適應多領(lǐng)域多范圍要求,難以處理長下文有效信息較少、實體詞長較長的復雜實體。如“跨站腳本攻擊”,只能識別出“腳本攻擊”而無法將實體識別完整。因此,研究一種提高復雜實體識別效果、減少手工干預標注的高準確率的實體識別方法對多領(lǐng)域多范圍科技信息處理有重要意義。
發(fā)明內(nèi)容
本發(fā)明提供一種科技文本命名實體識別方法,用以解決現(xiàn)有實體識別中采用深度學習而對特定領(lǐng)域少量數(shù)據(jù)學習能力不足的技術(shù)問題。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種科技文本命名實體識別方法,包括:采用實體識別標注模型,對目標領(lǐng)域的科技文本進行實體識別標注;
其中,所述實體識別標注模型經(jīng)過以下訓練方法得到,包括:
采用由源領(lǐng)域訓練集訓練得到的源領(lǐng)域標注模型,將所述目標領(lǐng)域的標注樣本和所述訓練集中的部分樣本輸入所述源領(lǐng)域標注模型,分別得到目標領(lǐng)域和源領(lǐng)域的深層特征向量,計算該兩個深層特征向量之間的MMD;
基于所述MMD調(diào)整所述源領(lǐng)域標注模型參數(shù);并采用新的源領(lǐng)域標注模型為所述目標領(lǐng)域的每個未標注樣本預測偽標簽,將所述目標領(lǐng)域的標注樣本和帶有偽標簽的樣本按比例混合并輸入新的源領(lǐng)域標注模型,以再次計算MMD,重復上述過程,直至MMD和分類損失最小,得到所述實體識別標注模型。
本發(fā)明的有益效果是:本發(fā)明是面向多領(lǐng)域、多范圍文本的基于遷移學習的命名實體識別,利用小規(guī)模標注語料對新領(lǐng)域數(shù)據(jù)進行實體識別。以源領(lǐng)域標注模型為基礎(chǔ),運用遷移學習的方式,以領(lǐng)域特征自適應為主體,偽標簽學習作為輔助,構(gòu)成目標領(lǐng)域的新的樣本集,用于源領(lǐng)域和目標領(lǐng)域的樣本集之間對應的MMD計算,以MMD最小為目標,優(yōu)化模型參數(shù),減小模型特征在既有知識領(lǐng)域與新知識領(lǐng)域的差異,將模型從已知知識領(lǐng)域遷移到新知識領(lǐng)域中,使模型能夠適應新領(lǐng)域的命名實體識別任務,有效解決了深度學習對特定領(lǐng)域少量數(shù)據(jù)學習能力不足的問題。
上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
進一步,在所述預測偽標簽之后,所述訓練方法還包括:
挑選優(yōu)質(zhì)的帶有偽標簽的樣本用于與所述目標領(lǐng)域的標注樣本按比例混合,所述挑選方法為:
計算每個預測概率向量中最大的兩個概率值的差值,挑選差值較大的樣本用于與所述目標領(lǐng)域的標注樣本按比例混合,其中,所述預測概率向量為所述源領(lǐng)域標注模型對每個未標注樣本的輸出概率向量,所述偽標簽由所述輸出概率向量確定。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學,未經(jīng)華中科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011244352.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





