[發(fā)明專利]一種科技文本命名實體識別方法在審
| 申請?zhí)枺?/td> | 202011244352.3 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112395879A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 李國徽;潘鵬;周思遠;徐志鵬;邱啟弘;鐘芳郅;袁凌 | 申請(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 華中科技大學(xué)專利中心 42201 | 代理人: | 尹麗媛;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 科技 文本 命名 實體 識別 方法 | ||
1.一種科技文本命名實體識別方法,其特征在于,包括:采用實體識別標注模型,對目標領(lǐng)域的科技文本進行實體識別標注;
其中,所述實體識別標注模型經(jīng)過以下訓(xùn)練方法得到,包括:
采用由源領(lǐng)域訓(xùn)練集訓(xùn)練得到的源領(lǐng)域標注模型,將所述目標領(lǐng)域的標注樣本和所述訓(xùn)練集中的部分樣本輸入所述源領(lǐng)域標注模型,分別得到目標領(lǐng)域和源領(lǐng)域的深層特征向量,計算該兩個深層特征向量之間的MMD;
基于所述MMD調(diào)整所述源領(lǐng)域標注模型參數(shù);并采用新的源領(lǐng)域標注模型為所述目標領(lǐng)域的每個未標注樣本預(yù)測偽標簽,將所述目標領(lǐng)域的標注樣本和帶有偽標簽的樣本按比例混合并輸入新的源領(lǐng)域標注模型,以再次計算MMD,重復(fù)上述過程,直至MMD和分類損失最小,得到所述實體識別標注模型。
2.根據(jù)權(quán)利要求1所述的科技文本命名實體識別方法,其特征在于,在所述預(yù)測偽標簽之后,所述訓(xùn)練方法還包括:
挑選優(yōu)質(zhì)的帶有偽標簽的樣本用于與所述目標領(lǐng)域的標注樣本按比例混合,所述挑選方法為:
計算每個預(yù)測概率向量中最大的兩個概率值的差值,挑選差值較大的樣本用于與所述目標領(lǐng)域的標注樣本按比例混合,其中,所述預(yù)測概率向量為所述源領(lǐng)域標注模型對每個未標注樣本的輸出概率向量,所述偽標簽由所述輸出概率向量確定。
3.根據(jù)權(quán)利要求1所述的科技文本命名實體識別方法,其特征在于,所述比例為1:1。
4.根據(jù)權(quán)利要求1至3任一項所述的科技文本命名實體識別方法,其特征在于,在每一次所述目標領(lǐng)域的樣本集輸入所述源領(lǐng)域標注模型之前,對當前待輸入所述源領(lǐng)域標注模型的所述目標領(lǐng)域的樣本集進行數(shù)據(jù)增強,所述數(shù)據(jù)增強方法包括:同義詞替換、隨機插入、隨機刪除、隨機交換和回譯。
5.根據(jù)權(quán)利要求1所述的科技文本命名實體識別方法,其特征在于,所述實體識別方法還包括:對所述源領(lǐng)域的科技文本進行實體識別標注,具體為:
采用所述源領(lǐng)域標注模型,對源領(lǐng)域的科技文本進行初步識別標注;
基于復(fù)雜實體庫,通過實體匹配,從該科技文本中找出所述復(fù)雜實體庫中含有的實體并進行二次標注,以替換所述初步識別標注中對應(yīng)位置的標注。
6.根據(jù)權(quán)利要求5所述的科技文本命名實體識別方法,其特征在于,所述對所述源領(lǐng)域的科技文本進行實體識別標注時,結(jié)合吉布斯采樣任意階條件隨機場,對包括人名、地名、組織名的通用類實體進行識別。
7.根據(jù)權(quán)利要求1所述的科技文本命名實體識別方法,其特征在于,所述源領(lǐng)域標注模型為BiLSTM-CRF模型。
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序被處理器運行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至7任一項所述的一種科技文本命名實體識別方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011244352.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





