[發(fā)明專(zhuān)利]一種科技文本命名實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011244352.3 | 申請(qǐng)日: | 2020-11-10 |
| 公開(kāi)(公告)號(hào): | CN112395879A | 公開(kāi)(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計(jì))人: | 李國(guó)徽;潘鵬;周思遠(yuǎn);徐志鵬;邱啟弘;鐘芳郅;袁凌 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華中科技大學(xué) |
| 主分類(lèi)號(hào): | G06F40/295 | 分類(lèi)號(hào): | G06F40/295;G06N3/04 |
| 代理公司: | 華中科技大學(xué)專(zhuān)利中心 42201 | 代理人: | 尹麗媛;李智 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 科技 文本 命名 實(shí)體 識(shí)別 方法 | ||
1.一種科技文本命名實(shí)體識(shí)別方法,其特征在于,包括:采用實(shí)體識(shí)別標(biāo)注模型,對(duì)目標(biāo)領(lǐng)域的科技文本進(jìn)行實(shí)體識(shí)別標(biāo)注;
其中,所述實(shí)體識(shí)別標(biāo)注模型經(jīng)過(guò)以下訓(xùn)練方法得到,包括:
采用由源領(lǐng)域訓(xùn)練集訓(xùn)練得到的源領(lǐng)域標(biāo)注模型,將所述目標(biāo)領(lǐng)域的標(biāo)注樣本和所述訓(xùn)練集中的部分樣本輸入所述源領(lǐng)域標(biāo)注模型,分別得到目標(biāo)領(lǐng)域和源領(lǐng)域的深層特征向量,計(jì)算該兩個(gè)深層特征向量之間的MMD;
基于所述MMD調(diào)整所述源領(lǐng)域標(biāo)注模型參數(shù);并采用新的源領(lǐng)域標(biāo)注模型為所述目標(biāo)領(lǐng)域的每個(gè)未標(biāo)注樣本預(yù)測(cè)偽標(biāo)簽,將所述目標(biāo)領(lǐng)域的標(biāo)注樣本和帶有偽標(biāo)簽的樣本按比例混合并輸入新的源領(lǐng)域標(biāo)注模型,以再次計(jì)算MMD,重復(fù)上述過(guò)程,直至MMD和分類(lèi)損失最小,得到所述實(shí)體識(shí)別標(biāo)注模型。
2.根據(jù)權(quán)利要求1所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,在所述預(yù)測(cè)偽標(biāo)簽之后,所述訓(xùn)練方法還包括:
挑選優(yōu)質(zhì)的帶有偽標(biāo)簽的樣本用于與所述目標(biāo)領(lǐng)域的標(biāo)注樣本按比例混合,所述挑選方法為:
計(jì)算每個(gè)預(yù)測(cè)概率向量中最大的兩個(gè)概率值的差值,挑選差值較大的樣本用于與所述目標(biāo)領(lǐng)域的標(biāo)注樣本按比例混合,其中,所述預(yù)測(cè)概率向量為所述源領(lǐng)域標(biāo)注模型對(duì)每個(gè)未標(biāo)注樣本的輸出概率向量,所述偽標(biāo)簽由所述輸出概率向量確定。
3.根據(jù)權(quán)利要求1所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,所述比例為1:1。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,在每一次所述目標(biāo)領(lǐng)域的樣本集輸入所述源領(lǐng)域標(biāo)注模型之前,對(duì)當(dāng)前待輸入所述源領(lǐng)域標(biāo)注模型的所述目標(biāo)領(lǐng)域的樣本集進(jìn)行數(shù)據(jù)增強(qiáng),所述數(shù)據(jù)增強(qiáng)方法包括:同義詞替換、隨機(jī)插入、隨機(jī)刪除、隨機(jī)交換和回譯。
5.根據(jù)權(quán)利要求1所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,所述實(shí)體識(shí)別方法還包括:對(duì)所述源領(lǐng)域的科技文本進(jìn)行實(shí)體識(shí)別標(biāo)注,具體為:
采用所述源領(lǐng)域標(biāo)注模型,對(duì)源領(lǐng)域的科技文本進(jìn)行初步識(shí)別標(biāo)注;
基于復(fù)雜實(shí)體庫(kù),通過(guò)實(shí)體匹配,從該科技文本中找出所述復(fù)雜實(shí)體庫(kù)中含有的實(shí)體并進(jìn)行二次標(biāo)注,以替換所述初步識(shí)別標(biāo)注中對(duì)應(yīng)位置的標(biāo)注。
6.根據(jù)權(quán)利要求5所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,所述對(duì)所述源領(lǐng)域的科技文本進(jìn)行實(shí)體識(shí)別標(biāo)注時(shí),結(jié)合吉布斯采樣任意階條件隨機(jī)場(chǎng),對(duì)包括人名、地名、組織名的通用類(lèi)實(shí)體進(jìn)行識(shí)別。
7.根據(jù)權(quán)利要求1所述的科技文本命名實(shí)體識(shí)別方法,其特征在于,所述源領(lǐng)域標(biāo)注模型為BiLSTM-CRF模型。
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,在所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的一種科技文本命名實(shí)體識(shí)別方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011244352.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于PageRank和時(shí)間衰減的科技文獻(xiàn)重要度評(píng)價(jià)方法
- 基于手機(jī)APP的科技信息服務(wù)查詢(xún)系統(tǒng)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種高校科技成果收集方法
- 一種表征科技專(zhuān)家成果能力的科技詞條抽取方法
- 一種科技成果轉(zhuǎn)化信息服務(wù)方法及系統(tǒng)
- 一種基于語(yǔ)義分析的科技成果入庫(kù)方法及系統(tǒng)
- 一種科技項(xiàng)目申報(bào)咨詢(xún)服務(wù)平臺(tái)
- 面向科技服務(wù)的知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種科技金融評(píng)估系統(tǒng)的構(gòu)建方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識(shí)別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





