[發(fā)明專利]一種命名實(shí)體識別模型的訓(xùn)練方法及命名實(shí)體識別的方法有效
| 申請?zhí)枺?/td> | 202010546972.6 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111738004B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 郭嘉豐;范意興;劉藝菲;張儒清;程學(xué)旗 | 申請(專利權(quán))人: | 中國科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 命名 實(shí)體 識別 模型 訓(xùn)練 方法 | ||
本發(fā)明實(shí)施例提供了一種命名實(shí)體識別模型的訓(xùn)練方法及命名實(shí)體識別的方法,本發(fā)明利用訓(xùn)練集訓(xùn)練BERT?CRF模型得到經(jīng)本輪訓(xùn)練的命名實(shí)體識別模型,然后用經(jīng)本輪訓(xùn)練的命名實(shí)體識別模型標(biāo)記待識別數(shù)據(jù)集得到弱標(biāo)記的待識別數(shù)據(jù)集,從弱標(biāo)記的待識別數(shù)據(jù)集中選擇一部分與初始訓(xùn)練集合并作為新的訓(xùn)練數(shù)據(jù)集繼續(xù)對命名實(shí)體識別模型進(jìn)行下一輪訓(xùn)練,從而讓命名實(shí)體識別模型在對待識別數(shù)據(jù)集進(jìn)行識別前用待識別數(shù)據(jù)集對模型進(jìn)行調(diào)整,使其具有更佳的泛化能力,最終提升模型在待識別數(shù)據(jù)集上的識別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體來說涉及命名實(shí)體識別技術(shù)領(lǐng)域,更具體地說,涉及一種命名實(shí)體識別模型的訓(xùn)練方法及命名實(shí)體識別的方法。
背景技術(shù)
自然語言處理是為了讓計(jì)算機(jī)理解人類的語言,從而更好地實(shí)現(xiàn)人與計(jì)算之間的交互(如語音助手、消息自動回復(fù)、翻譯軟件等應(yīng)用與人的交互)。自然語言處理通常包括分詞、詞性標(biāo)注、命名實(shí)體識別和語法分析。命名實(shí)體識別(Named Entity Recognition,簡稱NER)是自然語言處理(Natural Language Processing,簡稱NLP)的一個重要組成部分。命名實(shí)體識別是指識別文本中具有特定意義的事物名稱或者符號的過程,命名實(shí)體主要包括人名、地名、機(jī)構(gòu)名、日期、專有名詞等。許多下游NLP任務(wù)或應(yīng)用程序都依賴NER進(jìn)行信息提取,例如問題回答、關(guān)系提取、事件提取和實(shí)體鏈接等。若能更準(zhǔn)確地識別出文本中的命名實(shí)體,有助于計(jì)算機(jī)更好地理解語言的語義、更好地執(zhí)行任務(wù),從而提高人機(jī)交互體驗(yàn)。
命名實(shí)體識別當(dāng)前并不是一個大熱的研究方向,因?yàn)閷W(xué)術(shù)界普遍認(rèn)為這是一個已經(jīng)解決了的問題。但是,也有一些研究者認(rèn)為這個問題還沒有得到很好地解決,原因主要是命名實(shí)體識別只是在有限的文本類型(主要是新聞?wù)Z料中)和實(shí)體類別(主要是人名、地名、組織機(jī)構(gòu)名)中取得了不錯的效果;而在其他自然語言處理領(lǐng)域,命名實(shí)體評測語料較小,容易產(chǎn)生過擬合,通用的識別多種類型的命名實(shí)體的系統(tǒng)性能還很差。
基于深度學(xué)習(xí)的命名實(shí)體識別在英語新聞?wù)Z料上已經(jīng)達(dá)到不錯的效果(F1值在90%以上),但深度學(xué)習(xí)方法一般需要大量標(biāo)注數(shù)據(jù),在真實(shí)世界中很多語言和領(lǐng)域通常標(biāo)記數(shù)據(jù)比較少,因此出現(xiàn)了低資源命名實(shí)體識別問題。半監(jiān)督學(xué)習(xí)是目前解決低資源命名實(shí)體識別問題的常用方法,一般認(rèn)為半監(jiān)督學(xué)習(xí)包含純半監(jiān)督學(xué)習(xí)和直推學(xué)習(xí)。但半監(jiān)督學(xué)習(xí)仍存在模型性能相對較低,泛化能力也較低的問題,主要由于訓(xùn)練數(shù)據(jù)集引入不均衡的噪聲的原因。假設(shè)有如下的數(shù)據(jù)集,其中訓(xùn)練集XL+XU,測試集為Xtest,已標(biāo)記樣本數(shù)目為L,未標(biāo)記樣本數(shù)目為U,L<<U。則樣本可分為三類:標(biāo)記樣本(XL,YL)={(X1:L,Y1:L)};未標(biāo)記樣本XU={XL:N},訓(xùn)練時可用;測試樣本Xtest={XN+1:},只有在測試時才可以看到。純半監(jiān)督學(xué)習(xí)是一種歸納學(xué)習(xí)(Inductive learning),基于訓(xùn)練集XL+XU學(xué)習(xí)再對測試樣本Xtest進(jìn)行預(yù)測,也即純半監(jiān)督學(xué)習(xí)是基于“開放世界”的假設(shè)進(jìn)行學(xué)習(xí)。直推學(xué)習(xí)是(Transductivelearning),將測試樣本Xtest也作為未標(biāo)記樣本,也即直推學(xué)習(xí)是基于“封閉世界”的假設(shè)進(jìn)行學(xué)習(xí)。
自學(xué)習(xí)(Self-Training)是經(jīng)典的純半監(jiān)督學(xué)習(xí)方法之一,該方法的學(xué)習(xí)過程一般包含多輪訓(xùn)練,在每一輪訓(xùn)練中使用上一輪訓(xùn)練得到的學(xué)習(xí)器對未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測,得到置信度較高的標(biāo)注數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)集中,迭代地進(jìn)行模型訓(xùn)練。自學(xué)習(xí)相比其它半監(jiān)督學(xué)習(xí)方法的優(yōu)勢在于簡單并且不需要任何假設(shè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010546972.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識別方法、識別系統(tǒng)及計(jì)算機(jī)可讀存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識別方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種實(shí)體關(guān)系識別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于實(shí)體對齊的屬性融合方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲介質(zhì)





