[發(fā)明專利]一種基于實(shí)體類型匹配的未登錄詞替換方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011643432.6 | 申請(qǐng)日: | 2020-12-31 |
| 公開(kāi)(公告)號(hào): | CN112633012A | 公開(kāi)(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 謝健;孫霖;蘇銀都;蔡琳 | 申請(qǐng)(專利權(quán))人: | 浙大城市學(xué)院 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/279;G06F40/253;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 杭州九洲專利事務(wù)所有限公司 33101 | 代理人: | 張羽振 |
| 地址: | 310015 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 實(shí)體 類型 匹配 登錄 替換 方法 | ||
本發(fā)明涉及一種基于實(shí)體類型匹配的未登錄詞替換方法,包括步驟:步驟1、數(shù)據(jù)準(zhǔn)備和評(píng)價(jià)指標(biāo)指定:指定數(shù)據(jù)集、訓(xùn)練集、驗(yàn)證集和測(cè)試集,并進(jìn)行人工標(biāo)注;步驟2、ETC語(yǔ)義空間模型訓(xùn)練:將基于實(shí)體類型匹配訓(xùn)練的語(yǔ)義空間稱為ETC語(yǔ)義空間,訓(xùn)練ETC語(yǔ)義空間模型;步驟3、在構(gòu)建的ETC語(yǔ)義空間上進(jìn)行未登錄詞替換;步驟4、命名實(shí)體識(shí)別。本發(fā)明的有益效果是:僅對(duì)測(cè)試文本進(jìn)行替換,而不針對(duì)預(yù)測(cè)模型做任何改動(dòng),因而ETC語(yǔ)義空間模型具有較好的通用性和較短的訓(xùn)練時(shí)間;不僅提高了現(xiàn)有模型在社交媒體文本上的命名實(shí)體識(shí)別性能,而且在幾種諸如斯坦福NLP的傳統(tǒng)命名實(shí)體識(shí)別工具上具有通用性。
技術(shù)領(lǐng)域
本發(fā)明屬于社交媒體命名識(shí)別領(lǐng)域技術(shù)領(lǐng)域,具體涉及一種基于單詞語(yǔ)義上下文構(gòu)建實(shí)體類型匹配(Entity Type Compatible,簡(jiǎn)稱ETC)空間的方法,并使用最近鄰搜索從構(gòu)建的ETC空間中找出匹配的登錄詞針對(duì)未登錄詞進(jìn)行替換。
背景技術(shù)
社交媒體(如Twitter)因其簡(jiǎn)單性、可訪問(wèn)性和及時(shí)性而日益成為重要的信息源。社交媒體文本中新興實(shí)體的提取對(duì)于后續(xù)任務(wù)至關(guān)重要,如事件檢測(cè)、關(guān)系提取和知識(shí)提取。但是,傳統(tǒng)的命名實(shí)體識(shí)別聚焦于新聞、文學(xué)作品等規(guī)范文本,在諸如社交媒體文本的非規(guī)范文本上表現(xiàn)不佳。主要原因有兩點(diǎn):1、因?yàn)樯缃幻襟w的時(shí)效性,文本中包含大量新興和獨(dú)特實(shí)體,其出現(xiàn)頻率不高,故而在訓(xùn)練集中缺乏標(biāo)注數(shù)。2、社交媒體文本由用戶生成,帶有極強(qiáng)的個(gè)人特征,文本中包含大量的非標(biāo)準(zhǔn)拼寫(xiě)、縮寫(xiě)、拼接詞。這兩大原因直接造成了大量的未登錄在規(guī)范詞典中的單詞產(chǎn)生,使得模型無(wú)法通過(guò)單詞本身獲取到正確的信息,造成預(yù)測(cè)錯(cuò)誤,傳統(tǒng)方法因此難以泛化到社交媒體文本上。為解決這一問(wèn)題,研究人員分別在命名實(shí)體識(shí)別(NER)和文本標(biāo)準(zhǔn)化兩個(gè)方面展開(kāi)了探索。命名實(shí)體識(shí)別方面,Enhancing named entity recognition in twitter messages using entity linking,Yamada等人,in Proceedings of the Workshop on Noisy Usergenerated Text,使用了端到端的實(shí)體鏈接對(duì)文本中的實(shí)體進(jìn)行探測(cè)并解析知識(shí)庫(kù)中的相應(yīng)條目。Modelingnoisiness to recognize named entities using multitask neural networks onsocial media,Aguilar等人,in NAACL,提出將命名實(shí)體分割和細(xì)粒度命名實(shí)體兩項(xiàng)任務(wù)結(jié)合起來(lái),進(jìn)行聯(lián)合訓(xùn)練。然而,因?yàn)槲吹卿浽~自身的限制,針對(duì)命名實(shí)體識(shí)別方面的研究并不能解決問(wèn)題,達(dá)到的提升十分有限。文本標(biāo)準(zhǔn)化方面,傳統(tǒng)方法中,常常通過(guò)名為ED的方法即計(jì)算兩個(gè)單詞之間的最小單字編輯次數(shù)的編輯距離來(lái)糾正錯(cuò)誤的單詞,但其在社交媒體文本的標(biāo)準(zhǔn)化上效果卻并不明顯。Ncsu-sas-ning:Candidate generation andfeature engineering for supervised lexical normalization,Ning Jin,inProceedings of the Workshop on Noisy User-generated Text,在靜態(tài)的映射字典上進(jìn)行模型的訓(xùn)練,映射字典中包含如“ur”-“you are”的映射關(guān)系,然后通過(guò)句子相似度來(lái)規(guī)范化單詞。Ncsu sas wookhee:A deep contextual long-short termmemory model fortext normalization,Min和Mott,in Proceedings of the Workshop on NoisyUsergenerated Text,提出基于詞典的標(biāo)準(zhǔn)化方法,同時(shí)采用基于長(zhǎng)短期記憶(LSTM)的模型來(lái)判斷單詞是否需要被標(biāo)準(zhǔn)化。然而,這些方法都是基于單詞本身的形態(tài)進(jìn)行單詞標(biāo)準(zhǔn)化,沒(méi)有考慮到單詞上下文的語(yǔ)境和單詞自身含義,因而在社交媒體命名實(shí)體識(shí)別的效果也并不理想,無(wú)法解決諸如“CNNPolitics”這類合成的未登錄詞。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述不足,提供一種基于實(shí)體類型匹配的未登錄詞替換方法。
這種基于實(shí)體類型匹配的未登錄詞替換方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙大城市學(xué)院,未經(jīng)浙大城市學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011643432.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





