[發(fā)明專利]多領(lǐng)域?qū)嶓w識別方法有效
| 申請?zhí)枺?/td> | 202010437407.6 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111611802B | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計)人: | 陳文亮;方曄瑋;王銘濤;張民 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 郭磊 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 領(lǐng)域 實體 識別 方法 | ||
本發(fā)明公開了一種多領(lǐng)域?qū)嶓w識別方法。本專利中,我們主要做出了如下2個創(chuàng)新:1、針對目標(biāo)領(lǐng)域無任何人工標(biāo)注數(shù)據(jù)的跨領(lǐng)域場景,快速自動構(gòu)建目標(biāo)領(lǐng)域的弱標(biāo)注數(shù)據(jù)。2、將局部標(biāo)注學(xué)習(xí)應(yīng)用到跨領(lǐng)域命名實體識別任務(wù)中。有益效果:在目標(biāo)領(lǐng)域沒有任何人工標(biāo)注數(shù)據(jù)的場景下,有效改善源領(lǐng)域模型的領(lǐng)域自適應(yīng)能力,在降低數(shù)據(jù)標(biāo)注成本的同時,提高了目標(biāo)領(lǐng)域的實體識別性能。
技術(shù)領(lǐng)域
本發(fā)明涉及實體識別領(lǐng)域,具體涉及一種多領(lǐng)域?qū)嶓w識別方法。
背景技術(shù)
命名實體識別指識別文本中具有特定意義的實體。近年來,神經(jīng)網(wǎng)絡(luò)方法大大提高了命名實體識別任務(wù)的性能。但是,在實際應(yīng)用場景中,當(dāng)文本所屬領(lǐng)域不同于訓(xùn)練語料時,深度神經(jīng)網(wǎng)絡(luò)模型往往展現(xiàn)出較弱的知識泛化能力。
跨領(lǐng)域命名實體識別的難點主要有:1)實體名多樣,目標(biāo)領(lǐng)域會出現(xiàn)大量源領(lǐng)域中沒有出現(xiàn)過的實體;2)語言表達(dá)差異大,不同于新聞領(lǐng)域規(guī)范的語言表達(dá),各領(lǐng)域語料的數(shù)據(jù)分布迥異,如社交文本口語化現(xiàn)象嚴(yán)重,醫(yī)療領(lǐng)域的文本則帶有大量專業(yè)術(shù)語。
目前的跨領(lǐng)域命名實體識別方法大致可以分為:1)基于多任務(wù)學(xué)習(xí)框架的方法,學(xué)習(xí)領(lǐng)域無關(guān)的特征;2)使用源領(lǐng)域訓(xùn)練得到的模型參數(shù)初始化目標(biāo)領(lǐng)域模型,再在目標(biāo)領(lǐng)域數(shù)據(jù)上進(jìn)行訓(xùn)練。
基于多任務(wù)學(xué)習(xí)的跨領(lǐng)域命名實體識別
模型主要分為三部分:1)字向量表示層:將輸入字/詞轉(zhuǎn)化為連續(xù)的向量表示;2)特征抽取層:通過雙向長短期記憶網(wǎng)絡(luò)和線性變換,得到每個字對應(yīng)各標(biāo)簽的概率;3)預(yù)測層:預(yù)測當(dāng)前輸入條件下的輸出序列是什么。
為了抽取領(lǐng)域無關(guān)、任務(wù)相關(guān)的特征,該方法共享源領(lǐng)域模型和目標(biāo)領(lǐng)域模型的字向量表示層和特征抽取層。由于不同領(lǐng)域輸出的標(biāo)簽可能不同,所以不共享CRF層。然后,使用源領(lǐng)域的人工標(biāo)注數(shù)據(jù)和目標(biāo)領(lǐng)域的人工標(biāo)注數(shù)據(jù)分別訓(xùn)練該模型。實驗證明,該方法通過2個領(lǐng)域共享若干層進(jìn)行聯(lián)合訓(xùn)練,能夠有效抽取與領(lǐng)域無關(guān)的特征,從而提高目標(biāo)領(lǐng)域的實體識別性能。
2、基于參數(shù)初始化的跨領(lǐng)域命名實體識別
該方法共分為以下幾個步驟:
1、在具有大規(guī)模人工標(biāo)注數(shù)據(jù)的源領(lǐng)域上訓(xùn)練,得到模型A。
2、模型B具有同樣的模型結(jié)構(gòu),使用模型A的參數(shù)初始化模型B。
3、在目標(biāo)領(lǐng)域有限的人工標(biāo)注數(shù)據(jù)上,繼續(xù)訓(xùn)練模型B,擬合目標(biāo)領(lǐng)域特征。
實驗證明,該方法能有效提高目標(biāo)領(lǐng)域的實體識別性能,經(jīng)過微調(diào)的模型B對目標(biāo)領(lǐng)域的實體識別性能顯著優(yōu)于模型A。
傳統(tǒng)技術(shù)存在以下技術(shù)問題:
1、需要目標(biāo)領(lǐng)域的人工標(biāo)注語料。實際應(yīng)用中,大規(guī)模高質(zhì)量的標(biāo)注語料獲取代價高昂。并且,細(xì)分領(lǐng)域非常多,每有一個新的特定領(lǐng)域就需要標(biāo)注一定量的語料,成本非常高。當(dāng)目標(biāo)領(lǐng)域沒有標(biāo)注數(shù)據(jù)時,大多數(shù)現(xiàn)有的領(lǐng)域遷移技術(shù)都無法得到有效應(yīng)用。
2、缺乏對目標(biāo)領(lǐng)域無標(biāo)注數(shù)據(jù)的利用。大規(guī)模無標(biāo)注數(shù)據(jù)的獲取代價很低,其中蘊含著豐富的語義信息。但是,大多數(shù)現(xiàn)有的領(lǐng)域遷移技術(shù)并沒有利用它。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種多領(lǐng)域?qū)嶓w識別方法,在目標(biāo)領(lǐng)域沒有任何人工標(biāo)注數(shù)據(jù)的場景下,自動生成高質(zhì)量的目標(biāo)領(lǐng)域弱標(biāo)注數(shù)據(jù),并對其建模,提高了目標(biāo)領(lǐng)域的命名實體識別性能。
為了解決上述技術(shù)問題,本發(fā)明提供了一種多領(lǐng)域?qū)嶓w識別方法,包括:為了減少數(shù)據(jù)分布不同帶來的遷移困難,使用了兩種方法同時標(biāo)注目標(biāo)領(lǐng)域的無標(biāo)注語料,保留高置信度的標(biāo)簽,對于不確定位置采用特殊標(biāo)簽,得到目標(biāo)領(lǐng)域的弱標(biāo)注數(shù)據(jù);由于弱標(biāo)注語料包含不確定標(biāo)簽,普通CRF層無法建模,應(yīng)用局部標(biāo)注學(xué)習(xí)對其建模;
自動標(biāo)注:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010437407.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





