[發(fā)明專利]一種基于混合格自注意力網(wǎng)絡的命名實體識別方法和裝置在審
| 申請?zhí)枺?/td> | 202210172667.4 | 申請日: | 2022-02-24 |
| 公開(公告)號: | CN114429132A | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設計)人: | 王立松;何宗鋒;劉紹翰;劉亮 | 申請(專利權(quán))人: | 南京航空航天大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/279;G06F40/242;G06N3/04 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 徐燕 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 注意力 網(wǎng)絡 命名 實體 識別 方法 裝置 | ||
本發(fā)明公開了一種基于混合格自注意力網(wǎng)絡的命名實體識別方法,包括:S1,將字詞對表示的句子特征向量編碼為一個維度固定的矩陣,得到混合格結(jié)構(gòu)的字詞向量表示;構(gòu)造自注意力網(wǎng)絡以捕獲該向量中詞向量對字向量的影響,增強每個字向量的特征表示;在BERT的Embedding層融合詞特征,通過微調(diào)學習過程,學習得到更好的字向量表示;依據(jù)BiLSTM?CRF網(wǎng)絡實現(xiàn)實體識別中的實體序列標注任務和解碼過程,通過該網(wǎng)絡完成對融合后字特征的建模,構(gòu)建完成基于混合格自注意力網(wǎng)絡的實體識別模型。本發(fā)明能夠捕獲全局的詞匯信息,生成語義豐富的字向量表示,在多個數(shù)據(jù)集上提升了中文命名實體識別的精度。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能中自然語言處理技術(shù)領(lǐng)域,具體而言涉及一種基于混合格自注意力網(wǎng)絡的命名實體識別方法和裝置。
背景技術(shù)
命名實體識別(NER)也叫實體抽取,最早是在MUC-6會議上提出,它是信息抽取技術(shù)中從文本抽取實體的技術(shù)。早期的實體識別采用基于規(guī)則和基于統(tǒng)計等方法,由于這些傳統(tǒng)方法過于依賴人工的設計,且識別的覆蓋率小、識別精度低,早已經(jīng)被深度學習方法取代。在基于深度學習的方法中,實體識別模型分為基于字的模型(character-based)和基于詞的模型(word-based),英文等其他一些語言通常采用基于字的模型,因為每個單詞都有明確的含義;漢語中字的含義是模糊的,而詞的含義是具體的,所以中文NER方法中采用基于詞的模型。為了更好的表示中文中每個字向量,后來有學者提出了基于表示學習的方法,它是一種將人類語言信息轉(zhuǎn)換為機器能識別的特征的學習方式,能夠提升機器學習中語義表達的準確性。
在命名實體識別方法中,外部的詞匯信息能夠有效的提升識別的精度,但是這些方法依賴于融合算法的性能。例如,專利號為CN113836930A的發(fā)明中提出一種中文危險化學品命名實體識別方法,在BiLSTM-CRF模型的基礎(chǔ)上,利用預訓練語言模型BERT獲取危險化學品領(lǐng)域的文本字符級別編碼,得到基于上下文信息的字向量,然后引入注意力機制,增強模型挖掘文本的全局和局部特征的能力。專利號為CN113128232A的發(fā)明中提出一種基于ALBERT與多重詞信息嵌入的命名實體識別方法,可以有效的表征字的多義性,提升實體識別的效率。專利號為CN111310470A的發(fā)明公開了一種融合字詞特征的中文命名實體識別方法,通過綜合分析后得到的結(jié)果數(shù)據(jù)加強了模型對文本的理解,提高了模型識別任務中的F1值。
雖然現(xiàn)有的方法在融合詞特征向量上已經(jīng)取得了不錯的效果,但現(xiàn)有的技術(shù)手段中存在的問題有:1)字詞特征融合方法沒有考慮到不同模型訓練的字詞向量在語義表達上存在差異性,直接空洞地將二者進行融合,不能有效的增強字向量的詞級特征;2)在基于學習詞權(quán)重的詞匯增強方法中,只考慮了每個字特征的匹配詞對字語義表示的影響,忽略了全局詞匯信息的作用。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中的不足,提供一種基于混合格自注意力網(wǎng)絡的命名實體識別方法和裝置,基于表示學習的思想,所提出的模型能夠融合詞匯信息,以此來增強字向量的特征表示,使得生成的字向量中包含了更多的實體邊界信息,從而能夠提升NER任務的準確性。
為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種基于混合格自注意力網(wǎng)絡的命名實體識別方法,所述命名實體識別方法包括以下步驟:
S1,在詞典中查找輸入句子中由連續(xù)個字組成的詞,通過位置交替映射合并成一個單獨的多維向量,采用混合字詞格編碼的方式將字詞對表示的句子特征向量編碼為一個維度固定的矩陣,得到相應的混合格結(jié)構(gòu)的字詞向量表示;
S2,基于步驟S1中生成的混合格結(jié)構(gòu)的字詞向量,構(gòu)造相應的自注意力網(wǎng)絡以捕獲該向量中詞向量對字向量的影響,以此來增強每個字向量的特征表示;
S3,在BERT的Embedding層融合詞特征,通過微調(diào)學習過程,學習得到更好的字向量表示;依據(jù)BiLSTM-CRF網(wǎng)絡實現(xiàn)實體識別中的實體序列標注任務和解碼過程,通過該網(wǎng)絡完成對融合后字特征的建模,構(gòu)建完成基于混合格自注意力網(wǎng)絡的實體識別模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學,未經(jīng)南京航空航天大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210172667.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





