[發(fā)明專利]基于關(guān)聯(lián)記憶網(wǎng)絡(luò)的中文細粒度命名實體識別方法及裝置在審
| 申請?zhí)枺?/td> | 202011344221.2 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112883732A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計)人: | 孫成勝;饒志宏;張焱;王偉;童煒 | 申請(專利權(quán))人: | 中國電子科技網(wǎng)絡(luò)信息安全有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 51214 | 代理人: | 賈年龍 |
| 地址: | 610207 四川省成都市*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)聯(lián) 記憶 網(wǎng)絡(luò) 中文 細粒度 命名 實體 識別 方法 裝置 | ||
本發(fā)明公開了一種基于關(guān)聯(lián)記憶網(wǎng)絡(luò)的中文細粒度命名實體識別方法及裝置,包括輸入層進行記憶句子的選擇,計算輸入句子和訓練集中句子的距離,將訓練集中與輸入句子距離最近的幾個句子作為記憶句子;嵌入層對輸入句子和記憶句子中的字符進行上下文編碼,并將記憶句子的實體標簽轉(zhuǎn)換為標簽序列,進行標簽嵌入;關(guān)聯(lián)記憶網(wǎng)絡(luò)計算輸入句子中每個字符和記憶句子中每個字符的注意力矩陣,并與記憶句子對應(yīng)的標簽嵌入相乘,將標簽信息融入序列表示中;多頭自注意層、條件隨機場層和輸出層。本發(fā)明對融入了標簽信息的字符表示進行重新編碼,增加了實體識別的效果;實驗結(jié)果表明,本發(fā)明的模型在細粒度命名實體識別任務(wù)中取得了更好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,更為具體的,涉及一種基于關(guān)聯(lián)記憶 網(wǎng)絡(luò)的中文細粒度命名實體識別方法及裝置。
背景技術(shù)
細粒度命名實體識別是對文本中的實體進行定位,并將其分類至預定 義的細粒度類別中;命名實體識別是自然語言處理中的信息抽取任務(wù)之一, 其目的是對文本中特定類別的實體進行定位和分類。大多數(shù)命名實體識別 任務(wù)中只識別人名、組織、地點等實體類別,識別的實體類別少,并且類 別劃分的比較寬泛;然而,細粒度命名實體識別更符合現(xiàn)實世界的知識體 系,在一些常見類別的基礎(chǔ)上做了近一步的類別劃分,需要識別的實體種類遠多于一般的命名實體識別,這樣從文本中抽取的實體就擁有了一個更 詳細的定義,對下游的知識圖譜的構(gòu)建和問答任務(wù)提供更有力的支撐。
在細粒度命名實體識別中,更細粒度的劃分會造成各實體類別在語義 上呈現(xiàn)出更緊密的距離;模型對語義相近類別的實體進行分類時,容易發(fā) 生混淆,這意味著細粒度實體類別的區(qū)分更具有挑戰(zhàn)性。目前,中文公開 的高質(zhì)量細粒度命名實體識別的數(shù)據(jù)集很少,CLUENER2020數(shù)據(jù)集包含 10種不同的實體類別,并對一些常見類別進行了細粒度的劃分,如從“地點” 中分離出來了“景點”,從“組織”中分離出了“政府”和“公司”,這就造成“地點”和“景點”之間,“組織”、“政府”和“公司”之間的混淆程度較高;同時存 在同一實體在不同語境下屬于不同類別的情況,如“游戲”可以是一些“書籍” 和“電影”的改編。
如表1所示,實體“《黑暗之塔》”在第一個句子中屬于“游戲”類別,在 第二和第三個句子中屬于“書籍”。在這種情況下,對實體類別的區(qū)分需要 結(jié)合上下文語境,同時也給“游戲”、“書籍”和“電影”實體類別之間的區(qū)分造 成混淆。Xu等人使用bilstm-crf和預訓練語言模型在該數(shù)據(jù)集上進行實驗, 相同的模型在其他數(shù)據(jù)集上的f1值可以達到95,然而在該數(shù)據(jù)集上最好的 效果只能達到80左右,這是因為細粒度數(shù)據(jù)集的句子中經(jīng)常存在多個類別 的實體,模型在預測時會出現(xiàn)一些實體類別的丟失,同時模型對一些類別 的區(qū)分能力也存在一定的限制,導致細粒度命名實體識別任務(wù)更具有挑戰(zhàn) 性。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于關(guān)聯(lián)記憶網(wǎng)絡(luò) 的中文細粒度命名實體識別方法及裝置,解決了現(xiàn)有細粒度命名實體識別 方案中存在的不足。
本發(fā)明的目的是通過以下方案實現(xiàn)的:
基于關(guān)聯(lián)記憶網(wǎng)絡(luò)的中文細粒度命名實體識別方法,其特征在于,包 括步驟:
S1,給定輸入句子S,計算輸入句子S和訓練集中句子的距離,將訓練 集中與輸入句子S距離最近的幾個句子作為記憶句子;
S2,對輸入句子S和記憶句子中的字符進行上下文編碼,并將記憶句子 的實體標簽轉(zhuǎn)換為標簽序列,進行標簽嵌入;
S3,通過關(guān)聯(lián)記憶網(wǎng)絡(luò)計算輸入句子S中每個字符和記憶句子中每個字 符的注意力矩陣,并與記憶句子對應(yīng)的標簽嵌入相乘,將標簽信息融入序 列表示中;
S4,通過多頭自注意機制結(jié)合句子任意位置之間的相互關(guān)注,對融入 了標簽信息的序列表示進行重新編碼;
S5,通過條件隨機場學習各實體標簽之間的規(guī)則,再使用維特比算法 輸出概率最高的標簽序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技網(wǎng)絡(luò)信息安全有限公司,未經(jīng)中國電子科技網(wǎng)絡(luò)信息安全有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344221.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報文關(guān)聯(lián)方法、報文關(guān)聯(lián)裝置及報文關(guān)聯(lián)系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復網(wǎng)絡(luò)地址自動恢復的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





