[發明專利]命名實體識別方法和裝置、計算機可讀存儲介質及處理器在審
| 申請號: | 202011630033.6 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112699684A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 武姍姍;喻波;王志海;魏力;謝福進 | 申請(專利權)人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 李靜茹 |
| 地址: | 100142 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 計算機 可讀 存儲 介質 處理器 | ||
本發明公開了一種命名實體識別方法和裝置、計算機可讀存儲介質及處理器。其中,該方法包括:獲取文本數據;對文本數據進行特征映射,得到第一文本向量和第二文本向量;將第一文本向量和第二文本向量分別輸入至識別模型的兩個通道進行命名實體識別,得到文本數據的識別結果。本發明解決了相關技術中命名實體識別過程中容易出現詞嵌入偏差問題,導致識別性能較低的技術問題。
技術領域
本發明涉及信息抽取領域,具體而言,涉及一種命名實體識別方法和裝置、計算機可讀存儲介質及處理器。
背景技術
隨著互聯網的日益普及和計算機技術的不斷發展,信息抽取受到了廣泛關注。信息抽取(Information Extraction,IE)主要是對文本中的非結構化信息進行結構化處理,從文本中抽取出特定的實體或事件,幫助用戶將海量文本的內容自動分類、提取和重構。命名實體識別(Named Entity Recognition,NER)是信息抽取的重要子任務,其中,中文命名實體識別是指計算機從一段中文文本數據中將其中存在的命名實體按照類別全部識別出來。
近年來,深度學習被廣泛應用到自然語言處理的任務中,采用深度學習的方法可以將將語料標注與詞向量特征結合,通過減少人工特征在模型中的比重,可減少命名實體識別系統對于大型語料庫的依賴;并通過概率統計降低規則方法的復雜度,有效提高了模型的性能。相關技術提供了一種結合卷積神經網絡(Convolutional Neural Networks,CNN)和長短時記憶網絡(Long Short Term Memory,LSTM)的命名實體識別方法,首先將文本表示成詞向量,通過后面的卷積層和池化層分別捕捉局域特征信息和保留重要的特征,再進入到LSTM層提取全局依賴關系,最后經過全連接層和CRF層得到最終的標簽輸出。但是,采用上述方案容易出現詞嵌入偏差問題,導致命名實體識別性能較低。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種命名實體識別方法和裝置、計算機可讀存儲介質及處理器,以至少解決相關技術中命名實體識別過程中容易出現詞嵌入偏差問題,導致識別性能較低的技術問題。
根據本發明實施例的一個方面,提供了一種命名實體識別方法,包括:獲取文本數據;對文本數據進行特征映射,得到第一文本向量和第二文本向量;將第一文本向量和第二文本向量分別輸入至識別模型的兩個通道進行命名實體識別,得到文本數據的識別結果。
可選地,將第一文本向量和第二文本向量分別輸入至識別模型的兩個通道進行命名實體識別,得到文本數據的識別結果,包括:將第一文本向量輸入至卷積神經網絡網絡進行特征提取,得到文本數據的局部特征向量;將第二文本向量輸入至基于注意力機制的雙向長短時記憶網絡進行特征提取,得到文本數據的時序特征向量;將局部特征向量和時序特征向量進行融合,得到目標特征向量;將目標特征向量輸入至條件隨機場進行識別,得到識別結果。
可選地,將第二文本向量輸入至基于注意力機制的雙向長短時記憶網絡進行特征提取,得到文本數據的時序特征向量,包括:將第二文本向量輸入至雙向長短時記憶網絡進行特征提取,得到文本數據的初始特征向量;將初始特征向量輸入至注意力機制層進行權重分配,得到時序特征向量。
可選地,將局部特征向量和時序特征向量進行融合,得到目標特征向量,包括:將局部特征向量和時序特征向量輸入至拼接層進行融合,得到融合后的特征向量;將融合后的特征向量輸入至全連接層進行維度轉換,得到目標特征向量。
可選地,將目標特征向量輸入至條件隨機場進行識別,得到識別結果,包括:通過維特比算法對目標特征向量進行處理,得到目標標注序列;基于目標標注序列,得到識別結果。
可選地,第一文本向量是將向量作為一個參數在識別模型訓練時發生改變的向量,第二文本向量是通過識別模型生成后不再改變的向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明朝萬達科技股份有限公司,未經北京明朝萬達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011630033.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:報表生成方法、裝置、可讀存儲介質及電子設備
- 下一篇:一種處理方法及裝置





