[發明專利]命名實體識別方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202110285605.X | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113051920A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 于興文 | 申請(專利權)人: | 的盧技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 羅運紅 |
| 地址: | 210038 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種命名實體識別方法、裝置、計算機設備和存儲介質。該方法包括:獲取待識別自然語言信息;對所述待識別自然語言信息進行轉化處理,獲得字向量信息;基于預先構建的關鍵詞典,對所述待識別自然語言信息中的詞匯進行檢索,確定存在標簽信息的關鍵詞匯;將所述關鍵詞匯對應的標簽信息進行向量化,獲得詞典標簽信息;采用相對位置編碼的方式對所述字向量信息和所述詞典標簽信息進行融合,獲得蘊含詞典標簽信息的自然語言字向量;根據所述蘊含詞典標簽信息的自然語言字向量進行前后文信息挖掘,獲得所述待識別自然語言信息中每個字對應的命名實體標簽,采用本方法能夠提高命名實體識別結果法人準確性。
技術領域
本申請涉及信息識別技術領域,特別是涉及一種命名實體識別方法、裝置、計算機設備和存儲介質。
背景技術
命名實體識別(簡稱ner)任務是自然語言學習中的一項重要任務,其目的是從給定文本中抽取出所需的、關鍵的信息實體。ner任務是信息抽取、問答系統、知識圖譜等智能服務的重要基礎工具,為復雜分析任務提供資料與特征信息。
ner任務有多種解決途徑,傳統工程化的ner任務解決途徑為對業務數據進行統計分析,總結歸納并維護一組與需求有關的專業核心詞庫,在對自然語言進行分析時,依據專業核心詞庫對文本序列進行詞抽取。該方法可以一定程度上保證ner任務的識別質量,人工可以對其結果進行完全的干預。
隨著深度學習技術的發展,采用深度網絡進行實體識別逐漸成為ner任務的一種更有效的解決途徑。多種網絡模型,如BiLSTM-CRF(序列標注算法)、BERT(是一種預訓練模型,全稱是Bidirectional Encoder Representation from Transformers)、ALBERT(基于BERT改進的一種預訓練模型),都可從語義的角度歸納自然語言的詞或字,在結合上下文信息基礎上更靈活、精準的抽取關鍵的實體。
在當前工程化項目中,為使項目兼具可控性與靈活高效性,往往綜合使用基于詞典規則的命名實體識別方法與基于深度學習網絡模型的命名實體識別方法。一方面維護業務詞庫,為命名實體識別的效果進行兜底,通過更改詞庫內容,適應不同業務需求下的命名實體識別需要。另一方面使用深度網絡模型,根據自然語言的語義信息抽取關鍵實體。
然而,雖然同時使用兩種方法,但兩種方法的信息并未進行結合,最終結果往往以其中一種方法的結果為主導,例如:當挖掘“谷雨在谷雨這一天認真工作”這句話中時間實體信息時,若時間詞典中包含“谷雨”一詞,采用詞典的方法會將前后兩個“谷雨”都歸納為“節氣”的標簽。采用深度學習的方法很大幾率會將前者歸類為“人名”后者歸納為“節氣”,但由于訓練集質量與數量的限制,其模型表現效果存在不穩定性。在實際項目中,往往采用兩種方法中一種的結果作為最終的命名實體識別結果,這樣的結果雖然較單獨使用一種方法時更優,但無法考慮上下文語義關系,進行實體抽取時不靈活,因此,目前命名實體識別結果的準確性低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高命名實體識別結果準確性的命名實體識別方法、裝置、計算機設備和存儲介質。
一種命名實體識別方法,所述方法包括:
獲取待識別自然語言信息;
對所述待識別自然語言信息進行轉化處理,獲得字向量信息;
基于預先構建的關鍵詞典,對所述待識別自然語言信息中的詞匯進行檢索,確定存在標簽信息的關鍵詞匯;
將所述關鍵詞匯對應的標簽信息進行向量化,獲得詞典標簽信息;
采用相對位置編碼的方式對所述字向量信息和所述詞典標簽信息進行融合,獲得蘊含詞典標簽信息的自然語言字向量;
根據所述蘊含詞典標簽信息的自然語言字向量進行前后文信息挖掘,獲得所述待識別自然語言信息中每個字對應的命名實體標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于的盧技術有限公司,未經的盧技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110285605.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種阻斷耐藥性傳播的抗菌敷料
- 下一篇:一種電纜防堆疊壓彎的卷收機構





