[發明專利]多策略融合的命名實體的識別方法及裝置有效
| 申請號: | 201710447439.2 | 申請日: | 2017-06-14 |
| 公開(公告)號: | CN107330011B | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 趙紅紅;王萌萌;晉耀紅;蔣宏飛;楊凱程;董銘慆 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 策略 融合 命名 實體 識別 方法 裝置 | ||
本申請公開了一種多策略融合的命名實體的識別方法及裝置,利用第一識別模型識別獲取的語料中的命名實體,得到第一識別結果,在本申請提供的方法中,所述第一識別模型能夠更新和擴充語料庫,從而能夠識別出語料中新產生的命名實體,進而所述第一識別結果具有更高的準確率,再利用多識別模型融合的方法識別所述語料中的命名實體,得到第二識別結果,融合所述第一識別結果和第二識別結果得到第三識別結果,再利用語義挖掘系統對第三識別結果進行角色分配,并輸出具有角色的命名實體,從而實現了在數據海量化、實體類型多樣化、新詞層出不窮等情況下可靠地識別出命名實體,并對識別出的命名實體進行角色分配。
技術領域
本申請涉及自然語言處理領域,尤其涉及一種多策略融合的命名實體的識別方法及裝置。
背景技術
命名實體就是人名、機構名、地名以及其他所有以名稱為標識的實體,它是文本中基本的信息元素,是信息表達的重要載體,是正確理解和處理文本信息的基礎。中文命名實體識別是自然語言處理領域中的基本任務之一,其主要任務是識別出文本中出現的名字實體和有意義的數量短語并加以歸類,主要包括人名、地名、組織機構名、時間表達式、日期、數字表達式等。
在自然語言處理研究方面,命名實體識別在信息檢索、信息抽取、機器翻譯和文本分類等應用領域有重要作用,它能夠顯著地提高信息檢索、摘要提取、信息提取、機器翻譯和文本分類等應用系統的性能,為從文本中自動獲取知識奠定了基礎。命名實體識別準確率和召回率的高低,直接決定著語法分析、語義分析等語言理解全過程的性能。
近十幾年來,國內外學者對文本中的實體識別技術已有廣泛探討和深入研究。但隨著互聯網的飛速發展,大量無規則、多領域的文本數據不斷增長,對命名實體識別的準確率和召回率均提出了新的要求,此外,市場還需求對所識別到的命名實體進行角色分配,因此,無論是迎合市場需求,還是提高識別的準確率和召回率,命名實體的識別方法都有待進一步改進。
目前常用的命名實體識別方法分為兩大類:一是基于規則和知識的方法,二是基于統計的方法。基于規則和知識的方法是一種最早使用的方法,這種方法簡單、便利,缺點是需要大量的人工觀察,可移植性較差。基于統計的方法將命名實體識別看作一個分類問題,采用類似支持向量機,貝葉斯模型等分類方法;同時也可以將命名實體識別看作一個序列標注問題,采用隱馬爾可夫鏈、最大熵馬爾可夫鏈、條件隨機場等機器學習得到序列標注模型。但是上述方法或者存在難以滿足對目前大量無規則、多領域、日新月異文本進行命名實體識別的問題,或者識別的準確率和召回率低。
如,中國專利CN201610943210.3公開了一種基于人工智能的命名實體識別方法及裝置,這種方法通過利用條件隨機場模型和根據預設時間段內的檢索日志生成的功能模型,同時對待識別文本進行命名實體識別。該方案的缺陷在于其第二識別中預設的實體詞匯功能模型是首先通過詞典、規則匹配等方法得到待識別文本中所有的候選命名實體詞匯,進而判斷其作為命名實體詞匯的置信度的高低,由于規則的方法往往依賴于具體語言、領域和文本格式,編制過程耗時且容易產生錯誤,并且需要富有經驗的語言學家才能完成,而詞典的覆蓋率也較低,因此該方法難以滿足對目前大量無規則、多領域、日新月異文本進行命名實體識別。
再如中國專利CN201510889318.4公開了一種適用于社交網絡的命名實體識別方法,該方法在利用初始構建的第一序列標注模型得到訓練文檔的第一實體概率分布和測試文檔的第二實體概率分布后,從社交網絡信息中提取相似度特征,之后再基于相似度特征訓練得到第二序列標注模型,進而在基于第二序列標注模型對測試文檔進行序列標注得到命名實體的識別結果,最終該方法的準確率和召回率低,其識別的F值僅為33.19%。
因此,亟需開發一種能夠應對數據規模海量化、實體類型多樣化、新詞層出不窮等新情況,具有較高召回率和準確率,而且還能夠對識別得到的命名實體進行角色分配的命名實體識別方法以及命名實體識別裝置。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司,未經北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710447439.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氧化錫粒度測試方法
- 下一篇:一種電動式自行車打氣裝置





