[發明專利]一種基于混合層疊模型的命名實體識別方法有效
| 申請號: | 201611205879.9 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106598950B | 公開(公告)日: | 2019-02-05 |
| 發明(設計)人: | 賈大宇;王國仁;信俊昌;聶鐵錚 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N7/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李運萍 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 層疊 模型 命名 實體 識別 方法 | ||
一種基于混合層疊模型的命名實體識別方法,包括:預處理;利用自適應的選擇方式,在隱馬爾科夫模型和條件隨機場模型中,選擇出F值較高的作為自適應的統計識別模型,對預處理后的已識別語料進行初步的命名實體識別,得到初步的命名實體識別結果;構建由知識庫和識別規則庫構成基礎詞典;利用基礎詞典,采用自適應的統計識別模型,對初步的命名實體識別結果進行二次識別,分析二次識別結果的F值,更新基礎詞典;構建混合層疊模型,對預處理后的待識別語料逐層進行識別,將當前層識別出的識別結果添加到基礎詞典中供下一層識別使用,最后得到待識別語料中的人名實體、地名實體和機構名實體。本發明的識別準確率和識別召回率有顯著提高。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于混合層疊模型的命名實體識別方法。
背景技術
伴隨著互聯網、云計算、移動媒體和物聯網等新興網絡的應用,催生了大量用戶創造內容的Web2.0技術,使Web應用進入大數據時代,搜索引擎、電子商務、社交網站等一系列互聯網衍生業務迅速發展。現時代的大數據具有4個特點,分別為數據量大,數據結構多樣性,數據產生的快,具有很高的商業價值。針對大量數據,并不是所有信息都是有用的數據。這就導致大量無效數據與有價值的數據并存的現象出現。因此,在大數據時代如何從龐大的數據集合中找尋出有價值的數據成為目前信息技術的主要挑戰。信息抽取技術正是在這個背景下產生的。
信息抽取技術的起源可以追溯到上個世紀70年代,第一個商用信息抽取系統JASPER應用于路透社公司,可以為金融交易員提供實時財經新聞。20世紀80年代末開始,消息理解系列會議的召開使得信息抽取研究迅速發展,使得信息抽取技術從特定領域走向了開放領域,從特定格式的數據類型到無結構化的文本數據類型,從新聞、郵件、論文到所有普通的網頁中信息,從手工建模到利用機器學習等統計方法建模。現在信息抽取已經融入到了我們的生活當中,而在信息抽取中,最重要的部分之一就是命名實體識別。
在實際的命名實體識別工作中,由于實體大部分都不在分詞系統詞典收錄的詞中,所以識別命名實體的困難主要在于:(1)命名實體數量巨大,同時在文字的創造中,新的名稱不斷出現,命名實體不可能全部都在收錄的詞典中;(2)在不同場景和領域下,命名實體的意義有所不同;(3)某些類型的實體名稱不斷變化,并且沒有嚴格的規律可以遵循,其中以機構名最為復雜;(4)命名實體總有縮寫形式出現;(5)實體類型存在歧義性;(6)命名實體表達形式多樣;(7)實體名和普通名詞之間存在歧義性等。對上述難點進行了優化、解決后,可將成熟的實體識別技術帶到學術領域、商品搜索領域等。
對于很多命名實體來說,命名實體本身并不是孤立的,命名實體間存在著互相嵌套的特點。例如:地名中嵌套著一些名人的人名,人名中嵌套著地名,特別是在機構名中嵌套著大量的人名、地名和機構名等。這種命名實體中相互嵌套的現象極大的提升了識別復雜命名實體的難度。
發明內容
本發明提出的一種基于混合層疊模型的命名實體識別方法,在人名實體、地名實體和機構名實體識別準確率和識別召回率方面都有顯著的提高。
本發明的技術方案如下:
一種基于混合層疊模型的命名實體識別方法,包括以下步驟:
步驟1:預處理:對已識別語料和待識別語料均進行分詞和詞性標注處理,并將已識別語料分為訓練語料和不重疊測試語料;
步驟2:利用自適應的選擇方式,在隱馬爾科夫模型和條件隨機場模型中,選擇出F值較高的作為自適應的統計識別模型,對預處理后的已識別語料進行初步的命名實體識別,得到初步的命名實體識別結果;
步驟2-1:利用隱馬爾科夫模型對訓練語料進行訓練,得到隱馬爾科夫模型的參數庫,即確定了隱馬爾科夫模型;利用條件隨機場模型對訓練語料進行訓練,得到條件隨機場模型的參數庫,即確定了條件隨機場模型;
步驟2-2:采用數理統計中的系統抽樣調查方法,對不重疊測試語料進行抽樣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611205879.9/2.html,轉載請聲明來源鉆瓜專利網。





