[發明專利]一種基于混合層疊模型的命名實體識別方法有效
| 申請號: | 201611205879.9 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106598950B | 公開(公告)日: | 2019-02-05 |
| 發明(設計)人: | 賈大宇;王國仁;信俊昌;聶鐵錚 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N7/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李運萍 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 層疊 模型 命名 實體 識別 方法 | ||
1.一種基于混合層疊模型的命名實體識別方法,其特征在于,包括以下步驟:
步驟1:預處理:對已識別語料和待識別語料均進行分詞和詞性標注處理,并將已識別語料分為訓練語料和不重疊測試語料;
步驟2:利用自適應的選擇方式,在隱馬爾科夫模型和條件隨機場模型中,選擇出F值較高的作為自適應的統計識別模型,對預處理后的已識別語料進行初步的命名實體識別,得到初步的命名實體識別結果;F值是識別準確率和識別召回率的加權調和平均值;
步驟3:構建用于命名實體識別的知識庫,在知識庫的基礎上制定識別規則,并構成識別規則庫,由知識庫和識別規則庫構成基礎詞典;利用構建的基礎詞典,采用自適應的統計識別模型,對初步的命名實體識別結果進行二次識別,分析得到的二次識別結果的F值,并更新基礎詞典;
步驟4:構建混合層疊模型,包括三層采用自適應的統計識別模型的子模型,分別為人名實體識別模型、地名實體識別模型和機構名實體識別模型,利用混合層疊模型對預處理后的待識別語料逐層進行識別,混合層疊模型的每一層都利用基礎詞典,采用自適應的統計識別模型進行識別,并且將當前層識別出的識別結果添加到基礎詞典中,供下一層識別使用,最后得到待識別語料中的人名實體、地名實體和機構名實體。
2.根據權利要求1所述的一種基于混合層疊模型的命名實體識別方法,其特征在于,所述的步驟2包括以下步驟:
步驟2-1:利用隱馬爾科夫模型對訓練語料進行訓練,得到隱馬爾科夫模型的參數庫,即確定了隱馬爾科夫模型;利用條件隨機場模型對訓練語料進行訓練,得到條件隨機場模型的參數庫,即確定了條件隨機場模型;
步驟2-2:采用數理統計中的系統抽樣調查方法,對不重疊測試語料進行抽樣;
步驟2-3:利用步驟2-1中確定的隱馬爾科夫模型和條件隨機場模型,分別對步驟2-2中抽樣得到的不重疊測試語料進行測試,得到隱馬爾科夫模型的測試結果和條件隨機場模型的測試結果,針對隱馬爾科夫模型的測試結果和條件隨機場模型的測試結果分別計算F值;
步驟2-4:根據步驟2-3中的隱馬爾科夫模型的測試結果的F值和條件隨機場模型的測試結果的F值,自適應地在隱馬爾科夫模型和條件隨機場模型中選擇出F值較高的作為自適應的統計識別模型,對預處理后的已識別語料進行基于自適應的統計識別模型的命名實體識別,得到基于自適應的統計識別模型的初步的命名實體識別結果。
3.根據權利要求1所述的一種基于混合層疊模型的命名實體識別方法,其特征在于,所述的步驟3包括以下步驟:
步驟3-1:構建用于命名實體識別的知識庫,知識庫包括人名知識庫、地名知識庫和機構名知識庫,分別存儲了常用的人名、地名和機構名;在知識庫的基礎上制定識別規則,識別規則即知識庫中的人名、地名和機構名與對預處理后的已識別語料進行識別后的初步的命名實體識別結果之間的對應關系,由這些識別規則構成識別規則庫,識別規則庫包括人名識別規則庫、地名識別規則庫和機構名識別規則庫,由知識庫和識別規則庫構成基礎詞典;
步驟3-2:利用構建的基礎詞典,采用自適應的統計識別模型,對初步的命名實體識別結果進行二次識別,得到二次識別結果;
步驟3-3:計算二次識別結果的F值,若二次識別結果的F值沒有達到設定的要求,則提出新的識別規則或者修改原有的識別規則,添加到基礎詞典中,對基礎詞典進行更新,并返回步驟3-1進行再次識別;若二次識別結果的F值達到了設定的要求,則保存基礎詞典。
4.根據權利要求1所述的一種基于混合層疊模型的命名實體識別方法,其特征在于,所述的步驟4包括以下步驟:
步驟4-1:混合層疊模型第一層為人名實體識別模型,在人名實體識別模型中,利用基礎詞典,通過自適應的統計識別的模型,對預處理后的待識別語料進行識別,得到人名實體;將識別出來的人名實體補充到基礎詞典的人名知識庫中,更新基礎詞典,作為第二層地名識別的基礎詞典;
步驟4-2:混合層疊模型第二層為地名實體識別模型,在地名實體識別模型中,利用步驟4-1中得到的基礎詞典,通過自適應的統計識別模型,對預處理后的待識別語料進行識別,得到地名實體;將識別出來的地名實體補充到基礎詞典的地名知識庫中,更新基礎詞典,作為第三層機構名識別的基礎詞典;
步驟4-3:混合層疊模型第三層為機構名實體識別模型,在機構名實體識別模型中,利用步驟4-2中得到的基礎詞典,通過自適應的統計識別模型,對預處理后的待識別語料進行識別,得到機構名實體;將識別出來的機構名實體補充到基礎詞典的機構名知識庫中,更新基礎詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611205879.9/1.html,轉載請聲明來源鉆瓜專利網。





