[發明專利]多策略融合的命名實體的識別方法及裝置有效
| 申請號: | 201710447439.2 | 申請日: | 2017-06-14 |
| 公開(公告)號: | CN107330011B | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 趙紅紅;王萌萌;晉耀紅;蔣宏飛;楊凱程;董銘慆 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 策略 融合 命名 實體 識別 方法 裝置 | ||
1.一種多策略融合的命名實體的識別方法,其特征在于,包括:
獲取語料;
利用第一識別模型識別所述語料中的命名實體,得到第一識別結果;
利用第二識別模型識別所述語料中的命名實體,得到第二識別結果;
融合所述第一識別結果與所述第二識別結果,得到第三識別結果;
所述利用第二識別模型識別所述語料中的命名實體,得到第二識別結果的步驟包括:
利用至少兩種識別模型識別所述語料中的命名實體,每種識別模型分別得到一個子識別結果,生成子識別結果列表;
判斷所述子識別結果列表中的識別結果是否滿足輸出條件,若滿足則輸出第二識別結果;
所述輸出條件為在所述子識別結果列表中,相同命名實體的個數達到預設值,其中,所述預設值為所述至少兩種識別模型的眾數;
所述至少兩種識別模型包括分詞模型和命名實體識別模型,其中,所述分詞模型包括nGram分詞模型、HMM分詞模型、帶有新詞發現功能的分詞模型,所述命名實體模型包括基于最大熵的命名實體識別模型、基于結構化感知器的命名實體識別模型;
所述融合所述第一識別結果與所述第二識別結果,得到第三識別結果的步驟包括:
判斷所述第一識別結果與所述第二識別結果是否滿足融合條件,若滿足則融合,并輸出融合后的結果,即,第三識別結果;
所述融合是指在第一識別結果的基礎上增加第二識別結果中新增的命名實體;
所述融合條件為第二識別結果中存在在第一識別結果基礎上新增的命名實體;
在得到第三識別結果后還包括:
利用語義挖掘系統對所述第三識別結果進行角色分配,生成具有角色的命名實體,其中,
所述角色分配為利用語義挖掘系統,對所述第三識別結果中命名實體分別進行角色標記,并分別輸出具有角色的命名實體;
所述語義挖掘系統包括正則表達式和文本。
2.根據權利要求1所述的識別方法,其特征在于,
所述第一識別模型為條件隨機場模型;
在所述利用第一識別模型識別語料中的命名實體,得到第一識別結果的步驟之前,還包括:
建立語料庫;
對所述語料庫中的語料進行詞性標注和序列標注;
將標注后的語料作為訓練數據,使用CRF工具包進行訓練,得到所述第一識別模型。
3.一種多策略融合的命名實體識別裝置,其特征在于,所述命名實體識別裝置包括,
語料獲取單元,用于獲取語料;
第一識別單元,用于利用第一識別模型識別所述語料中的命名實體,得到第一識別結果;
第二識別單元,用于利用第二識別模型識別所述語料中的命名實體,得到第二識別結果;
識別結果融合單元,用于融合所述第一識別結果與所述第二識別結果,得到第三識別結果;
所述第二識別單元包括以下子單元:
多策略識別單元,用于利用至少兩種識別模型識別所述語料中的命名實體,每種識別模型分別得到一個子識別結果,生成子識別結果列表;
識別結果輸出單元,用于判斷所述子識別結果列表中的識別結果是否滿足輸出條件,若滿足則輸出第二識別結果;
所述輸出條件為在所述子識別結果列表中,相同命名實體的個數達到預設值,其中,所述預設值為所述至少兩種識別模型的眾數;
所述至少兩種識別模型包括分詞模型和命名實體識別模型,其中,所述分詞模型包括nGram分詞模型、HMM分詞模型、帶有新詞發現功能的分詞模型,所述命名實體模型包括基于最大熵的命名實體識別模型、基于結構化感知器的命名實體識別模型;
所述識別結果融合單元,用于判斷所述第一識別結果與所述第二識別結果是否滿足融合條件,若滿足則融合,并輸出融合后的結果,即,第三識別結果;
所述融合是指在第一識別結果的基礎上增加第二識別結果中新增的命名實體;
所述融合條件為第二識別結果中存在在第一識別結果基礎上新增的命名實體;
所述命名實體識別裝置還包括角色分配單元,用于利用語義挖掘系統對所述第三識別結果進行角色分配,生成具有角色的命名實體,其中,
所述角色分配單元用于利用語義挖掘系統,對所述第三識別結果中命名實體分別進行角色標記,并分別輸出具有角色的命名實體;
所述語義挖掘系統包括正則表達式和文本。
4.根據權利要求3所述的識別裝置,其特征在于,
所述第一識別模型為條件隨機場模型;
在所述第一識別單元還包括模型訓練單元,所述模型訓練單元用于:
建立語料庫;
對所述語料庫中的語料進行詞性標注和序列標注;
將標注后的語料作為訓練數據,使用CRF工具包進行訓練從而得到所述第一識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司,未經北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710447439.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氧化錫粒度測試方法
- 下一篇:一種電動式自行車打氣裝置





