[發明專利]命名實體識別方法、裝置、存儲介質及處理器有效
| 申請號: | 201811291145.6 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN111199156B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 魏康 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 薛嬌;王寶筠 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 存儲 介質 處理器 | ||
1.一種命名實體識別方法,其特征在于,包括:
將司法文書與預置的至少一狀態轉移自動機分別進行匹配,所述至少一狀態轉移自動機由多個類別的命名實體構建得到;
若當前狀態轉移自動機的當前狀態在所述司法文書中的當前待匹配字符輸入時存在可用轉移,則緩存由所述當前狀態轉移后的狀態對應的輸出模式,若所述當前狀態在所述當前待匹配字符輸入時不存在可用轉移,則將緩存的輸出模式作為命名實體輸出,并輸出該命名實體所屬類別;
所述至少一個狀態轉移自動機中,第一狀態轉移自動機的構建過程包括:
獲取用于構建所述第一狀態轉移自動機的命名實體集合,所述命名實體集合中包括至少一類命名實體;
將所述命名實體集合中的每一個命名實體r,按照其包含的字符從前往后依次輸入狀態轉移自動機,從所述狀態轉移自動機的起始狀態D[0]開始,每向所述狀態轉移自動機輸入一個字符,執行如下判斷過程:
如果所述狀態轉移自動機的當前狀態D[p],對于當前輸入的字符r[k]沒有可用的轉移,則將所述狀態轉移自動機的總狀態數s加1,并將所述當前狀態D[p]輸入所述字符r[k]后的轉移位置設置為狀態D[s+1];
如果所述狀態轉移自動機的當前狀態D[p],對于當前輸入的字符r[k]存在可用的轉移,且轉移后的狀態為D[q],則將所述當前狀態D[p]輸入所述字符r[k]后的位置轉移到狀態D[q];
向所述狀態轉移自動機輸入所述命名實體r的下一個字符,并繼續執行所述判斷過程。
2.根據權利要求1所述的方法,其特征在于,每個狀態轉移自動機由至少兩類命名實體構建得到;不同的狀態轉移自動機中命名實體的類別不同。
3.根據權利要求1所述的方法,其特征在于,還包括:根據所述第一狀態轉移自動機構建失配跳轉表,所述失配跳轉表用于決定在將司法文書與所述第一狀態轉移自動機匹配過程中,所述第一狀態轉移自動機的當前狀態不存在有效輸入時,應該回退的狀態;所述失配跳轉表的構建過程包括:
將所述第一狀態轉移自動機中狀態D[0]的各個轉移狀態的回退狀態賦值為狀態D[0];
所述第一狀態轉移自動機中其它狀態的回退狀態的確定方法為:
當所述第一狀態轉移自動機中狀態D[m]的回退狀態fail[m]=D[a]時,若a=0,或者所述狀態D[a]輸入字符b時的轉移狀態g(a,b)≠D[0],則所述第一狀態轉移自動機中狀態D[m]輸入字符b時的轉移狀態D[n]的回退狀態fail[n]為g(a,b);
如果a≠0,且g(a,b)=D[0],則令fail[m]=fail[a],直到a=0,或者g(a,b)≠D[0]為止。
4.一種命名實體識別裝置,其特征在于,包括:
匹配模塊,用于將司法文書與預置的至少一狀態轉移自動機分別進行匹配,所述至少一狀態轉移自動機由多個類別的命名實體構建得到;
輸出模塊,若當前狀態轉移自動機的當前狀態在所述司法文書中的當前待匹配字符輸入時存在可用轉移,則緩存由所述當前狀態轉移后的狀態對應的輸出模式,若所述當前狀態在所述當前待匹配字符輸入時不存在可用轉移,則將緩存的輸出模式作為命名實體輸出,并輸出該命名實體所屬類別;
狀態機建立模塊,用于獲取用于構建第一狀態轉移自動機的命名實體集合,所述命名實體集合中包括至少一類命名實體;將所述命名實體集合中的每一個命名實體r,按照其包含的字符從前往后依次輸入狀態轉移自動機,從所述狀態轉移自動機的起始狀態D[0]開始,每向所述狀態轉移自動機輸入一個字符,執行如下判斷過程:如果所述狀態轉移自動機的當前狀態D[p],對于當前輸入的字符r[k]沒有可用的轉移,則將所述狀態轉移自動機的總狀態數s加1,并將所述當前狀態D[p]輸入所述字符r[k]后的轉移位置設置為狀態D[s+1];如果所述狀態轉移自動機的當前狀態D[p],對于當前輸入的字符r[k]存在可用的轉移,且轉移后的狀態為D[q],則將所述當前狀態D[p]輸入所述字符r[k]后的位置轉移到狀態D[q];向所述狀態轉移自動機輸入所述命名實體r的下一個字符,并繼續執行所述判斷過程。
5.根據權利要求4所述的裝置,其特征在于,每個狀態轉移自動機由至少兩類命名實體構建得到;不同的狀態轉移自動機中命名實體的類別不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811291145.6/1.html,轉載請聲明來源鉆瓜專利網。





