[發明專利]一種行政地域實體識別方法及系統在審
| 申請號: | 202011223738.6 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112329469A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 劉方然 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/903;G06F16/901 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 行政 地域 實體 識別 方法 系統 | ||
本發明公開一種行政地域實體識別方法及系統,其中方法包括以下步驟:獲取并切分待識別文本,獲得若干個待識別短句;基于預設的地域召回映射表召回各待識別短句中包含的地域名,并提取所述地域名對應的所有地域的ID,生成與所述待識別短句相映射的候選ID集;基于候選ID集從預設的地域正則表達式映射表中提取相對應的正則表達式,將所述待識別短句與所述正則表達式相匹配,獲得相應的識別結果。本發明中將待識別文本拆分為待識別短句,使精確判別的步驟僅在可能出現地域實體且盡可能短的文本中進行,從而有效提高識別效率,且本發明利用正則表達式進行精確判別,正則表達式的可解釋強,便于后續糾錯、維護和更新。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種行政地域實體識別方法及系統。
背景技術
行政地域實體識別用于從文本中提取地域實體,從而為文本標注行政地域標簽,以便于后續進行信息過濾、篩選、分析。
現有技術中識別行政地域實體的方法包括以下兩種:
1.基于分詞的結果進行文本簡單匹配;該方案準確性高度依賴分詞器分詞及詞性標注的效能,如基于詞性對分詞結果進行篩選后進行匹配,但此種方式在提高準確性的同時將犧牲召回率。
以哈密市為例,如基于分詞“哈密”進行文本匹配,會出現將“哈密瓜”誤判為“哈密市”的情況,如果精確匹配“哈密市”,則會丟失“新疆哈密”等由短名指代的地域實體。
2、使用深度學習的方法識別地域實體,此類方法往往速度較慢;由于深度模型屬于黑盒模型、可解釋性弱,出現異常結果需要修復時,往往需要投入大量的精力和時間進行處理,且不能保證一定能解決特定問題,故模型針對特定的錯誤例子(badcase),很難進行針對性的處理來糾正錯誤,不便于維護更新。
發明內容
本發明針對現有技術中的缺點,提供了一種在保證準確率和召回率前提下,識別效率高的行政地域實體識別方法及系統。
為了解決上述技術問題,本發明通過下述技術方案得以解決:
本發明提出一種行政地域實體識別方法,包括以下步驟:
獲取并切分待識別文本,獲得若干個待識別短句;
基于預設的地域召回映射表召回各待識別短句中包含的地域名,并提取所述地域名對應的所有地域的ID,生成與所述待識別短句相映射的候選ID集;
基于候選ID集從預設的地域正則表達式映射表中提取相對應的正則表達式,將所述待識別短句與所述正則表達式相匹配,獲得相應的識別結果。
作為一種可實施方式:
所述地域名包括名稱和短名;
所述地域召回映射表包括短名映射數據和名稱映射數據;
所述短名映射數據包括相映射的短名和第一ID列表,所述第一ID列表包含與所述短名相對應的所有地域的ID;
所述名稱映射數據包括相映射的名稱和第二ID列表,所述第二ID列表包含與所述名稱相對應的所有地域的ID。
作為一種可實施方式,地域召回映射表的獲取方法包括以下步驟:
配置地域實體元數據;
遍歷各地域實體元數據,從所述地域實體元數據中提取相應地域的ID、名稱和短名;
將所述短名加入地域召回映射表,并將所述ID添加至與所述短名相映射的第一ID列表;
將所述短名與所述名稱進行匹配,匹配不成功時將所述名稱加入地域召回映射表,并將所述ID添加至與所述名稱相映射的第二ID列表。
作為一種可實施方式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011223738.6/2.html,轉載請聲明來源鉆瓜專利網。





