[發明專利]地名識別方法和裝置有效
| 申請號: | 201910087977.4 | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN109871536B | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 陳奇寧;牟小峰 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王康;栗若木 |
| 地址: | 102218 北京市昌平區東小*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地名 識別 方法 裝置 | ||
1.一種地名識別方法,其特征在于,包括:
分別基于地名詞典和語言規則,采用相應的分詞方式對待識別字符串進行分詞,獲得第一切分結果列表和第二切分結果列表;
根據所述第一切分結果列表和所述第二切分結果列表,識別所述待識別字符串中的地名,包括:
遍歷所述第一切分結果列表,獲取所述待識別字符串中的候選地名;
根據所述第一切分結果列表和所述第二切分結果列表,對所述候選地名進行驗證;
根據驗證結果,判斷所述候選地名是否為地名;
其中,根據所述第一切分結果列表和所述第二切分結果列表,對所述候選地名進行驗證包括:
獲取所述第一切分結果列表中,所述候選地名的長度以及所述候選地名前的片段的長度;
獲取所述第二切分結果列表中,所述候選地名的長度及所述候選地名之前片段的長度;
當以下條件都滿足時,則所述候選地名驗證成功;當以下任一條件不滿足時,所述候選地名驗證失敗:
所述第一切分結果列表中所述候選地名的長度與所述第二切分結果列表中所述候選地名的長度匹配;
所述第一切分結果列表中所述候選地名之前的片段的長度與所述第二切分結果列表中所述候選地名之前的片段的長度匹配。
2.根據權利要求1所述的方法,其特征在于,根據驗證結果,判斷所述候選地名是否為地名,包括:
獲取驗證成功的候選地名的確信度;
根據所述第二切分結果列表,計算所述驗證成功的候選地名的地名上下文概率;
根據所述驗證成功的候選地名的所述確信度和所述地名上下文概率,識別所述候選地名是否為地名。
3.根據權利要求2所述的方法,其特征在于,獲取所述驗證成功的候選地名的確信度,包括:
根據預先設置的地名分類,查詢所述驗證成功的候選地名所屬的類別;
根據地名所屬的類別和確信度的對應關系,獲取所述驗證成功的候選地名的確信度。
4.根據權利要求2或3所述的方法,其特征在于,根據所述驗證成功的候選地名的所述確信度和所述地名上下文概率,識別所述候選地名是否為地名,包括:
當所述驗證成功的候選地名的所述確信度和所述地名上下文概率之和大于或等于預設的閾值時,將所述驗證成功的候選地名識別為地名。
5.根據權利要求1所述的方法,其特征在于,所述根據第一切分結果列表和第二切分結果列表,識別所述待識別字符串中的地名后,還包括:
采用預設的道路號和門牌號識別模式對識別出的地名相鄰文本進行識別;
將與所述道路號和門牌號識別模式匹配的文本識別為地名;
遍歷所述待識別字符串,將識別出的地名根據預設的規則進行合并,獲取完整地名。
6.根據權利要求1所述的方法,其特征在于,所述分別基于地名詞典和語言規則,采用相應的分詞方式對待識別字符串進行分詞,獲得第一切分結果列表和第二切分結果列表包括:
基于地名詞典,采用最大正向匹配分詞方式對待識別字符串進行分詞,獲得第一切分結果列表;基于語言規則,采用條件隨機場CRF分詞方式獲得第二切分結果列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910087977.4/1.html,轉載請聲明來源鉆瓜專利網。





