[發明專利]一種地名識別方法和裝置有效
| 申請號: | 201110458103.9 | 申請日: | 2011-12-30 |
| 公開(公告)號: | CN103186524A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 鄧小波 | 申請(專利權)人: | 高德軟件有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明 |
| 地址: | 102200 北京市昌*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 地名 識別 方法 裝置 | ||
1.一種地名識別方法,其特征在于,包括:
對待識別的字符串進行分詞得到候選詞;
獲取各候選詞在地址名稱庫中的所屬類別;
對各候選詞進行遍歷,若當前候選詞的所屬類別為第一類別,則將當前候選詞作為地名添加到候選地名集合;
若當前候選詞的所屬類別為第二類別,則對當前候選詞以及在所述地址名稱庫中與當前候選詞臨近的候選詞進行組合得到合成詞,并將所述合成詞作為地名添加到候選地名集合。
2.根據權利要求1所述的方法,其特征在于,所述對各候選詞進行遍歷包括:
按照所述字符串的自然語序從所述各候選詞中選擇最后一個候選詞;
從所述最后一個候選詞開始,按照從后至前的順序依次遍歷各候選詞。
3.根據權利要求1所述的方法,其特征在于,所述第一類別為行政區劃前綴;所述候選地名集合為候選地名列表。
4.根據權利要求1所述的方法,其特征在于,所述第二類別為行政區劃后綴、地址后綴、名稱后綴中的任意一種;所述候選地名集合為候選地名列表。
5.根據權利要求4所述的方法,其特征在于,所述對當前候選詞以及在所述地址名稱庫中與當前候選詞臨近的候選詞進行組合得到合成詞包括:
若候選地名列表為空,且所述當前候選詞的第一臨近詞和第二臨近詞存在于所述地址名稱庫中,則:
若第一臨近詞為單字詞,且第二臨近詞為特殊邊界詞,則將第一臨近詞與當前候選詞進行組合得到組合詞;
或者,
若第一臨近詞為多字詞,則將第一臨近詞與當前候選詞組合得到組合詞;
或者,
若第二臨近詞不為特殊邊界詞,或第一臨近詞不為多字詞,則按照所述字符串的自然語序的倒序將當前候選詞與其前面一直到非邊界詞之前的候選詞組合得到組合詞;
所述第一臨近詞為在所述字符串的自然語序中,以當前候選詞為參照的前面的第一個候選詞;
所述第二臨近詞為在所述字符串的自然語序中,以當前候選詞為參照的前面的第二個候選詞。
6.根據權利要求4或5所述方法,其特征在于,所述方法還包括:
將加入候選地名列表中的地名的終結標記設置為第一標識。
7.根據權利要求6所述方法,其特征在于,若當前候選詞既不屬于第一類別,也不屬于第二類別,則:
1)判斷所述當前候選詞是否屬于第三類別,若屬于第三類別,則執行步驟2),若不屬于第三類別,則執行步驟3);
2)判斷候選地名列表是否為空,若不為空,則將所述候選地名列表中最后一個地名的終結標記置為第二標識,若為空,則執行步驟3);
3)判斷當前候選詞是否為數詞,若為數詞,則判斷數詞長度是否小于第一閾值,若小于第一閾值,則將所述數詞追加至候選地名列表的最后一個地名,若不小于第一閾值,或者當前候選詞不為數詞,則執行步驟4);
4)判斷當前候選詞是否為保留性數量詞,若是保留性數量詞,則判斷候選地名列表是否為空,若不為空,則判斷候選地名列表的最后一個地名是否為道路其終結標記是否為第一標識,若是,則將該保留性數量詞追加至候選地名列表的最后一個地名,并將其終結標記置為第二標識。
8.根據權利要求7所述的方法,其特征在于,所述第三類別為方位分隔詞、標點符號、過濾性數量詞中的任意一種。
9.根據權利要求1至5中任一項所述的方法,其特征在于,當所述候選地名集合不為空時,所述方法還包括:
對于所述候選地名集合中的每一個地名,進行如下處理:
若該地名為道路或名稱,且該地名與其前一個地名之間的間隔為0,且其前一個地名為行政區劃,則保留該地名;
或,
將候選地名集合中的地名的非后綴部分按照自然語序從前至后的順序移除標注為方位分隔詞、標點符號、邊界詞、特殊邊界詞、姓氏、姓名左搭配、姓名右搭配、姓名左右搭配或者是長度小于第一閾值的數詞,若移除后僅剩下后綴,則將該地名從候選地名集合中刪除;
或,
若候選地名集合中的地名以姓氏開頭,且其前后出現姓名左搭配、姓名右搭配或姓名左右搭配的情況,則將該地名刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高德軟件有限公司,未經高德軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110458103.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示波形的軟件濾波方法
- 下一篇:雙向排版方法和設備





