[發明專利]面向多語種的通用地名語義相似度計算方法及其應用有效
| 申請號: | 202010058317.6 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111325235B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 張雪英;薛理;葉鵬;趙文強;吳恪涵 | 申請(專利權)人: | 南京師范大學 |
| 主分類號: | G06F18/22 | 分類號: | G06F18/22;G06F16/28;G06F16/29;G06F16/903;G06F40/103 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 語種 通用 地名 語義 相似 計算方法 及其 應用 | ||
1.一種面向多語種的通用地名語義相似度計算方法,其特征在于,包括如下步驟:
根據語種編碼區間確定地名語種,并根據文獻信息將地名進行歸一化為羅馬化地名;
從地名信息庫中獲取兩個地名的類別屬性信息,根據地名分類體系及地名類別相似度模型計算地名類別相似度;
根據地名字符串相似度模型計算羅馬化后兩個地名的字符串相似度;
從地名信息庫中獲取兩個地名的經緯度,然后根據地名空間鄰近度模型計算空間鄰近度;
根據地名的類別相似度、字符串相似度和空間鄰近度確定兩個地名的語義相似度;
根據地名分類體系及地名類別相似度模型計算地名類別相似度包括:
如果兩地名所屬類別位于地名分類體系的同一子類下的類別,則計算共同父類到根節點的距離之和以及最近的共同父類地名類別到兩地名類別的距離,然后利用同類別相似模型計算類別相似度;如果兩地名所屬類別位于不同子類下的類別,則計算兩地名類別所在子類的相關度后利用非同類別相似度模型計算類別相似度。
2.根據權利要求1所述的地名語義相似度計算方法,其特征在于,同一子類下的類別相似度模型表示為:
其中,Sc(i,j)表示地名i和j的地名類別相似度,l表示地名i和j的類別的最近的共同父類到根節點的距離,di表示地名i和j的類別的最近的共同父類到i的類別的距離,dj表示地名i和j的類別的最近的共同父類到j的類別的距離,α(i,j)表示最近的共同父類到i和j的類別的距離之和。
3.根據權利要求1所述的地名語義相似度計算方法,其特征在于,不同子類下的類別相似度模型表示為:
其中,Sc(i,j)表示地名i和j的地名類別相似度,β’表示i和j的類別所在子類的相關度,d’i表示i和j的類別的最近的共同父類到i的類別的距離,d’j表示i和j的類別的最近的共同父類到j的類別的距離;α’(i,j)表示最近的共同父類到i和j的類別的距離之和。
4.根據權利要求1所述的地名語義相似度計算方法,其特征在于,地名字符串相似度模型表示為:
其中,A(i,j)表示地名i和j的地名字符串相似度,d[i,j]代表地名i和j的編輯距離,ML代表地名i和j字符串長度的最大值,Len代表最小匹配長度,L(i)代表地名i字符串的長度,L(j)代表地名j字符串的長度,a和b表示權重。
5.根據權利要求1所述的地名語義相似度計算方法,其特征在于,地名空間鄰近度模型表示為:
其中,SE(i,j)代表地名i和j的地名空間鄰近度,loni,lonj,lati和latj分別為地名i和j的經緯度。
6.根據權利要求1所述的地名語義相似度計算方法,其特征在于,地名語義相似度的計算模型為:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,Sc(i,j)表示地名i和j的地名類別相似度,A(i,j)表示地名i和j的地名字符串相似度,SE(i,j)表示地名i和j的地名空間鄰近度,F(i,j)表示地名i和j的地名語義相似度。
7.基于地名語義相似度計算的多語種地名數據查詢方法,其特征在于,包括如下步驟:
通過地名信息庫提取所有地名的字符串、類別和經緯度屬性,根據語種編碼區間確定地名語種和進行地名歸一化處理,并依據地名語種的不同特征分為表音型和表意型索引方法,其中表音型文字以字母相似度為基準,結合字母總數、字母部首數、單詞總數和單詞首字母編碼語言特征,基于多維特征統計向量的索引組織方式進行表音型地名索引構建;表意型文字以字符局部相似度為基準,結合地名的相同字符、字符數量和字符位置語言特征,基于單個字的地名索引組織方式進行表意型地名索引構建;
確定待查詢的地名的字符串、類別和經緯度屬性,并進行歸一化處理;
根據待查詢地名所確定的字符串、類別和經緯度屬性依次對索引中的所有地名進行篩選,得到候選地名;其中依據確定的地名字符串,使用地名字符串相似度模型進行計算,計算結果高于設定閾值時符合篩選條件,否則就過濾該條地名,若字符串為空則直接符合篩選條件;依據確定的地名類別,使用類別相似度模型進行計算,計算結果高于設定閾值時符合篩選條件,否則就過濾該條地名,若類別為空則直接符合篩選條件;依據確定的地名經緯度,使用地名空間鄰近度模型進行計算,計算結果高于設定閾值時符合篩選條件,否則就過濾該條地名,若經緯度為空則直接符合篩選條件;
依次將待查詢地名與所有候選地名采用根據權利要求1-6任一項所述的面向多語種的通用地名語義相似度計算方法進行計算;
將計算結果進行倒序排列,排序越靠前的地名與待查詢地名越相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京師范大學,未經南京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010058317.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種攻擊處理方法及裝置
- 下一篇:虛擬拍照方法及其系統、存儲介質及終端設備





