[發(fā)明專利]面向多語種的通用地名語義相似度計(jì)算方法及其應(yīng)用有效
| 申請(qǐng)?zhí)枺?/td> | 202010058317.6 | 申請(qǐng)日: | 2020-01-19 |
| 公開(公告)號(hào): | CN111325235B | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計(jì))人: | 張雪英;薛理;葉鵬;趙文強(qiáng);吳恪涵 | 申請(qǐng)(專利權(quán))人: | 南京師范大學(xué) |
| 主分類號(hào): | G06F18/22 | 分類號(hào): | G06F18/22;G06F16/28;G06F16/29;G06F16/903;G06F40/103 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 210046 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 語種 通用 地名 語義 相似 計(jì)算方法 及其 應(yīng)用 | ||
本發(fā)明公開了一種面向多語種的通用地名語義相似度計(jì)算方法及其應(yīng)用。通過分析多種語種地名的構(gòu)詞特點(diǎn)、隸屬關(guān)系和空間位置等語義特征,發(fā)現(xiàn)地名的類別、字符串和空間位置特征容易獲取且能夠有效地區(qū)分地名。由此,本發(fā)明根據(jù)這三種地名語義特征,分別構(gòu)建地名類別相似度模型、地名字符串相似度模型和地名空間鄰近度模型。然后,綜合考慮地名類別相似度、字符串相似度和空間鄰近度,提出一種面向多語種的通用地名語義相似度計(jì)算方法。相比于只考慮地名字符串或空間幾何特征的地名相似度計(jì)算方法,本發(fā)明提供的方法能夠顯著提高地名相似度計(jì)算的準(zhǔn)確性,可以更好地滿足大數(shù)據(jù)環(huán)境下多語種地名的查詢、匹配和共享服務(wù)等應(yīng)用需求。
技術(shù)領(lǐng)域
本發(fā)明屬于地理信息科學(xué)領(lǐng)域,涉及一種面向多語種的通用地名語義相似度計(jì)算方法及其在多語種數(shù)據(jù)庫地名查詢中的應(yīng)用。
背景技術(shù)
地名是人類對(duì)地理環(huán)境具有特定位置、范圍及形態(tài)特征的地理對(duì)象和地理現(xiàn)象所共同約定的語言符號(hào)。語義是數(shù)據(jù)(符號(hào))所代表的概念的含義,以及這些含義之間的關(guān)系。隨著計(jì)算機(jī)技術(shù)的發(fā)展與移動(dòng)互聯(lián)網(wǎng)的普及,不同國家、機(jī)構(gòu)或者企業(yè)已經(jīng)建立了各種類型的地名信息庫,且大部分地名信息庫包含地名類別,經(jīng)緯度等信息。然而,這些地名信息庫在覆蓋范圍、數(shù)據(jù)形式、語種類型、數(shù)據(jù)內(nèi)容等方面存在較大的差異。因此如何快速、準(zhǔn)確的計(jì)算不同地名信息庫中的地名相似度,已成為地名研究中的重要課題。
目前地名相似度計(jì)算方法主要分為三類。①一類是基于地名字符串的,即通過比較地名的字符串來計(jì)算地名相似度,如Smart等將規(guī)則模型與隱馬爾可夫模型相結(jié)合,可以有效解決地名拼寫、格式、字符集等不一致問題;占斌斌等利用基于地名建立的通名詞典和結(jié)構(gòu)規(guī)則庫判定地名類型,然后通過字符串相似度匹配得到最佳的地名數(shù)據(jù)匹配結(jié)果,并在德州市實(shí)驗(yàn)區(qū)得到了較好的驗(yàn)證結(jié)果;葉鵬等在顧及中文字符多級(jí)特征的基礎(chǔ)上,基于中文地名詞典構(gòu)建了地名單字索引,利用字符過濾與相似度排序等機(jī)制實(shí)現(xiàn)中文地名的高效匹配。②第二類是基于地理要素的,即利用地名的空間位置、面積和形狀等幾何信息計(jì)算地名的相似度。如Egenhofer和Clementini提出了度量多重表達(dá)中空間幾何數(shù)據(jù)結(jié)構(gòu)不一致性及拓?fù)潢P(guān)系不一致性的標(biāo)準(zhǔn),能夠較為理想的判斷空間幾何數(shù)據(jù)的一致性;Van等利用K中心點(diǎn)聚類和樸素貝葉斯分類法能夠?qū)в械乩順?biāo)簽的照片進(jìn)行地名一致性處理。③第三類是基于地名語義的相似度計(jì)算方法。如陳佳麗多重表達(dá)的空間數(shù)據(jù)在空間關(guān)系、語義和幾何方面可能存在不一致性,因此必須對(duì)這些不一致性進(jìn)行評(píng)價(jià)和修正,把本體引入地理信息建模中,結(jié)合語義一致性,以基于對(duì)象匹配的方法實(shí)現(xiàn)數(shù)據(jù)匹配。
上述學(xué)者在地名相似度計(jì)算方面,取得了不錯(cuò)的成果。但是依然存在某些問題:①編輯距離算法等算法通過分析地名單一特征計(jì)算地名相似度,如地名字符串或地名幾何特征,并沒有考慮地名的其它特征,導(dǎo)致在某些特殊情況下地名相似度的準(zhǔn)確度并不理想,尤其是地名重名,地名空間位置接近等特殊情況。②部分算法是針對(duì)特定語言提出的算法,對(duì)于其它語言并不適用。因此,如何在地名數(shù)據(jù)來源廣,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,語義差異大等的情況下,實(shí)現(xiàn)地名相似度計(jì)算,是本領(lǐng)域技術(shù)人員需要研究和解決的難題。
發(fā)明內(nèi)容
發(fā)明目的:有鑒于此,本發(fā)明提供了一種面向多語種的通用地名語義相似度計(jì)算方法,目的在于解決現(xiàn)有地名相似度計(jì)算方法準(zhǔn)確率不高,通用性弱的問題。
技術(shù)方案:為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:
面向多語種的通用地名語義相似度計(jì)算方法,包括如下步驟:
根據(jù)語種編碼區(qū)間確定地名語種,并根據(jù)文獻(xiàn)信息將地名進(jìn)行歸一化為羅馬化地名;
從地名信息庫中獲取兩個(gè)地名的類別屬性信息,根據(jù)地名分類體系及地名類別相似度模型計(jì)算地名類別相似度;
根據(jù)地名字符串相似度模型計(jì)算羅馬化后地名的字符串相似度;
從地名信息庫中獲取兩個(gè)地名的經(jīng)緯度,根據(jù)地名空間鄰近度模型計(jì)算地名的空間鄰近度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京師范大學(xué),未經(jīng)南京師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010058317.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 支持多語種接口的電子裝置及方法
- 一種模塊化語種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語種的配置方法及裝置
- 一種多語種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語種的翻譯方法、裝置及設(shè)備
- 一種語種識(shí)別模型訓(xùn)練、語種識(shí)別的方法和相關(guān)裝置
- 語種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)





