[發明專利]綜合空間實體關系推斷文本地理位置的方法和存儲介質有效
| 申請號: | 202110869708.0 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113673240B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 曾壯;陳仁謠;程旭陽;李圣文 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/9537 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 魏波 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 綜合 空間 實體 關系 推斷 文本 地理位置 方法 存儲 介質 | ||
本發明提供了一種綜合空間實體關系推斷文本地理位置的方法,包括:目標詞典和合并詞典兩類詞典的準備;利用地名的不同屬性完成詞典內地名的權重因子標注;提出StringMerging(SM)算法完成目標文本內候選地名的提取;利用地名對應的向量表示進行噪聲地名的過濾;提出地名權重計算公式,將目標文本內地名的權重因子轉化為目標文本內地名的相對權重;利用得到的相對權重與地名的坐標相乘并累加取得目標文本的隱含地理坐標。本發明提出的技術路線可以有效解決現存的獲取文本隱含地理位置的方法獲取外部知識困難、預測的隱含地理位置的粒度較大等問題,還可以在無監督的情況下有效預測目標文本的經緯度坐標。
技術領域
本發明涉及技術領域,具體涉及綜合空間實體關系推斷文本地理位置的方法和存儲介質。
背景技術
研究表明,如今產生的全部數據中有一大部分是非結構化數據,并且有大約60%的數據(文本數據和其他數據)可以視為地理空間的參考數據。但是由于直接包含空間位置信息的文本僅占全部文本數量的一少部分,因此如何精確的提取剩余文本中隱含的空間位置信息具有非常重要的研究價值。現存的獲取文本隱含地理位置的方法均存在一些問題,例如:獲取外部知識困難、預測的隱含地理位置的粒度較大等。
發明內容
本發明解決的一個主要問題是現有獲取文本隱含地理位置的方法存在獲取外部知識困難、預測的隱含地理位置的粒度較大的問題。
根據本發明的一個方面,本發明提供一種綜合空間實體關系推斷文本地理位置的方法,包括:
利用標準數據集獲取目標詞典;
對所述目標詞典中的地名標注權重因子;
使用分詞工具對目標文本進行文本分詞,獲取分詞文本;
利用String?Merging算法將所述分詞文本與所述目標詞典中的地名進行匹配,進而獲取與所述分詞文本中的字符串對應的候選地名,并獲得由合并字符串的集合組成的合并詞典;
利用所述合并詞典對所述候選地名進行篩選降噪;
將所述權重因子利用轉換公式轉換為所述分詞文本內每個地名的相對權重,所述轉換公式為:
其中,N為地名個數,fn為每個地名對應的權重因子,LCM(W)為N個地名對應權重因子的最小公倍數,n指代N個地名中的每一個地名,P(n)為相對權重的值;
將所述相對權重與地名的經緯度坐標相乘并累加,獲得所述分詞文本的地理坐標。
進一步地,所述權重因子包括所述目標詞典中地名的不同屬性。
進一步地,所述屬性包括所述目標詞典中出現的地名的詞頻、地名類別和地名對應的地理面積。
進一步地,所述利用String?Merging算法獲取合并詞典包括:
利用所述String?Merging算法獲取全部合并字符串的集合作為所述合并詞典。
進一步地,所述目標詞典是包含所述目標文本中全部地名的過完備詞典。
進一步地,利用String?Merging算法將所述分詞文本與所述目標詞典中的地名進行匹配,進而獲取與所述分詞文本中的字符串對應的候選地名包括:
若所述分詞文本中的第一字符串與目標詞典中第一地名相同,則儲存所述第一字符串和第一地名;
若第一字符串的長度大于1,并且所述第一字符串被第二地名包含,則繼續判斷下一字符串是否依然屬于所述第一地名。
若所述下一字符串不屬于所述第二地名,但再下一個字符屬于所述第二地名,則合并所述第一字符串、所述下一字符串和所述再下一個字符串;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110869708.0/2.html,轉載請聲明來源鉆瓜專利網。





