[發明專利]一種動態K值聚類構建主題R樹方法有效
| 申請號: | 202010025090.5 | 申請日: | 2020-01-10 |
| 公開(公告)號: | CN111221937B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 鄒志文;秦程 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/29;G06F18/23213 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 值聚類 構建 主題 方法 | ||
1.一種動態K值聚類構建主題R樹方法,其特征在于,包含如下步驟:
1)利用地圖開放的api獲取城市中路網數據Citydataloca1、loca2…locaM,其中locai=loni、lati、poii表示第i個地理位置信息,其中loni、lati、poii分別表示經度、維度、空間文本信息;
2)獲取指定的最小外接矩形MBR,將其看作一個大類,此時初始聚類數k=1,通過經緯度得到MBR初始類數據均值點C1;
3)選取距離初始類數據均值點C1最遠的空間數據C2、距離C2最遠的空間數據C3作為新的數據均值點,計算C1、C2的經緯度之差,得到第二個MBR,計算C2,C3的經緯度之差,得到第三個MBR;
4)此時k值相應增加,計算當前k值對應的聚類測度函數值Jk;
5)將Jk與前一次聚類測度函數值Jk-1進行比較,若此時函數收斂,則取當前k值為聚類數;若此時函數發散,則對新的MBR重復步驟2)到步驟5),k值繼續遞增至M;
6)通過距離指標R得到當前數據均值點Ck鄰近空間數據集poiList;
7)通過文本主題分類對poiList中的poi數據進行分類,找出出現次數最多的地理數據作為聚類中心,再遞歸找出各個MBR的聚類中心Pk;
8)以k個聚類中心Pk作為根節點的子節點,進行聚類構建R樹;并以每個子節點作為子樹的根節點重復步驟3)-步驟7),進行聚類構建R樹;
9)自底向上對每個節點構建主題倒排索引,父級存儲著聚類中心的主題索引,形成主題R樹;
所述步驟2)中MBR初始類數據均值點C1的獲取方法如下:
2.1)通過地圖開放的api在地圖上指定四個地理坐標loca1、loca2、loca3、loca4;
2.2)計算這四個點的經緯度之差,得到初始類數據均值點C1的經緯度信息;所述步驟4)中,計算當前k值對應的聚類測度函數值Jk的方法如下:其中,Sj為MBR劃分區域內的路網數據集,p指Sj中的單個路網數據,k為聚類數,r為Sj的數據均值點;
所述步驟6)中,通過距離指標R得到鄰近空間數據集poiList的方法如下:
6.1)定義距離指標其中,n表示MBR下路網數據的數量,D表示給定的MBR區域面積,用di表示一個MBR下的路網數據到數據均值點Ci的距離,若di=R,則將第i個數據記為該數據的鄰近空間數據;
6.2)得到聚類數據均值點Ck領近空間數據集poiListlocap1,locap2…locapn;
所述步驟8)中,進行聚類構建R樹的方法如下:
8.1)k值遞增,當聚類測度函數收斂時,取這k個聚類中心Pk作為根節點的子樹,構建R樹的第二層;
8.2)假設父節點有n個空間數據,檢查每個聚類后的空間數據個數Nj,若則此時停止分配;若則通過距離分配到最近的且未填滿的Pi;
8.3)以每個子節點作為子樹的根節點重復步驟3)-步驟7),進行聚類構建R樹;
所述步驟9)中,進行自底向上對每個節點構建主題倒排索引的方法如下:
9.1)對鄰近空間數據集poiList的每個空間文本信息進行主題分類,對其建立主題倒排索引;
9.2)將聚類中心Pk作為父級的主題索引,再自底向上構建主題倒排索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010025090.5/1.html,轉載請聲明來源鉆瓜專利網。





