[發(fā)明專利]一種基于知識圖譜中實體相似度的社區(qū)發(fā)現(xiàn)方法及裝置有效
| 申請?zhí)枺?/td> | 201810498426.2 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108959370B | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計)人: | 王宏志;鄒開發(fā);萬曉瓏;楊東華 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06Q50/00 |
| 代理公司: | 北京格允知識產(chǎn)權(quán)代理有限公司 11609 | 代理人: | 周嬌嬌;李亞東 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 知識 圖譜 實體 相似 社區(qū) 發(fā)現(xiàn) 方法 裝置 | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,提供了一種基于知識圖譜中實體相似度的社區(qū)發(fā)現(xiàn)方法及裝置,該方法包括:使用知識圖譜存儲社交網(wǎng)絡(luò)數(shù)據(jù),并計算杰卡德距離得到相似度矩陣;根據(jù)所述相似度矩陣計算所述知識圖譜中的相似節(jié)點集合;根據(jù)所述相似節(jié)點集合進(jìn)行迭代的標(biāo)簽傳播,并根據(jù)迭代后的每個節(jié)點的標(biāo)簽列表來確定該節(jié)點最終的社區(qū)標(biāo)簽,以進(jìn)行社區(qū)發(fā)現(xiàn)。我們利用知識圖譜存儲社區(qū)網(wǎng)絡(luò),避免了對缺失數(shù)據(jù)的結(jié)構(gòu)的存儲,同時以此為基礎(chǔ)將杰卡德距離作為相似度的計算基準(zhǔn),使其準(zhǔn)確度更高。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于知識圖譜中實體相似度的社區(qū)發(fā)現(xiàn)方法及裝置。
背景技術(shù)
在龐大的社交網(wǎng)絡(luò)中,通常存在著大量的用戶實體以及與其相關(guān)的事件、地點等,而不同的用戶實體之間往往在行為、信息等方面具有一定的相似性,而用戶通常并沒有辦法準(zhǔn)確而高效的搜索到這些與自己相似的用戶。因此,對社交網(wǎng)絡(luò)中的用戶實體的相似性進(jìn)行挖掘,并分析相似用戶的信息和行為,可以達(dá)到對用戶進(jìn)行好友和個性化行為推薦等功能的目的。
另一方面社交網(wǎng)絡(luò)中相似的用戶群體往往是具有相似愛好、性格的小團(tuán)體,從而可以組成社交網(wǎng)絡(luò)中的社區(qū),對用戶進(jìn)行社區(qū)推薦,也可以幫助用戶更快速地認(rèn)識新的好友。
目前,對社交網(wǎng)絡(luò)中的實體相似性的挖掘通常是基于用戶之間的相似性度量(余弦相似性、皮爾遜相關(guān)系數(shù)等)在網(wǎng)絡(luò)中進(jìn)行搜索,通過對屬性進(jìn)行計算得到用戶的相似度矩陣,然后進(jìn)行相似度的分析。
目前的社區(qū)發(fā)現(xiàn)方法則主要分為標(biāo)簽傳播現(xiàn)方法與模塊度方法,代表算法為LPA算法與GN算法。標(biāo)簽傳播現(xiàn)方法通過對節(jié)點的標(biāo)簽進(jìn)行迭代傳播達(dá)到劃分社區(qū)的目的。但是該方法對用戶的聯(lián)系均是通過圖中節(jié)點的連通性進(jìn)行判斷,但在社區(qū)網(wǎng)絡(luò)中,相似的用戶并不一定是直接連通的,反之,即使是連通的用戶之間,也未必存在著較高的相似性。這使得算法在迭代期間,搜索空間變大,從而消耗了更多的時間復(fù)雜度。模塊度方法是通過計算邊介數(shù)這一概念對社區(qū)進(jìn)行劃分,而邊介數(shù)同樣依靠節(jié)點的聯(lián)通性,正如上所言,由于聯(lián)通的用戶未必相似,這使得模塊度算法也同樣會存在一定的偏差。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有社區(qū)發(fā)現(xiàn)方法以上一個或多個缺陷,提供了一種基于知識圖譜中實體相似度的社區(qū)發(fā)現(xiàn)方法及裝置。
為了解決上述技術(shù)問題,本發(fā)明提供了基于知識圖譜中實體相似度的社區(qū)發(fā)現(xiàn)方法,包括:
使用知識圖譜存儲社交網(wǎng)絡(luò)數(shù)據(jù),并計算杰卡德距離得到相似度矩陣;
根據(jù)所述相似度矩陣計算所述知識圖譜中的相似節(jié)點集合;
根據(jù)所述相似節(jié)點集合進(jìn)行迭代的標(biāo)簽傳播,并根據(jù)迭代后的每個節(jié)點的標(biāo)簽列表來確定該節(jié)點最終的社區(qū)標(biāo)簽,以進(jìn)行社區(qū)發(fā)現(xiàn)。
可選地,所述根據(jù)所述相似度矩陣計算知識圖譜中的相似節(jié)點集合,包括:
接收預(yù)設(shè)半徑和相似度閾值;
對于知識圖譜中的每個節(jié)點,搜索當(dāng)前節(jié)點的預(yù)設(shè)半徑范圍內(nèi)與所述當(dāng)前節(jié)點相似度大于相似度閾值的節(jié)點,加入當(dāng)前節(jié)點的相似節(jié)點集合。
可選地,所述根據(jù)所述相似節(jié)點集合進(jìn)行迭代的標(biāo)簽傳播,包括:
為知識圖譜中的每個節(jié)點初始化標(biāo)簽列表,每個節(jié)點的標(biāo)簽列表中初始化具有唯一的標(biāo)簽,且權(quán)重為1;
設(shè)當(dāng)前迭代次數(shù)的初始值為0,判斷當(dāng)前迭代次數(shù)是否小于預(yù)設(shè)迭代次數(shù),是則依次對所述知識圖譜中的每個節(jié)點進(jìn)行標(biāo)簽傳播操作,其中對于當(dāng)前節(jié)點而言,以當(dāng)前節(jié)點作為監(jiān)聽者,并將當(dāng)前節(jié)點的相似節(jié)點集合中的所有節(jié)點作為傳播者,將每個傳播者的標(biāo)簽列表中權(quán)重最大的標(biāo)簽以及與權(quán)重發(fā)送給作為監(jiān)聽者的當(dāng)前節(jié)點;在知識圖譜中的每個節(jié)點均執(zhí)行完該輪標(biāo)簽傳播操作后,當(dāng)前迭代次數(shù)加1,開始下一輪迭代,在當(dāng)前迭代次數(shù)達(dá)到預(yù)設(shè)迭代次數(shù)時結(jié)束迭代。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810498426.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機(jī)設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法





