[發明專利]一種基于弱可信數據的跨社群潛在人物關系分析方法有效
| 申請號: | 201811310355.5 | 申請日: | 2018-11-05 |
| 公開(公告)號: | CN109492027B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 孫國梓;呂建偉;李華康 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/901;G06Q50/00 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 劉珊珊 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 可信 數據 社群 潛在 人物 關系 分析 方法 | ||
本發明提出一種基于弱可信數據的跨社群潛在人物關系分析方法,該方法不依賴人物屬性標簽無監督實體識別方法抽取出實體,使用層次結構來測量不同屬性社群下用戶節點的相似度,構建多層圖來編碼結構相似性,為節點生成由多重身份特征的用戶根據不同特征聚類形成的結構性網絡關系圖,從而發現網絡上無關聯而現實中可能相似的潛在人物關系。此外,該方法基于用戶相關系數算法,在發現無直接邊相連的兩個用戶節點潛在關系具有明顯的優勢,準確率高。
技術領域
本發明涉及大數據分析及挖掘領域,尤其是在弱可信數據下潛在人物關系分析領域,具體為一種基于弱可信數據的跨社群潛在人物關系分析方法。
背景技術
潛在人物關系分析是指從互聯網搜索引擎或者社交網站得到相關匿名用戶的數據,并用關鍵詞抽取和數理分析的方法對匿名數據進行處理。通過分析得到的結果,發現用戶在不同屬性關系網下的結構身份,總結用戶與用戶間未有公開數據顯示的關聯規律。能夠掌握用戶在不同屬性關系網下的結構身份,對于挖掘用戶潛在行為及潛在關系具有重要的意義。本發明從用戶在不同屬性關系網下的結構身份角度出發,通過對網絡用戶日常上網行為痕跡分析方法的研究,設計一個有效的潛在人物關系檢測方法,快速發現弱關聯用戶中的強關系。
目前,各種人物關系檢測算法主要分為兩類:
(1)基于人工標注或半監督的分析方法,現有專利包括:一種人物關系分類方法與裝置(專利號:CN106778878A)。
(2)基于強關聯用戶的關系分析方法,現有專利包括:一種基于海量數據的人物關系圖譜分析方法(專利號:CN106708922A),融合分布式語義和句義特征的人物關系抽取方法(專利號:CN106484675A)。
上述方法存在著一定的局限性,預處理時人工標注的語料直接決定了后期的關系識別的準確性,而如何定義人工標注的量,以及如何進行標注,都無法科學量化;通過抽取、語義、句義特征分析的方法只能發現強關聯用戶中的強關系,而對于那些在互聯網上無直接邊連接、只是通過多個中間人單連接的用戶之間潛在關系的發現問題等還沒有很好的解決。
發明內容
發明目的:為解決上述技術問題,本發明提出一種基于弱可信數據的跨社群潛在人物關系分析方法,該方法不依賴人物標簽,以無監督實體識別方法抽取出實體,再用層次結構來測量不同屬性社群下用戶節點的相似度,通過構建多層圖來編碼結構相似性,為節點生成結構性網絡關系圖。本發明中引進結構性網絡關系圖的概念,結構性網絡關系圖是由多重身份特征的用戶根據不同特征聚類形成的結構性人際關系網,通過結構相似的關系圖來發現網絡上無關聯而現實中可能相識的潛在人物關系。
技術方案:為實現上述技術效果,本發明提出以下技術方案:
一種基于弱可信數據的跨社群潛在人物關系分析方法,包括步驟:
(1)獲取網頁或社交網站上匿名用戶的公開數據,并按照數據來源類別存成與來源類別相應格式的文件;
(2)對步驟(1)中得到的文件進行數據清洗,再進行屬性提取,將提取的屬性數據存放在實體屬性數據庫內;
(3)選取實體屬性數據庫內的某一屬性A構建用戶社群圖,所述用戶社群圖中兩用戶之間的邊值為兩用戶間關于屬性A的屬性關系值;
(4)根據步驟(3)生成的用戶社群圖計算用戶間結構身份相似度、社群結構相似度、無直接邊相連的任意兩個用戶節點之間的相關系數;
(5)根據預設相似度閾值選擇社群結構相似度接近的用戶社群,對于任意兩個社群結構相似度接近的用戶社群G1和G2,選取一對用戶節點u和v,u∈G1,v∈G2,u和v直接相連;選取G1中用戶u周邊與v無直接連接的用戶節點,計算這些用戶節點與用戶節點v之間的相關系數,選取相關系數最高N個用戶節點作為用戶節點v的潛在關系用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811310355.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





