[發明專利]數據挖掘方法及裝置在審
| 申請號: | 201611143211.6 | 申請日: | 2016-12-08 |
| 公開(公告)號: | CN108197129A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 王文林;王興剛;藍曾威;楊嘉誠;王冠寧;王艷 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 孫寶海 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識數據 關聯關系 數據挖掘 并行 數據挖掘技術 內聚 | ||
本發明公開了一種數據挖掘方法,涉及數據挖掘技術領域。其中的方法包括:確定具有內聚特性的標識數據以形成內聚集合,各個內聚集合之間相互獨立;各個內聚集合之間并行發掘在相同內聚集合中具有深層關聯關系的標識數據。從而提高了并行發掘標識數據之間深層關聯關系的效率。
技術領域
本發明涉及數據挖掘技術領域,特別涉及一種數據挖掘方法及裝置。
背景技術
標識數據也稱身份數據,是指能夠唯一標識一個人或物體的標識信息,通常可以表示為一個字符串,其主要特點是唯一性。具體到互聯網應用當中,常用的是用戶標識即能夠唯一標識一個人用戶的一段標識信息。互聯網用戶的標識種類繁多,每個應用都有可能產生一種或多種用戶標識。例如,一個人用戶的多個手機號碼,身份證號,社保號,電子郵箱賬號等等。收集、保存、管理、使用這些標識信息,是進行用戶信息綜合全面分析的基礎。標識數據的常用運算包括:增加標識數據、刪除標識數據、增加標識數據間關聯,、刪除標識數據間關聯、查詢標識數據、查詢標識數據間關聯以及發掘標識間深度關聯。
標識數據間深層關聯是指不能直接根據兩個標識數據的本身特征進行關聯,而是比較與兩個標識數據有直接或間接關聯的若干個標識,綜合評價判斷后進行的關聯。例如,判斷兩個電話號是否屬于一個人,需要通過使用機器學習或人工總結的回歸函數,綜合多種關聯信息(比如都在使用相同的郵箱賬號,經常使用相同的郵寬帶)進行判斷。發掘深層關聯的常用運算方式是圖運算。發掘深層關聯時進行并行處理,要求各數據處理單元的數據彼此獨立互不依賴。因此現有并行圖運算框架都是以單一節點或邊為處理單元,通過直接相鄰節點的屬性進行深層關聯的發掘,從而保證了發掘對象的獨立性。
然而,為發掘深度關聯所需的關聯信息的來源不局限于相鄰節點,因此每個節點都需要記錄大量周圍節點信息以供后續運算。這不僅會造成并行發掘標識數據之間的深層關聯關系過程中的數據重復運算,降低標識數據之間深層關聯的發掘效率,還會造成發掘過程中遞歸算法與關聯算法的耦合,降低數據運算資源的利用率。因此,如何既能保證深度關聯運算所需的充足信息,又實現并行數據深度關聯發掘運算,成為了提高發掘深度關聯效率的關鍵問題。
發明內容
本發明所要解決的一個技術問題是:如何提高并行發掘標識數據之間深層關聯關系的效率。
根據本發明實施例的一個方面,提供了一種數據挖掘方法,包括:確定具有內聚特性的標識數據以形成內聚集合,各個內聚集合之間相互獨立;各個內聚集合之間并行挖掘在相同內聚集合中具有深層關聯關系的標識數據。
在一些實施例中,確定具有內聚特性的標識數據以形成內聚集合包括:利用pregel運算方法確定具有內聚特性的標識數據。
在一些實施例中,確定具有內聚特性的標識數據以形成內聚集合包括:將具有內聚特性的標識數據之間的關聯關系用內聚圖結構表示,其中,內聚圖結構的節點代表具有內聚特性的標識數據,內聚圖結構的邊代表具有內聚特性的標識數據之間具有直接關聯關系,各個內聚圖結構之間相互獨立。
在一些實施例中,內聚圖結構中的邊具有直接關聯強度值,直接關聯強度值表示內聚圖結構的節點間的直接關聯次數;確定具有內聚特性的標識數據以形成內聚集合還包括:刪除直接關聯強度值小于直接關聯強度閾值的邊。
在一些實施例中,各個內聚集合之間并行挖掘在相同內聚集合中具有深層關聯關系的標識數據包括:在相同內聚集合中確定兩個相同節點類型的節點;確定與兩個相同節點類型的節點分別具有直接關聯關系的其它各個節點類型的節點個數;計算其它各個節點類型的節點個數與相應的其它各個節點類型的深層關聯權重的加權和,并將加權和確定為兩個相同節點類型的節點的深層關聯強度;若兩個相同節點類型的節點的深層關聯強度不小于預設深層關聯強度閾值,則確定兩個相同節點類型的節點具有深層關聯關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611143211.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:位置查找方法和裝置
- 下一篇:一種頁面內容展示切換的方法及系統





