[發明專利]一種用戶信息挖掘方法和一種用戶信息挖掘系統有效
| 申請號: | 200810096947.1 | 申請日: | 2008-05-12 |
| 公開(公告)號: | CN101266619A | 公開(公告)日: | 2008-09-17 |
| 發明(設計)人: | 禹榮凌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 逯長明 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶信息 挖掘 方法 系統 | ||
技術領域
本發明涉及知識挖掘領域,特別是涉及一種信息挖掘的方法及系統。
背景技術
隨著數據采集技術的不斷發展,人類每天獲取的數據劇增,但數據中隱藏的豐富的知識遠遠沒有得到充分的挖掘與利用,形成了“數據爆炸,知識饑餓”的狀況。知識挖掘就是在這種背景下應運而生的。知識挖掘就是一個從數據集中識別有效的、潛在有用、最終可理解的模式的過程。模式是一個用語言來表示的表達式,它可用來描述數據集的某個子集。所謂知識,是對數據包涵的信息更抽象的描述。對大量數據進行分析的過程,包括數據準備、模式搜索、知識評價,以及反復的修改求精。有效性是指發現的模式對于新的數據仍保持有一定的可信度;新穎性要求發現的模式應該是新的;潛在有用性是指發現的知識將來有實際效用,如用于決策支持系統里可提高經濟效益;最終可理解性要求發現的模式能被用戶理解,目前它主要是體現在簡潔性上。
隨著網絡技術的發展,知識挖掘也獲得了在Web上的應用,即Web挖掘,它利用知識挖掘技術從與萬維網相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、知識挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。現有的Web挖掘通常包括Web內容挖掘和Web使用記錄挖掘兩種方法。
具體地,Web內容挖掘是指對Web頁面內容及后臺交易數據庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。同時還可以對Web的組織結構和鏈接關系進行挖掘,從人為的鏈接結構中獲取有用的知識。由于文檔之間的互連,WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。Web上的內容挖掘多為基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。
Web使用記錄挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。在挖掘Web用戶使用記錄時描述用戶訪問的數據包括:IP地址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。發現用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析,包含兩種方式:一是先進行預處理,即將日志數據映射為關系表并采用相應的知識挖掘技術來訪問日志數據;二是直接訪問日志數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。
基于上述描述可以理解,用戶信息挖掘就是從用戶的資料、日常行為中提煉出用戶的各種特征,如年齡層、學歷層、收入層等,借此掌握用戶特征,定向精準地投放廣告、發布信息和資訊、預測用戶行為等。而現有技術中,通常只會采用上述WEB挖掘的方法基于用戶的基本資料、個人行為進行挖掘,因而導致挖掘過程嚴重依賴于單用戶的資料和行為,然而,由于網絡上用戶提供的資料和行為存在不真實、不完整,不準確的問題,在這種情況下,挖掘到的數據也將必須存在不真實、不完整、不準確的問題。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創新的提出一種用戶信息挖掘的機制,用以獲得真實、完整、準確的用戶信息。
發明內容
本發明所要解決的技術問題是提供一種用戶信息挖掘方法,用以獲得更為真實、完整、準確的用戶信息。
本發明的另一個目的是提供了一種用戶信息挖掘系統,用以保證上述方法在實際中的實現及應用。
為了解決上述技術問題,本發明實施例公開了一種用戶信息挖掘方法,包括:
獲取用戶的個體信息,以及,該用戶與其它用戶的關系信息;
生成屬于相同關系信息的相應用戶的集合,提取集合內用戶的滿足共性的個體信息,并按照預置方式統計所述個體信息的共性參考值,其中,所述按照預置方式統計所述個體信息的共性參考值包括:計算所述滿足共性的個體信息的平均值為所述共性參考值、計算符合要求的所述滿足共性的個體信息的平均值為所述共性參考值、或者,統計分布概率滿足一定閾值的個體信息為所述共性參考值。
優選的,所述的方法還包括:
依據所述共性參考值修正所述集合內用戶相應的個體信息。
優選的,所述屬于相同關系信息的相應用戶的集合為多個,所述的方法還包括:
利用權重值修正所述共性參考值,所述權重值包括可信度或準確度。
優選的,所述的方法還包括:
從多個用戶集合中提取相應的多個個體信息的共性參考值及權重值,
依據各個用戶集體相應的共性參考值乘以各自的權重值并求和來計算標準共性參考值,用所述標準共性參考值修正集合內相應個體信息的共性參考值。
優選的,所述的方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810096947.1/2.html,轉載請聲明來源鉆瓜專利網。





