[發明專利]一種興趣識別方法、設備以及數據分析方法有效
| 申請號: | 201410525882.3 | 申請日: | 2014-10-09 |
| 公開(公告)號: | CN105573995B | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 馮亮;尹亞偉;張上譽 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06Q30/02 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 俞華梁;湯春龍 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 興趣 識別 方法 設備 以及 數據 分析 | ||
本申請公開了一種基于社交網絡的興趣識別方法,包括:接收關于一用戶的興趣的查詢請求;從社交網絡收集與該用戶相關的數據;根據預先確定且定期更新的興趣分類模型,計算所收集的數據中的每一消息屬于某一主題分類的概率;根據所述消息的發送時間來計算所述消息的第一權重;通過將所述屬于某一主題分類的概率與包括所述第一權重的權重值進行相乘,并進行累加,從而得出所述用戶對于某一主題分類的興趣指數值;以及根據所述興趣指數值,分析該用戶的興趣分布。本申請還公開了一種興趣識別設備與數據分析方法。
技術領域
本發明涉及計算機領域,并具體涉及一種興趣識別方法、設備以及數據分析方法。
背景技術
隨著電子商務規模的不斷擴大,商品的種類和數量快速增長,客戶或潛在客戶的群體規模龐大。客戶需要花費大量的時間才能選購到心意商品,而企業傳統識別潛在客戶的方法能力有限。因此,對用戶進行興趣分析是管理復雜的客戶關系、改善用戶購物體驗的一項重要工作。
用戶興趣是進行網絡營銷、電子商務推薦和個性化信息檢索等個性化信息服務的關鍵,它反映了用戶的個人特征和興趣偏好,是進行個性化信息服務的重要依據。
由于用戶的即時興趣受到生活習慣、時間、地點、天氣、工作計劃及其他周圍環境因素的影響,其預測工作也變得非常復雜。并且,導致預測工作更為困難的是,針對某一用戶的即時興趣是完全個性化的,無法以其他個體的交易數據作為經驗歷史數據來借鑒。
發明內容
社交網絡近年來蓬勃發展,已成為人們信息發表和關注的一個重要線上媒體。而用戶發表和關注信息直接或間接顯示其興趣和關注點等特征。因此,作為一種新興的外部數據參考,基于社交網絡的數據分析是獲取用戶興趣愛好的一個重要突破點。
根據本申請的一個方面,提供了一種基于社交網絡的興趣識別方法,包括:接收關于一用戶的興趣的查詢請求;從社交網絡收集與該用戶相關的數據,所述數據包括該用戶發表的消息以及該用戶在所述社交網絡中所關注的對象發表的消息;根據預先確定且定期更新的興趣分類模型,計算所收集的數據中的每一消息屬于某一主題分類的概率;根據所述消息的發送時間來計算所述消息的第一權重;通過將所述屬于某一主題分類的概率與包括所述第一權重的權重值進行相乘,并進行累加,從而得出所述用戶對于某一主題分類的興趣指數值;以及根據所述興趣指數值,分析該用戶的興趣分布;其中,所述對于某一主題分類的興趣指數值與用戶對該主題分類的興趣度成正比。
在上述興趣識別方法中,所述第一權重設置為當前日期與所述發送時間的天數差的自然對數的指數與時間調劑因子兩者的乘積,所述時間調劑因子可被調節,其取值范圍為大于0小于1。
在上述興趣識別方法中,所述權重值還包括與消息的發送方相關的第二權重。
在上述興趣識別方法中,所述興趣分類模型根據如下的步驟來預先確定:(a)獲取訓練數據并對所述訓練數據進行標注;(b)將所述訓練數據轉換為特征向量集合;以及(c)識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻度,從而生成基于文本的興趣分類模型。
在上述興趣識別方法中,步驟(a)包括:使用網絡爬蟲從數據源處收集頁面數據;對所收集的頁面數據進行文本數據的抽取;設置若干個興趣類別;以及為所抽取的每一份文本數據標注一標簽,所述標簽的內容為所述若干個興趣類別中的至少一個類別。
在上述興趣識別方法中,步驟(b)包括:將所述文本數據按照一定規范切分成詞序列;對所述詞序列標注詞性,并去除與興趣識別無關的一些詞;為所述詞序列進行編碼,并轉換空間向量模型;以及根據所述空間向量模型,進行特征的選擇,從而得到特征向量的集合。
在上述興趣識別方法中,所述社交網絡為微博。
在上述興趣識別方法中,所述數據源為門戶網站、論壇以及微博,并且其中,對于門戶網站和論壇,所抽取的文本為標題、正文、發表時間和文檔標簽,而對于微博,所抽取的文本為正文和發表時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410525882.3/2.html,轉載請聲明來源鉆瓜專利網。





