[發(fā)明專利]用戶興趣識別方法、裝置及計算機可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710749088.0 | 申請日: | 2017-08-25 |
| 公開(公告)號: | CN107391760B | 公開(公告)日: | 2018-05-25 |
| 發(fā)明(設計)人: | 王健宗;黃章成;吳天博;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62;G06Q30/02 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練樣本 測試樣本 文本數(shù)據(jù) 用戶興趣 最優(yōu)模型 計算機可讀存儲介質(zhì) 邏輯回歸模型 預設算法 主題分類 可識別用戶 迭代算法 回歸模型 計算邏輯 潛在客戶 人工標注 識別裝置 準確定位 話題 幫助 | ||
本發(fā)明公開了一種用戶興趣識別方法,該方法包括:獲取訓練樣本和測試樣本,其中訓練樣本為根據(jù)文本數(shù)據(jù)訓練出對應話題模型后經(jīng)人工標注獲得的;利用第一預設算法提取訓練樣本和測試樣本的特征,并根據(jù)訓練樣本的特征通過迭代算法計算邏輯回歸模型的最優(yōu)模型參數(shù);根據(jù)測試樣本的特征和ROC曲線下面積AUC對含最優(yōu)模型參數(shù)的邏輯回歸模型進行評價,訓練出第一主題分類器;利用第一主題分類器確定文本數(shù)據(jù)所屬主題,根據(jù)含最優(yōu)模型參數(shù)的邏輯回歸模型計算文本數(shù)據(jù)所屬主題的得分,并根據(jù)第二預設算法計算用戶對所述主題感興趣的信心分。本發(fā)明還公開了一種用戶興趣識別裝置及計算機可讀存儲介質(zhì),可識別用戶興趣,幫助企業(yè)準確定位潛在客戶。
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,尤其涉及一種用戶興趣識別方法、裝置及計算機可讀存儲介質(zhì)。
背景技術
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,尤其是社會化媒體的異軍突起,人們越來越體會到其對自身和信息傳播環(huán)境的各種影響。以往人們一直是被動的從互聯(lián)網(wǎng)上獲取信息,但是現(xiàn)在越來越多的人主動地參與社會化媒體上信息的產(chǎn)生與傳播,隨之產(chǎn)生了海量的用戶信息和社交關系信息。
然而,目前很多企業(yè)的內(nèi)部數(shù)據(jù)中通常以交易記錄為主,所包含的客戶信息不夠全面,無法準確定位潛在客戶,了解用戶需求。因此,如何通過互聯(lián)網(wǎng)數(shù)據(jù)信息識別用戶興趣,全方面了解用戶,從而幫助企業(yè)準確定位潛在客戶已成為目前亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種用戶興趣識別方法、裝置及計算機可讀存儲介質(zhì),旨在通過互聯(lián)網(wǎng)的數(shù)據(jù)信息識別用戶興趣,全方面了解用戶,幫助企業(yè)快速準確地定位潛在客戶,從而提高營銷效率。
為實現(xiàn)上述目的,本發(fā)明提供一種用戶興趣識別方法,所述用戶興趣識別方法包括以下步驟:
獲取訓練樣本和測試樣本,其中,所述訓練樣本為根據(jù)文本數(shù)據(jù)訓練出對應的話題模型后經(jīng)過人工標注獲得的;
利用第一預設算法分別提取所述訓練樣本和所述測試樣本的特征,并根據(jù)所述訓練樣本的特征,通過迭代算法計算出邏輯回歸模型的最優(yōu)模型參數(shù),訓練出含最優(yōu)模型參數(shù)的邏輯回歸模型;
根據(jù)所述測試樣本的特征和所述含最優(yōu)模型參數(shù)的邏輯回歸模型繪制受試者工作特征ROC曲線,并根據(jù)ROC曲線下面積AUC對所述含最優(yōu)模型參數(shù)的邏輯回歸模型進行評價,訓練出第一主題分類器;
利用所述第一主題分類器對所述文本數(shù)據(jù)進行分類,確定所述文本數(shù)據(jù)所屬的主題,并根據(jù)所述含最優(yōu)模型參數(shù)的邏輯回歸模型計算所述文本數(shù)據(jù)所屬主題的得分;
根據(jù)所述得分和第二預設算法計算撰寫所述文本數(shù)據(jù)的用戶對所述主題感興趣的信心分,根據(jù)所述信心分識別所述用戶的興趣。
可選地,所述根據(jù)所述得分和第二預設算法計算撰寫所述文本數(shù)據(jù)的用戶對所述主題感興趣的信心分,根據(jù)所述信心分識別所述用戶的興趣,包括:
根據(jù)所述得分和第三預設算法計算所述文本數(shù)據(jù)所屬主題的平均得分;
根據(jù)所述平均得分和第二預設算法計算撰寫所述文本數(shù)據(jù)的用戶對所述主題感興趣的信心分,根據(jù)所述信心分識別所述用戶的興趣;
其中,所述第三預設算法的計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710749088.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





