[發明專利]用戶興趣的挖掘方法及系統有效
| 申請號: | 202010063555.6 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN113139085B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 牛心怡;吳安新;王瑜 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06F16/783;G06F40/284 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 鄧小玲;鄧應山 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 興趣 挖掘 方法 系統 | ||
本發明公開了一種用戶興趣的挖掘方法及系統,該方法包括:獲取用戶在預設時間內輸入的多種視頻操作和每種視頻操作對應的視頻信息;根據所述視頻信息確定所述視頻信息所屬的興趣類別;統計每個用戶在每種興趣類別中執行每種視頻操作的次數和每種視頻操作的總執行次數;根據每種視頻操作的總執行次數,計算每個用戶在每種興趣類別的分值;根據所述分值確定與所述分值對應的用戶對應的興趣類別。本發明能夠充分利用用戶的視頻數據,有效的挖掘用戶的客觀興趣偏好,進而提高興趣類別的召回率和人群區分度。
技術領域
本發明涉及數據處理技術領域,具體涉及一種用戶興趣的挖掘方法及系統。
背景技術
隨著科學技術的迅猛發展,互聯網已經成為人們生活中不可或缺的重要組成部分。通過互聯網收集用戶操作視頻的行為,可對具有類似視頻操作行為的用戶進行對應互聯網產品的投放。現有技術中,根據用戶興趣類別對用戶進行互聯網產品的投放是各大互聯網投放平臺使用率最高的投放依據。因此,挖掘用戶的興趣類別,豐富用戶畫像,對于提高客戶投放效率具有重要意義。
現有的用戶興趣挖掘方案大多基于用戶的廣告行為數據來挖掘用戶的興趣類別,但是存在以下缺陷:
1)、廣告數據投放不均勻,導致用戶的廣告行為不均勻,不具有客觀性;
2)、對于沒有投放記錄的興趣類別的廣告,無法召回相應的用戶;
3)、對于有投放記錄的興趣類別的廣告,大多數的興趣類別存在嚴重過度召回的問題,使得標簽人群沒有區分度。
發明內容
本發明的目的在于提供一種用戶興趣的挖掘方法、系統、計算機設備及可讀存儲介質,用于解決現有技術中由于興趣類別標簽少,興趣類別標簽無法召回,標簽人群區分度低的缺陷。
根據本發明的一個方面,提供了一種用戶興趣的挖掘方法,該方法包括如下步驟:
獲取用戶在預設時間內輸入的多種視頻操作和每種視頻操作對應的視頻信息;
根據所述視頻信息確定所述視頻信息所屬的興趣類別;
統計每個用戶在每種興趣類別中執行每種視頻操作的次數和每種視頻操作的總執行次數;
根據每個用戶在每種興趣類別中執行每種視頻操作的次數和每種視頻操作的總執行次數,計算每個用戶在每種興趣類別的分值;
根據所述分值確定與所述分值對應的用戶對應的興趣類別。
可選的,所述根據所述視頻信息確定所述視頻信息所屬的興趣類別,包括:
將所述視頻信息進行處理,以從所述視頻信息中提取出核心詞;
將所述核心詞與預設的多個興趣類別中的預設核心詞進行相似度計算,以根據計算結果確定所述視頻信息所屬的興趣類別。
可選的,所述將所述視頻信息進行處理,以從所述視頻信息中提取出核心詞,包括:
將所述視頻信息進行分詞處理以得到分詞結果;
將所述分詞結果進行詞義識別,以篩選出具有詞義的關鍵詞;
將所述關鍵詞與預設詞庫中的詞語進行匹配;
當匹配成功時,則確定所述關鍵詞為所述核心詞。
可選的,所述將所述核心詞與預設的多個興趣類別中的預設核心詞進行相似度計算,以根據計算結果確定所述視頻信息所屬的興趣類別,包括:
將所述核心詞與所述預設核心詞分別進行詞向量處理,以得到與所述核心詞對應的第一詞向量和與所述預設核心詞對應的第二詞向量;
利用余弦相似度算法計算所述第一詞向量和所述第二詞向量的相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010063555.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:海綿紅球菌來源的抗病原菌活性化合物的制備及用途
- 下一篇:套管系統





