[發明專利]一種用戶標簽擴展的控制方法及裝置在審
| 申請號: | 202010978824.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112035750A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 黃煒民 | 申請(專利權)人: | 上海二三四五網絡科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200137 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 標簽 擴展 控制 方法 裝置 | ||
本發明公開了一種用戶標簽擴展的控制方法,其基于用戶的一個或多個標簽獲得擴展標簽,包括如下步驟:a:基于N?gram模型以及待擴展標簽集群確定候選待擴展標簽子集;b:確定與用戶相關聯環境狀態下的多個外在標簽和/或多個外在標簽集群;c:遍歷所有候選被擴展標簽,進行每個候選待擴展標簽子集與每個候選被擴展標簽的互信息計算并確定每個候選被擴展標簽與每個候選待擴展標簽子集之間的關聯度;d:將關聯度大于第一閾值的候選被擴展標簽確定為最終被擴展標簽或最終被擴展標簽集群,所述最終被擴展標簽或最終被擴展標簽集群與所述用戶的待擴展標簽集群構成擴展關系。本發明其擴展精確度高、高效快捷、實用性強、功能強大,具有極高的商業價值。
技術領域
本發明屬于互聯網應用技術領域,具體地,涉及一種用戶標簽擴展的控制方法及裝置。
背景技術
隨著互聯網應用中大數據處理的實現,各用戶都有其所對應的用戶標簽,以便基于用戶標簽來實現各種推薦應用,進而實現基于用戶畫像的個性化服務。如果一用戶的用戶標簽數量稀疏,將會導致基于用戶標簽的推薦只局限于用戶本身的歷史信息,所潛在的興趣、喜好等方面的信息將被忽略,無法精準推薦用戶感興趣的信息。因此需要進行用戶標簽的擴展處理。例如,在需要為推薦應用提供用戶感興趣的信息時,通過靜態的數據庫中的信息來擴展用戶的喜好信息。如果用戶最初感興趣的信息存在于數據庫中,與其在數據庫中關聯的其他信息可以作為關聯信息來擴展用戶的喜好信息,即實現用戶標簽擴展。
標簽拓展經常在用戶標簽異常匱乏時被使用。當前標簽拓展的方式主要有:A、利用分類算法:將擁有指定標簽的用戶作為正樣本,對無此標簽的用戶進行采樣得到負樣本,訓練分類模型,通過模型的泛化能力拓展標簽。此方法需要用戶的特征數據,同時針對一個標簽就需要訓練一個模型,所以應用場景有限,在廣告標簽中應用的比較多;B、通過社交網絡進行拓展:利用用戶相互之前的好友關系,將種子人群標簽傳給社區中的好友,從而實現標簽拓展,此方法需要相應的社交數據。以上方法主要需要利用用戶的相關特征數據才能拓展標簽,而當用戶只有標簽數據時,以上方法此時都無能為力。
如申請號為CN201610341685.5的發明名稱為“用戶標簽的擴展處理方法、文本推薦方法和裝置”公開了一種用戶標簽的擴展處理方法,包括:獲取用戶標簽和候選被擴展標簽;進行用戶標簽和候選被擴展標簽之間的互信息計算得到所述候選被擴展標簽相對所述用戶標簽的關聯度;根據所述關聯度進行所述候選被擴展標簽中擴展標簽的篩選得到所述用戶標簽關聯的擴展標簽,所述用戶標簽和關聯的擴展標簽構成擴展關系。
然而,此方案僅僅只能針對兩兩標簽的相關性,而由于標簽語義的多樣性,往往其實際代表的含義并不僅僅局限于當前字母理解的含義,進而在進行相關性推薦時,會存在一定的誤差,一個標簽表示的范圍可以很廣,也可以很窄,比如魔獸這個標簽,看起來與其相關性比較高的標簽應該是魔獸世界、“游戲”等標簽,但其實,有魔獸這個標簽的用戶,并不一定喜歡玩游戲,這個用戶也有可能是喜歡籃球明星魔獸霍華德,此時則應該推薦“籃球”等標簽,又例如孫悟空這個標簽,看起來與其相關性比較高的標簽應該是西游記等標簽,但其實,有孫悟空這個標簽的用戶,并不一定喜歡看西游記,這個用戶也有可能是喜歡游戲人物里面的英雄角色,此時則應該推薦“游戲”等標簽,更具體地,即使用戶擁有“西游記”這樣的標簽,也無法判斷其是喜歡看電源還是電視劇版,電視劇版是喜歡看老版還是新版,這都需要更多的其他標簽來共同決定需要被擴展的標簽,這時候,基于bigram的方法是很有問題的。
而目前,并沒有一種能夠解決上述技術問題的技術方案,具體地,并沒有一種用戶標簽擴展的控制方法及裝置。
發明內容
針對現有技術存在的技術缺陷,本發明的目的是提供一種用戶標簽擴展的控制方法及裝置,根據本發明的一個方面,提供了一種用戶標簽擴展的控制方法,其基于用戶的一個或多個標簽獲得擴展標簽,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海二三四五網絡科技有限公司,未經上海二三四五網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010978824.1/2.html,轉載請聲明來源鉆瓜專利網。





