[發明專利]一種社交網絡博主的embedding評估方法及系統在審
| 申請號: | 202010873558.6 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112115981A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 魏沖沖;姜貴彬 | 申請(專利權)人: | 微夢創科網絡科技(中國)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/00 |
| 代理公司: | 北京卓嵐智財知識產權代理事務所(特殊普通合伙) 11624 | 代理人: | 蔡永波 |
| 地址: | 100193 北京市海淀區東北旺西路中關村*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 社交 網絡 embedding 評估 方法 系統 | ||
本發明實施例提供一種社交網絡博主的embedding評估方法及系統,獲取各待分類博主的特征信息并進行多種embedding向量訓練,為每個待分類博主生成多種embedding向量;針對每種embedding向量,將其他博主的embedding向量與每個領域的設定中心博主的embedding向量之間的距離,得到多個embedding向量聚類結果;根據每種embedding向量的多個聚類結果形成對該種embedding向量的評估結果并比對,判斷每種embedding向量訓練優劣。不同方式訓練博主embedding向量,采用與評估效果優的embedding向量進行推薦博主的方法提高推薦效果。
技術領域
本發明涉及模型訓練評估,具體涉及一種社交網絡博主的embedding(嵌入表達)方法及系統。
背景技術
隨著移動互聯網時代的到來,廣大用戶開始在社交媒體中尋找自己感興趣的內容與博主,同時促使大量優秀內容生產者不斷涌現。在各媒體平臺,為了更好服務數以億計的用戶,實現優秀內容的有效分發,推薦系統中通常會引入博主id信息來達到千人千面的推薦效果。由于博主數量規模巨大且極具稀疏,若直接引入id作為特征,將會為推薦模型引入極大的參數量,對模型訓練帶來了難度。為了避免上述問題,將博主id信息embedding化是常用的技術手段,故博主embedding特征的訓練效果直接影響到推薦效果的好壞,同時對用戶體驗產生較大影響。
Embedding訓練技術由來已久,起源于nlp領域中對于詞的向量表達,后因為其較強的表達能力,逐漸在推薦系統當中流行開來。目前對于embedding效果評估的方式通常是基于人工審核進行評估。
在實現本發明過程中,申請人發現現有技術中至少存在如下問題:基于人工審核的技術方案為:隨機抽取訓練完成后的博主embedding向量,通過余弦相似度或者其他方法計算向量間的相似度尋找與此博主相似的top n個博主;人工審核這些博主的接近程度,包括關注數差異、發博內容領域近似度、公共粉絲數等。但是存在如下缺點:樣本量巨大,且受限于人力資源成本,隨機抽取博主id評估樣本較少,存在偶然性,缺乏統計意義;人工評估賬號特征存在主觀因素影響,且評估指標選擇無標準判斷。
發明內容
本發明實施例提供一種社交網絡博主的嵌入表達embedding評估方法及系統,避免人工審核embedding向量所帶來的弊端。
為達上述目的,一方面,本發明實施例提供一種社交網絡博主的嵌入表達embedding評估方法,包括:
獲取各待分類博主的特征信息,將每個待分類博主的特征信息進行多種嵌入表達embedding向量訓練,為每個待分類博主生成多種embedding向量,其中,所述社交網絡博主是指通過社交網絡發布信息的人,所有待分類博主所具有的embedding向量的種類相同;
針對每種embedding向量,對所有待分類博主的該種embedding向量按照領域進行聚類,將其他博主的embedding向量與每個領域設定的中心博主的embedding向量之間的距離作為按照領域進行聚類的衡量標準,得到多個embedding向量聚類結果、以及每個embedding向量聚類結果所涉及的博主;其中,一個embedding向量聚類結果對應一個領域;
針對每種embedding向量,根據該種embedding向量的多個聚類結果、以及每個embedding向量聚類結果所涉及博主的能力標簽和能力標簽權重形成對該種embedding向量的評估結果,比對所有種類embedding向量的評估結果,判斷每種embedding向量訓練的優劣。
優選地,所述待分類博主的特征信息包括如下種類:用戶與待分類博主之間的交互行為、用戶與待分類博主之間的關注關系網絡、以及用戶與待分類博主的交互行為序列;其中,所述用戶與待分類博主的交互行為序列按用戶與待分類博主交互的時間順序將交互行為拼接形成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微夢創科網絡科技(中國)有限公司,未經微夢創科網絡科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010873558.6/2.html,轉載請聲明來源鉆瓜專利網。





