[發明專利]一種用戶標簽的預測方法及系統有效
| 申請號: | 202110822167.6 | 申請日: | 2021-07-21 |
| 公開(公告)號: | CN113283235B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 姚娟娟;鐘南山 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 標簽 預測 方法 系統 | ||
本發明提供一種用戶標簽的預測方法及系統,所述的用戶標簽的預測方法包括:獲取用戶文本集和預設的關鍵詞庫;通過關鍵詞獲取一用戶文本中的各個近似詞,按照關聯度的大小,獲取排名前m的近似詞所對應的關鍵詞,并確定所述對應的關鍵詞匹配的n維向量,通過m個所述n維向量確定特征矩陣;將特征矩陣輸入神經網絡進行訓練,獲取預測模型;通過預測模型預測待處理的用戶文本,獲取預測的用戶標簽。通過設置關鍵詞庫,獲取一用戶文本中與關鍵詞相匹配的近似詞,確定與近似詞相匹配的關鍵詞以及確定關鍵詞匹配的n維向量,并通過m個所述n維向量確定特征矩陣,提高了處理用戶文本獲取用戶標簽的速度和精度。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種用戶標簽的預測方法及系統。
背景技術
用戶標簽是構成用戶畫像的核心因素,是將用戶在平臺內所產生的行為數據,分析提煉后生成具有差異性特征的形容詞。即用戶通過平臺,在什么時間什么場景下做了什么行為,平臺將用戶所有行為數據提煉出來形成支撐業務實現的可視化信息或者可視化標簽。隨著用戶行為的特異化和個性化,每個用戶的用戶標簽也相應地存在差異,而基于用戶文本的標簽預測受限制于文本語義的深層次和多模態等問題,往往精確性較低。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種用戶標簽的預測方法及系統,用于解決現有技術中的問題。
為實現上述目的及其他相關目的,本發明提供一種用戶標簽的預測方法,包括:
獲取用戶文本集和預設的關鍵詞庫,所述用戶文本集中包括多個用戶文本,所述關鍵詞庫包括多個關鍵詞;
通過關鍵詞獲取一用戶文本中的各個近似詞,按照關聯度的大小,獲取排名前m的近似詞所對應的關鍵詞,并確定所述對應的關鍵詞匹配的n維向量,通過m個所述n維向量確定特征矩陣,其中,m和n均為正整數;
將多個用戶文本分別對應的特征矩陣輸入神經網絡進行訓練,獲取預測模型;
通過預測模型預測待處理的用戶文本,獲取預測的用戶標簽。
可選的,包括:
定義L為關聯度,關鍵詞的n維向量為(X1、……、Xi、……、Xn),近似詞的n維向量為(Y1、……、Yi、……、Yn);
當(X1、……、Xi、……、Xn)和(Y1、……、Yi、……、Yn)不相等時,關聯度的數學表達為:
當(X1、……、Xi、……、Xn)=(Y1、……、Yi、……、Yn)時,關聯度為1。
可選的,將獲取的用戶標簽與m個n維向量相匹配,獲取關聯度小于1的各個近似詞,并確定為近似詞集;
獲取一用戶標簽的各個近似詞集,并從各個所述近似詞集中確定交集;
將所述交集對應的近似詞更新為所述關鍵詞庫中的關鍵詞。
可選的,包括:
通過更新后的關鍵詞庫中的關鍵詞,確定用戶文本中更新后的各個近似詞匯;
按照關聯度的大小,獲取排名前m的近似詞所對應的更新后的關鍵詞,并確定所述更新后的關鍵詞匹配的n維向量,通過m個所述n維向量確定更新后的特征矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110822167.6/2.html,轉載請聲明來源鉆瓜專利網。





