[發明專利]一種用戶標簽的預測方法及系統有效
| 申請號: | 202110822167.6 | 申請日: | 2021-07-21 |
| 公開(公告)號: | CN113283235B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 姚娟娟;鐘南山 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 標簽 預測 方法 系統 | ||
1.一種用戶標簽的預測方法,其特征在于,包括:
獲取用戶文本集和預設的關鍵詞庫,所述用戶文本集中包括多個用戶文本,所述關鍵詞庫包括多個關鍵詞;
通過關鍵詞獲取一用戶文本中的各個近似詞,按照關聯度的大小,獲取排名前m的近似詞所對應的關鍵詞,并確定所述對應的關鍵詞匹配的n維向量,通過m個所述n維向量確定特征矩陣,其中,m和n均為正整數;
將多個用戶文本分別對應的特征矩陣輸入神經網絡進行訓練,獲取預測模型;
通過預測模型預測待處理的用戶文本,獲取預測的用戶標簽;
定義L為關聯度,關鍵詞的n維向量為(X1、……、Xi、……、Xn),近似詞的n維向量為(Y1、……、Yi、……、Yn);
當Xi和Yi不相等時,關聯度的數學表達為:
當Xi=Yi時,關聯度為1。
2.根據權利要求1所述的用戶標簽的預測方法,其特征在于,將獲取的用戶標簽與m個n維向量相匹配,獲取關聯度小于1的各個近似詞,并確定為近似詞集;
將獲取一用戶標簽的各個近似詞集,并從各個所述近似詞集中確定交集;
將所述交集對應的近似詞更新為所述關鍵詞庫中的關鍵詞。
3.根據權利要求2所述的用戶標簽的預測方法,其特征在于,包括:
通過更新后的關鍵詞庫中的關鍵詞,確定更新后的用戶文本中的各個近似詞匯;
按照關聯度的大小,獲取排名前m的近似詞所對應的更新后的關鍵詞,并確定所述更新后的關鍵詞匹配的n維向量,通過m個所述n維向量確定更新后的特征矩陣;
將多個用戶文本分別對應的更新后的特征矩陣輸入神經網絡進行訓練,獲取更新后的預測模型;
通過所述更新后的預測模型預測待處理的用戶文本,獲取更新后的用戶標簽。
4.一種用戶標簽的預測系統,其特征在于,包括:
預處理模塊,用于獲取用戶文本集和預設的關鍵詞庫,所述用戶文本集中包括多個用戶文本,所述關鍵詞庫包括多個關鍵詞,通過關鍵詞獲取一用戶文本中的各個近似詞,按照關聯度的大小獲取排名前m的近似詞所對應的關鍵詞,并確定所述對應的關鍵詞匹配的n維向量,通過m個所述n維向量確定特征矩陣,其中,m和n均為正整數,定義L為關聯度,關鍵詞的n維向量為(X1、……、Xi、……、Xn),近似詞的n維向量為(Y1、……、Yi、……、Yn);
當Xi和Yi不相等時,關聯度的數學表達為:
當Xi=Yi時,關聯度為1;
模型模塊,用于將多個用戶文本分別對應的特征矩陣輸入神經網絡進行訓練,獲取預測模型;
處理模塊,用于通過預測模型處理待處理的用戶文本,獲取預測的用戶標簽;
所述預處理模塊、所述模型模塊以及所述處理模塊之間信號連接。
5.根據權利要求4所述的用戶標簽的預測系統,其特征在于,預處理模塊將獲取的用戶標簽與m個n維向量相匹配,獲取關聯度小于1的各個近似詞,并確定為近似詞集;
將獲取一用戶標簽的各個近似詞集,并從各個所述近似詞集中確定交集;
將所述交集對應的近似詞更新為所述關鍵詞庫中的關鍵詞。
6.根據權利要求5所述的用戶標簽的預測系統,其特征在于,模型模塊通過更新后的關鍵詞庫中的關鍵詞,確定更新后的用戶文本中的各個近似詞匯;按照關聯度的大小,獲取排名前m的近似詞所對應的更新后的關鍵詞,并確定所述更新后的關鍵詞匹配的n維向量,通過m個所述n維向量確定更新后的特征矩陣;將多個用戶文本分別對應的更新后的特征矩陣輸入神經網絡進行訓練,獲取更新后的預測模型;
處理模塊通過所述更新后的預測模型預測待處理的用戶文本,獲取更新后的用戶標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110822167.6/1.html,轉載請聲明來源鉆瓜專利網。





