[發明專利]基于詞向量的相似客群挖掘方法、裝置、設備及存儲介質有效
| 申請號: | 202111011808.6 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113704411B | 公開(公告)日: | 2023-09-15 |
| 發明(設計)人: | 李珊 | 申請(專利權)人: | 平安銀行股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F40/194;G06F40/279;G06F40/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 向量 相似 挖掘 方法 裝置 設備 存儲 介質 | ||
1.一種基于詞向量的相似客群挖掘方法,其特征在于,所述方法包括:
獲取預設客群的客群信息,提取所述客群信息的特征詞,將所述特征詞轉換為特征詞向量;
統計所述特征詞在所述客群信息中的詞語位置,獲取所述客群信息中所述詞語位置的預設范圍內的上下文信息,對所述上下文信息進行向量轉換,得到上下文向量;
計算所述特征詞向量與預設多個詞語的詞向量之間的相似度,匯集所述預設多個詞語中所述相似度大于預設相似閾值的詞語的詞向量為所述特征詞的相似詞向量;
將所述特征詞向量、所述上下文向量和所述相似詞向量拼接為所述客群信息的客群向量;
獲取待挖掘客群的客群信息,提取所述待挖掘客群的客群信息的特征詞,并將所述待挖掘客群的客群信息的特征詞轉換為待挖掘向量;
計算所述客群向量與所述待挖掘向量的距離值,確定所述距離值小于預設距離閾值的待挖掘向量對應的待挖掘客群為所述預設客群的相似客群;
其中,所述獲取所述客群信息中所述詞語位置的預設范圍內的上下文信息,對所述上下文信息進行向量轉換,得到上下文向量,包括:對所述特征詞的詞語位置上預設范圍內的客群信息進行截取,得到所述特征詞的上下文信息;利用預設的語義處理模型對所述上下文信息進行卷積、池化處理,得到所述上下文信息的低維特征表達;利用預設的映射函數將所述低維特征表達映射至預先構建的高維空間,得到所述上下文信息的高維特征表達;利用預設的激活函數計算所述高維特征表達中每一個特征的輸出值,將所述輸出值大于預設輸出閾值的特征進行向量轉換,得到上下文向量;
所述將所述特征詞向量、所述上下文向量和所述相似詞向量拼接為所述客群信息的客群向量,包括:將所述特征詞向量、所述上下文向量和所述相似詞向量進行長度統一化處理;將長度統一化處理后的所述特征詞向量、所述上下文向量和所述相似詞向量作為行向量進行拼接,得到所述客群信息的客群向量;
所述將所述特征詞向量、所述上下文向量和所述相似詞向量進行長度統一化處理,包括:統計所述特征詞向量、所述上下文向量和所述相似詞向量中每一個向量的向量長度,選取最大的向量長度為目標長度;利用預設參數對所述特征詞向量、所述上下文向量和所述相似詞向量中除所述目標長度之外的向量進行向量延長,直至所述特征詞向量、所述上下文向量和所述相似詞向量中每一個向量的長度等于所述目標長度;
所述計算所述客群向量與所述待挖掘向量的距離值,包括:利用如下距離值算法計算所述客群向量與所述待挖掘向量的距離值:
其中,為所述距離值,為所述客群向量,為所述待挖掘向量,為預設系數。
2.如權利要求1所述的基于詞向量的相似客群挖掘方法,其特征在于,所述提取所述客群信息的特征詞,包括:
刪除所述客群信息中的無義詞,并對所述客群信息進行分詞處理,得到客群分詞;
統計所述客群分詞中每一個分詞在所述客群分詞中出現的分詞頻率;
獲取預設用戶對所述客群分詞中每一個分詞標記的詞語熱度;
利用預設的關鍵值算法,根據所述分詞頻率和所述詞語熱度計算所述客群分詞中每一個分詞的關鍵值;
匯集所述客群分詞中所述關鍵值大于預設關鍵閾值的分詞為所述客群信息的特征詞。
3.如權利要求1所述的基于詞向量的相似客群挖掘方法,其特征在于,所述將所述特征詞轉換為特征詞向量,包括:
從預設的字向量表中查詢所述特征詞的每一個字的字向量;
按照所述特征詞中每一個字的順序將所述字向量拼接為所述特征詞的特征詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安銀行股份有限公司,未經平安銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111011808.6/1.html,轉載請聲明來源鉆瓜專利網。





