[發明專利]基于詞向量的相似客群挖掘方法、裝置、設備及存儲介質有效

申請號：	202111011808.6	申請日：	2021-08-31
公開（公告）號：	CN113704411B	公開（公告）日：	2023-09-15
發明（設計）人：	李珊	申請（專利權）人：	平安銀行股份有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/335;G06F40/194;G06F40/279;G06F40/30
代理公司：	深圳市沃德知識產權代理事務所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 廣東***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于向量相似挖掘方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及數據分析技術，揭露了一種基于詞向量的相似客群挖掘方法，包括：提取客群信息的特征詞并轉換為詞向量；統計特征詞在客群信息中的詞語位置，獲取該位置的下文信息并轉換為上下文向量；計算詞向量與多個詞語的詞向量之間的相似度，匯集相似度大于預設相似閾值的詞向量為相似詞向量；將詞向量、上下文向量和相似詞向量拼接為客群信息的客群向量；計算客群向量與待挖掘客群的待挖掘向量的距離值，確定距離值小于預設距離閾值的待挖掘向量對應的待挖掘客群為預設客群的相似客群。此外，本發明還涉及區塊鏈技術，客群信息可存儲于區塊鏈的節點。本發明還提出一種基于詞向量的相似客群挖掘裝置、設備及介質。本發明可以提高客群挖掘的精確度。

技術領域

本發明涉及數據分析技術領域，尤其涉及一種基于詞向量的相似客群挖掘方法、裝置、電子設備及計算機可讀存儲介質。

背景技術

用戶是市場上各企業、廠商最重要的資源，隨著大數據技術的發展，各企業、廠商越來越多地利用大數據技術對潛在用戶進行挖掘，以擴大自身的用戶群體，但由于每個用戶數據的差異性，若對每一個用戶進行分析以實現對用戶的挖掘，會消耗大量的計算資源，且用戶挖掘的效率較低，因此，客群挖掘的方法越來越被人們所重視。

現有的客群挖掘方法多為基于客群特征的硬匹配，例如，提取客群之間的關鍵詞，將具有相同關鍵詞的客群進行匹配，以實現相似客群的挖掘，但硬匹配的方法沒有考慮到關鍵詞包含多種具有相似含義的詞語，或者關鍵詞的含義可能會收上下文信息的影響，因此僅依靠關鍵詞的硬匹配實現客群挖掘，會導致客群挖掘的精確度較低。

發明內容

本發明提供一種基于詞向量的相似客群挖掘方法、裝置及計算機可讀存儲介質，其主要目的在于解決進行客群挖掘時精確度的精確度較低的問題。

為實現上述目的，本發明提供的一種基于詞向量的相似客群挖掘方法，包括：

獲取預設客群的客群信息，提取所述客群信息的特征詞，將所述特征詞轉換為特征詞向量；

統計所述特征詞在所述客群信息中的詞語位置，獲取所述客群信息中所述詞語位置的預設范圍內的上下文信息，對所述上下文信息進行向量轉換，得到上下文向量；

計算所述特征詞向量與預設多個詞語的詞向量之間的相似度，匯集所述預設多個詞語中所述相似度大于預設相似閾值的詞語的詞向量為所述特征詞的相似詞向量；

將所述特征詞向量、所述上下文向量和所述相似詞向量拼接為所述客群信息的客群向量；