[發明專利]基于企微討論組的用戶話題標簽生成方法和系統在審
| 申請號: | 202110757295.7 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113342959A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 黃楷;梁新敏;陳羲 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/335;G06F40/194;G06F40/279 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 趙燕 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 討論 用戶 話題 標簽 生成 方法 系統 | ||
本申請涉及一種基于企微討論組的用戶話題標簽生成方法及系統,其中,該方法包括:詞向量訓練步驟,根據行業類型預設不同的討論標簽,并據此篩選得到對應外部詞向量,所述外部詞向量結合會話存檔訓練詞向量;優先詞獲取步驟,計算所述詞向量與所述討論標簽的相似度,并將滿足預設條件的所述詞向量加入優先詞列表;會話打標步驟,根據優先詞與預設停用詞,利用分詞系統掃描會話存檔并對所述會話存檔進行打標;話題標簽生成步驟,對打標結果進行處理后,獲得用戶話題標簽。通過本申請針對海量用戶會話信息,快速構建用戶討論的話題標簽。
技術領域
本申請涉及數據處理技術領域,特別是涉及基于企微討論組的用戶話題標簽生成方法和系統。
背景技術
在toC端的企微服務中,公司運營人員通常使用企業微信,添加客戶進企微討論組,開展營銷活動。在此背景下,運營人員可以通過企微討論組,通過對用戶話題回應、宣傳自身產品功效等方式進行主動營銷。此外,用戶亦可以在企微討論組進行日常話題等討論。
對于用戶在企微討論組中討論的文本信息,運營人員可以使用企微的會話存檔功能進行記錄。正確識別用戶討論的話題,可以幫助運營人員構建用戶標簽,并基于此標簽,對不同類別用戶進行營銷工作,或者發現用戶討論話題,輔助構建運營素材。
傳統基于討論組信息構建用戶標簽的方式,通常是運營人員進行人工查閱聊天信息并進行打標。但這種方式存在以下瓶頸:
當企微會話存檔數據達到一定量級時(例如多條數據、多個討論組等),人工打標的方式進展緩慢;同時,不同運營人員的用戶打標標準不一,且無法判斷用戶討論的話題是否為較流行話題,從而導致可能打出的標簽為長尾數據(例如一個標簽僅命中一人),難以幫助運營人員開展后續的營銷活動。
目前針對相關技術中人工打標進展緩慢的問題,尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種基于企微討論組的用戶話題標簽生成方法和系統,以至少解決相關技術中人工打標緩慢的問題。
第一方面,本申請實施例提供了一種基于企微討論組的用戶話題標簽生成方法,包括以下步驟:
詞向量訓練步驟,根據行業類型預設不同的討論標簽,并據此篩選得到對應外部詞向量,外部詞向量結合會話存檔訓練詞向量;
優先詞獲取步驟,計算詞向量與討論標簽的相似度,并將滿足預設條件的詞向量加入優先詞列表;
會話打標步驟,根據優先詞與預設停用詞,利用分詞系統掃描會話存檔并對會話存檔進行打標;
話題標簽生成步驟,對打標結果進行處理后,獲得用戶話題標簽。
在其中一些實施例中,詞向量訓練步驟還包括:
外部詞向量篩選步驟,根據騰訊AI Lab獲得騰訊AI LAb詞向量,計算騰訊AI LAb詞向量與討論標簽對應向量的歐氏距離,并據此篩選得到外部詞向量;
詞向量輸出步驟,對會話存檔進行預處理得到對應的one-hot向量,將one-hot向量和外部詞向量輸入至Word2vec模型并輸出詞向量。
在其中一些實施例中,優先詞獲取步驟具體包括:
通過以下公式計算詞向量與討論標簽對應的標簽詞向量的余弦相似度,
其中,A、B分別代表詞向量和討論標簽對應的詞向量,n代表總維度,i表示第i個維度,
當余弦相似度大于預設閾值時,將詞向量對應的分詞加入優先詞列表。
在其中一些實施例中,會話打標步驟具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110757295.7/2.html,轉載請聲明來源鉆瓜專利網。





