[發明專利]基于企微討論組的用戶話題標簽生成方法和系統在審
| 申請號: | 202110757295.7 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113342959A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 黃楷;梁新敏;陳羲 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/335;G06F40/194;G06F40/279 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 趙燕 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 討論 用戶 話題 標簽 生成 方法 系統 | ||
1.一種基于企微討論組的用戶話題標簽生成方法,其特征在于,包括以下步驟:
詞向量訓練步驟,根據行業類型預設不同的討論標簽,并據此篩選得到對應外部詞向量,所述外部詞向量結合會話存檔訓練詞向量;
優先詞獲取步驟,計算所述詞向量與所述討論標簽的相似度,并將滿足預設條件的所述詞向量加入優先詞列表;
會話打標步驟,根據優先詞與預設停用詞,利用分詞系統掃描會話存檔并對所述會話存檔進行打標;
話題標簽生成步驟,對打標結果進行處理后,獲得用戶話題標簽。
2.根據權利要求1所述的基于企微討論組的用戶話題標簽生成方法,其特征在于,所述詞向量訓練步驟還包括:
外部詞向量篩選步驟,根據騰訊AI Lab獲得騰訊AI LAb詞向量,計算所述騰訊AI LAb詞向量與所述討論標簽對應向量的歐氏距離,并據此篩選得到所述外部詞向量;
詞向量輸出步驟,對所述會話存檔進行預處理得到對應的one-hot向量,將所述one-hot向量和所述外部詞向量輸入至Word2vec模型并輸出所述詞向量。
3.根據權利要求1所述的用戶話題標簽生成方法,其特征在于,所述優先詞獲取步驟具體包括:
通過以下公式計算所述詞向量與所述討論標簽對應的標簽詞向量的余弦相似度,
其中,A、B分別代表所述詞向量和所述討論標簽對應的詞向量,n代表總維度,i表示第i個維度,
當所述余弦相似度大于預設閾值時,將所述詞向量對應的分詞加入所述優先詞列表。
4.根據權利要求1所述的用戶話題標簽生成方法,其特征在于,所述會話打標步驟具體包括:
會話存檔掃描步驟,將所述優先詞和所述預設停用詞加入jieba分詞系統,利用所述jieba分詞系統掃描所述會話存檔;
信息輸出步驟,根據所述預設停用詞將所述會話存檔中的對應分詞刪除,并輸出所述會話存檔的剩余部分中命中的對應所述優先詞、討論標簽及發言用戶。
5.根據權利要求1所述的用戶話題標簽生成方法,其特征在于,所述話題標簽生成步驟具體包括:
信息去重步驟,將所述信息輸出步驟中輸出的對應所述優先詞和所述發言用戶進行去重后,得到命中優先詞以及對應發言用戶數量;
低頻數據清洗步驟,統計所述命中優先詞和所述發言用戶數量的方差和均值,并利用3*sigma原則進行過濾;
話題標簽生成步驟,根據過濾結果輸出發言用戶-討論標簽的信息,并據此獲得用戶話題標簽。
6.根據權利要求5所述的基于企微討論組的用戶話題標簽生成方法,其特征在于,所述低頻數據清洗步驟中的過濾條件還包括:
當所述命中優先詞的對應所述發言用戶數量小于一設定值時,則將該所述命中優先詞進行過濾,其中,所述設定值=均值-3*標準差。
7.一種基于企微討論組的用戶話題標簽生成系統,應用權利要求1-6任意一項所述的用戶話題標簽生成方法,其特征在于,包括:
詞向量訓練模塊,根據行業類型預設不同的討論標簽,并據此篩選得到對應外部詞向量,所述外部詞向量結合會話存檔訓練詞向量;
優先詞獲取模塊,計算所述詞向量與所述討論標簽的相似度,并將滿足預設條件的所述詞向量加入優先詞列表;
會話打標模塊,會話打標步驟,根據優先詞與預設停用詞,利用分詞系統掃描會話存檔并對所述會話存檔進行打標;
話題標簽生成模塊,對打標結果進行處理后,獲得用戶話題標簽。
8.根據權利要求7所述的基于企微討論組的用戶話題標簽生成系統,其特征在于,所述話題標簽生成模塊包括:
信息去重單元,接收會話打標模塊輸出的對應優先詞和發言用戶并對其進行去重,得到命中優先詞以及對應發言用戶數量;
低頻數據清洗單元,統計所述命中優先詞和所述發言用戶數量的方差和均值,并利用3*sigma原則進行過濾;
話題標簽生成單元,根據過濾結果輸出發言用戶-討論標簽的信息,并據此獲得用戶話題標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110757295.7/1.html,轉載請聲明來源鉆瓜專利網。





