[發明專利]用戶行為傾向識別方法、裝置、設備及存儲介質在審
| 申請號: | 202011436696.4 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112527958A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 盧春曦;王健宗;黃章成 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06N20/00 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 行為 傾向 識別 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能領域,公開了一種用戶行為傾向識別方法、裝置、設備及存儲介質。所述用戶行為傾向識別方法包括:獲取具有確定行為傾向的多個樣本用戶發布的多條文本信息及記錄參數;提取各文本信息中的多個關鍵詞,并轉化為關鍵詞向量;以各關鍵詞向量及各記錄參數為訓練樣本,從中隨機抽取多個樣本,得到多個訓練集;參照預置判別指標,構建多棵決策樹,并生成隨機森林模型;將待檢測用戶發布的文本信息及對應的記錄參數輸入隨機森林模型進行投票,根據投票結果,確定待檢測用戶是否具有所述行為傾向。本發明能通過用戶發布的言論信息快速確定用戶行為傾向。
技術領域
本發明涉及人工智能領域,尤其涉及一種用戶行為傾向識別方法、裝置、設備及存儲介質。
背景技術
隨著互聯網的發展,網絡上的信息傳播越來越快速和廣泛,繁雜的言論信息會對用戶產生不同的影響,特別是一些有負面行為傾向的用戶發表的言論,可能會引起群體效應,進而導致嚴重的后果。作為信息承載的平臺,若能提前識別出一些有負面行為傾向的用戶,并采取進一步的干預,能減少不良后果帶來的影響。
目前對用戶不良言論的處理方式一般是采用敏感詞屏蔽,這種方式只能屏蔽部分已知的敏感詞匯,對于一些負面但不敏感的心理詞匯,無法使用屏蔽的方式來消除影響。而對于有某一特征行為傾向的用戶,計算機也難以識別,只能通過后判機制來確定。
發明內容
本發明的主要目的在于解決如何靈活識別用戶行為傾向的技術問題。
本發明第一方面提供了一種用戶行為傾向識別方法,所述用戶行為傾向識別方法包括:
獲取具有確定行為傾向的多個樣本用戶發布的多條第一文本信息及所述各第一文本信息對應的第一記錄參數;
提取所述各第一文本信息中的多個關鍵詞,統計所述各第一文本信息中所述各關鍵詞出現的次數并進行向量化處理,得到多個關鍵詞向量;
以所述各關鍵詞向量及所述各第一記錄參數為訓練樣本,從所述各訓練樣本中多次隨機抽取多個樣本,得到多個訓練集;
參照預置判別指標,構建所述各訓練集對應的決策樹,并根據所述各決策樹生成對應的隨機森林模型;
獲取待檢測用戶發布的多條第二文本信息及所述各第二文本對應的第二記錄參數;
將所述各第二文本信息和所述各第二記錄參數輸入所述隨機森林模型進行投票,得到投票結果;
根據所述投票結果,確定所述待檢測用戶是否具有所述行為傾向。
可選的,在本發明第一方面的第一種實現方式中,所述提取所述各第一文本信息中的多個關鍵詞包括:
對所述第一文本信息進行分詞處理,得到多個詞單元;
采用TF-IDF算法計算所述各詞單元的區分度;
對所述各詞單元的區分度進行排序,并從排序結果中提取區分度最高的詞單元作為關鍵詞。
可選的,在本發明第一方面的第二種實現方式中,所述統計所述各第一文本信息中所述各關鍵詞出現的次數并進行向量化處理,得到多個關鍵詞向量包括:
根據所述各關鍵詞,分別確定所述各樣本用戶發布的第一文本信息中所包含的關鍵詞;
統計所述各樣本用戶發布的第一文本信息中所述各關鍵詞出現的次數;
對所述各關鍵詞出現的次數進行向量轉化,得到各樣本用戶對應的關鍵詞向量。
可選的,在本發明第一方面的第三種實現方式中,所述參照預置判別指標,構建所述各訓練集對應的決策樹,并根據所述各決策樹生成對應的隨機森林模型包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011436696.4/2.html,轉載請聲明來源鉆瓜專利網。





