[發明專利]熱詞挖掘方法、系統、計算機設備和存儲介質有效
| 申請號: | 202110041543.8 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112949287B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 許丹;楊德杰;葉聆音 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F18/214;G06F16/35;G06F16/33 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 張曾明 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 挖掘 方法 系統 計算機 設備 存儲 介質 | ||
本發明提供了一種熱詞挖掘方法,所述方法通過獲取員工群體標簽,并根據標簽對員工群體進行分類;獲取已分類員工群體的搜索數據,并對搜索數據進行預處理,并按照員工群體類別進行數據串聯并形成搜索詞群;對搜索詞群進行m*n矩陣排列處理和詞性處理,以獲得詞頻矩陣和詞性字典;對詞頻矩陣進行逆文檔頻率計算,以獲得第一tf?idf矩陣;根據詞性字典獲得詞性權重,根據詞性權重對第一tf?idf矩陣進行處理,以獲得第二tf?idf矩陣;對第二tf?idf矩陣中各員工群體的tf?idf權重進行排序,以得到各員工群體的熱詞。因此,本發明所述熱詞挖掘方法可以提煉不同人群各自獨有的熱點詞匯,展現各類人群的差異性偏好。同時,本發明還涉及區塊鏈技術。
技術領域
本發明涉及數據處理技術領域,特別是涉及熱詞挖掘方法、系統、計算機設備和存儲介質。
背景技術
企業自建的學習平臺在企業員工培訓環節中起到非常重要的作用,是貫穿員工職涯的學習交流平臺。員工在學習平臺的角色既是學習參與者,又可以是內容制造者。通過挖掘員工在學習平臺的搜索內容可以洞察員工的關注點和興趣點,進而聚焦在員工亟需被滿足的培訓內容。再進一步,識別不同企業員工人群的關注點有利于使內容輸出做到更加精細化、差異化。總之,合理利用搜索文本數據可以幫助培訓環節做到有的放矢。
TF-IDF(term?frequency-inverse?document?frequency)技術是一種常被用于關鍵詞提煉的加權技術,用以評估一個詞對一個文檔的重要程度。其隨著一個詞在文檔中出現的次數(TF)上升而上升,同時隨著其在文檔庫中出現頻率(IDF)的上升而下降。
對TF-IDF的使用方法一般分為兩種。一種是將待挖掘文本中的字詞和提前準備好的能夠模擬語言使用環境的特定語料庫做比較算出IDF。這種方法雖然可以成功地弱化一些常用字詞如‘你’、‘我’、‘的’等的權重,但是特定領域專業詞匯的重要性依然會被如‘銷售’、‘服務’等非專業詞會掩蓋,人群差異性進而不能凸顯。同時,語料庫同待挖掘文本一樣需要經過切詞等數據預處理,會增加時間成本。
第二種常用方法是使用Scikit-learn的CountVectorizer和TfidfTransformer工具。其專門用來矢量化文本類數據并給出TF-IDF矩陣。CountVectorizer和TfidfTransformer工具支持以分好詞的文檔序列作為輸入。這樣做既能構建專業領域語料庫,又能提煉差異化的文檔關鍵詞。但是,員工搜索短文本并不適合作為文檔序列直接輸入,至此我們亟待解決構造合適的模型輸入,優化TF-IDF矩陣提煉流程的問題,以達到提煉不同員工人群差異化關鍵詞的目的。
發明內容
基于此,本發明提供了一種熱詞挖掘方法、系統、計算機設備和存儲介質,以能夠滿足不同類型人群的差異化分類培訓需求。
為實現上述目的,本發明提供一種基于TF-IDF技術的熱詞挖掘方法,用于企業培訓平臺的搜索數據處理,所述熱詞挖掘方法包括:
獲取員工群體標簽,并根據標簽對員工群體進行分類;
獲取已分類員工群體的搜索數據,并對搜索數據進行預處理;
將預處理之后的搜索數據按照員工群體類別進行串聯并形成搜索詞群;
對搜索詞群進行m*n矩陣排列處理和詞性處理,以獲得詞頻矩陣和詞性字典,其中,m的矩陣內容為員工群體類別,n的矩陣內容為搜索詞群;
對詞頻矩陣進行逆文檔頻率計算,以獲得第一tf-idf矩陣;
根據詞性字典獲得詞性權重,根據詞性權重對第一tf-idf矩陣進行處理,以獲得第二tf-idf矩陣;
對第二tf-idf矩陣中各員工群體的tf-idf權重進行排序,選取排名靠前預設個數的搜索詞作為各員工群體的熱詞。
優選的,所述對搜索數據進行預處理包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110041543.8/2.html,轉載請聲明來源鉆瓜專利網。





