[發明專利]新關鍵詞挖掘方法、裝置及電子設備在審
| 申請號: | 202010664165.4 | 申請日: | 2020-07-10 |
| 公開(公告)號: | CN111898010A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 唐亮;趙偉 | 申請(專利權)人: | 時趣互動(北京)科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/335;G06F16/35;G06F40/289;G06F40/30;G06F40/216 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 劉明華 |
| 地址: | 100020 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 挖掘 方法 裝置 電子設備 | ||
本申請涉及一種新關鍵詞挖掘方法、裝置及電子設備,新關鍵詞挖掘方法包括獲取互聯網文本;根據互聯網文本枚舉多個切分片段,同時提取切分片段在當前上下文中的左右鄰接字符;計算每個切分片段的內聚度;根據左右鄰接字符計算每個切分片段的左右熵;將每個切分片段的內聚度和左右熵相關聯,輸出新關鍵詞結果表。本申請可以從海量互聯網文本數據中快速挖掘出新關鍵詞,且挖掘結果更加準確。
技術領域
本申請屬于信息處理技術領域,具體涉及一種新關鍵詞挖掘方法、裝置及電子設備。
背景技術
隨著互聯網行業的蓬勃發展,互聯網營銷逐漸興起,互聯網營銷是指基于互聯網平臺,利用信息技術與工具滿足公司與客戶之間交換概念、產品、服務的過程,通過在線活動創造、宣傳、傳遞客戶價值,并且對客戶關系進行管理,以達到一定營銷目的的新型營銷活動。在互聯網時代背景下的行業營銷的戰場中,幾乎每個品牌主都非常關注最新的行業動態的變化。行業動態的變化包括最新誕生的競品品牌,當下熱議的行業痛點和用戶需求,以及同行們正在使用的吸睛話術等等。為了能在最短的時間內捕獲這些重要的行業動態,做為品牌的營銷技術公司在最及時的響應時間內通過各種技術分析和挖掘手段,來品牌主提供最新的業界情報。
傳統的新關鍵詞挖掘方法是通過收集近期互聯網文本,在互聯網文本集合中通過分詞工具進行相關行業類別的過濾篩選后,挖掘出最新的行業特征詞(品牌、需求、痛點、話題等),并交由后續的模型分析和業務判斷。但由于最新誕生的行業特征詞,往往是傳統的分詞工具難以準確切分的。并且,隨著文本數據的急劇增長,往往需要從更海量的文本集合中進行新關鍵詞挖掘,而新關鍵詞挖掘方法只適用于小樣本數據挖掘,無法承擔處理海量的文本集合的任務。
發明內容
為至少在一定程度上克服傳統的新關鍵詞挖掘方法難以準確進行文本切分,并且,隨著文本數據的急劇增長,往往需要從更海量的文本集合中進行新關鍵詞挖掘,新關鍵詞挖掘方法無法承擔處理海量的文本集合的任務的問題,本申請提供一種新關鍵詞挖掘方法、裝置及電子設備。
第一方面,本申請提供一種新關鍵詞挖掘方法,包括:
獲取互聯網文本;
根據所述互聯網文本枚舉多個切分片段,同時提取所述切分片段在當前上下文中的左右鄰接字符;
計算每個切分片段的內聚度;
根據所述左右鄰接字符計算每個切分片段的左右熵;
將每個切分片段的內聚度和左右熵相關聯,輸出新關鍵詞結果表。
進一步的,所述方法還包括:
對所述新關鍵詞結果表中的新關鍵詞進行修復。
進一步的,所述對所述新關鍵詞結果表中的新關鍵詞進行修復,包括:
設定左右熵差值閾值和字符長度閾值;
獲取當前切分片段的左右熵差值和字符長度;
根據所述當前切分片段的左右熵差值和字符長度與所述設定左右熵差值閾值和字符長度閾值的關系識別出錯誤切分片段;
對所述錯誤切分片段進行修復。
進一步的,所述對所述錯誤切分片段進行修復,包括:
對所述錯誤切分片段進行子串切分得到子切分片段;
將每個子切分片段在所述新關鍵詞結果表中進行關聯查找;
若查找到對應新關鍵詞則將所述錯誤切分片段替換為子切分片段;
和/或;
對所述錯誤切分片段進行串外接得到串外接切分片段;
將每個串外接切分片段在所述新關鍵詞結果表中進行關聯查找;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于時趣互動(北京)科技有限公司,未經時趣互動(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010664165.4/2.html,轉載請聲明來源鉆瓜專利網。





