[發明專利]新關鍵詞挖掘方法、裝置及電子設備在審
| 申請號: | 202010664165.4 | 申請日: | 2020-07-10 |
| 公開(公告)號: | CN111898010A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 唐亮;趙偉 | 申請(專利權)人: | 時趣互動(北京)科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/335;G06F16/35;G06F40/289;G06F40/30;G06F40/216 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 劉明華 |
| 地址: | 100020 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 挖掘 方法 裝置 電子設備 | ||
1.一種新關鍵詞挖掘方法,其特征在于,包括:
獲取互聯網文本;
根據所述互聯網文本枚舉多個切分片段,同時提取所述切分片段在當前上下文中的左右鄰接字符;
計算每個切分片段的內聚度;
根據所述左右鄰接字符計算每個切分片段的左右熵;
將每個切分片段的內聚度和左右熵相關聯,輸出新關鍵詞結果表。
2.根據權利要求1所述的新關鍵詞挖掘方法,其特征在于,還包括:
對所述新關鍵詞結果表中的新關鍵詞進行修復。
3.根據權利要求2所述的新關鍵詞挖掘方法,其特征在于,所述對所述新關鍵詞結果表中的新關鍵詞進行修復,包括:
設定左右熵差值閾值和字符長度閾值;
獲取當前切分片段的左右熵差值和字符長度;
根據所述當前切分片段的左右熵差值和字符長度與所述設定左右熵差值閾值和字符長度閾值的關系識別出錯誤切分片段;
對所述錯誤切分片段進行修復。
4.根據權利要求3所述的新關鍵詞挖掘方法,其特征在于,所述對所述錯誤切分片段進行修復,包括:
對所述錯誤切分片段進行子串切分得到子切分片段;
將每個子切分片段在所述新關鍵詞結果表中進行關聯查找;
若查找到對應新關鍵詞則將所述錯誤切分片段替換為子切分片段;
和/或;
對所述錯誤切分片段進行串外接得到串外接切分片段;
將每個串外接切分片段在所述新關鍵詞結果表中進行關聯查找;
若查找到對應新關鍵詞則將所述錯誤切分片段替換為串外接切分片段。
5.根據權利要求1~4任一項所述的新關鍵詞挖掘方法,其特征在于,還包括:
獲取有行業類別標注的互聯網文本及其對應的切分片段結果;
在所述切分片段結果中提取出各個行業具有代表性的新特征詞;
將新特征詞與所述新關鍵詞結果表中的新關鍵詞進行語義聚類和分類處理;
根據處理結果輸出具有行業代表性的新關鍵詞。
6.根據權利要求1所述的新關鍵詞挖掘方法,其特征在于,所述計算每個切分片段的內聚度包括:
獲取每個切分片段的字符長度;
對每個字符長度大于1的切分片段進行二切分得到所述切分片段對應的子切分片段;
獲取所述切分片段的出現頻次、所述子切分片段的出現頻次;
根據所述切分片段的出現頻次與所述子切分片段的出現頻次的比值計算所述切分片段的內聚度。
7.根據權利要求6所述的新關鍵詞挖掘方法,其特征在于,所述新關鍵詞結果表為hive表,所述獲取所述切分片段的出現頻次、所述子切分片段的出現頻次,包括:
通過hive表中的分布式計算api統計所述切分片段的出現頻次、所述子切分片段的出現頻次;
所述分布式計算api包括select,group by和join。
8.根據權利要求1所述的新關鍵詞挖掘方法,其特征在于,所述根據所述左右鄰接字符計算每個切分片段的左右熵,包括:
分布式遍歷所述切分片段;
統計每個切分片段的左右鄰接字符的出現頻次;
根據所述左右鄰接字符及其出現頻次計算每個切分片段的左右熵。
9.一種新關鍵詞挖掘裝置,其特征在于,包括:
獲取模塊,用于獲取互聯網文本;
提取模塊,用于根據所述互聯網文本枚舉多個切分片段,同時提取所述切分片段在當前上下文中的左右鄰接字符;
第一計算模塊,用于計算每個切分片段的內聚度;
第二計算模塊,用于根據所述左右鄰接字符計算每個切分片段的左右熵;
關聯模塊,用于將每個切分片段的內聚度和左右熵相關聯,輸出新關鍵詞結果表。
10.一種電子設備,其特征在于,包括
處理器;以及
存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時實現如權利要求1至8中任一項所述的新關鍵詞挖掘方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于時趣互動(北京)科技有限公司,未經時趣互動(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010664165.4/1.html,轉載請聲明來源鉆瓜專利網。





