[發明專利]一種熱點話題發現方法、系統及一種熱點話題發現設備在審

申請號：	201711091479.4	申請日：	2017-11-08
公開（公告）號：	CN107832418A	公開（公告）日：	2018-03-23
發明（設計）人：	畢銀龍	申請（專利權）人：	鄭州云海信息技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京集佳知識產權代理有限公司11227	代理人：	羅滿
地址：	450018 河南省鄭州市***	國省代碼：	河南;41
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種熱點話題發現方法系統設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種熱點話題發現方法，其特征在于，包括：

獲取網頁數據，并將所述網頁數據進行分詞處理，得到處理結果；

對所述處理結果進行特征提取，得到特征向量；

將所述特征向量輸入LDA模型中，得到所述網頁數據中每個主題對應的概率；

將所述概率大于預設值的主題作為熱點話題。

2.根據權利要求1所述熱點話題發現方法，其特征在于，所述獲取網頁數據之后，還包括：

根據貪心策略和預定的啟發式規則對所述網頁數據進行去除噪音處理。

3.根據權利要求1或2所述熱點話題發現方法，其特征在于，所述對經過分詞處理的網頁數據進行特征提取，得到特征向量，包括：

將經過分詞處理的網頁數據中TF-IDF權重大于預設值的詞語添加至文本特征項中；

將所述文本特征項輸入VSM模型中，得到所述網頁數據對應的特征向量。

4.根據權利要求3所述熱點話題發現方法，其特征在于，所述將經過分詞處理的網頁數據中TF-IDF權重大于預設值的詞語添加至文本特征項中，包括：

計算經過分詞處理的網頁數據中每個詞語的TF和IDF，所述TF為所述詞語在當前文本中的詞頻，IDF為包含所述詞語的文本數的倒數；

將所述TF與所述IDF的乘積作為所述詞語的TF-IDF權重；

判斷所述TF-IDF權重是否大于所述預設值，若是，則將所述詞語添加至文本特征項中。

5.一種熱點話題發現系統，其特征在于，包括：

獲取模塊，用于獲取網頁數據，并將所述網頁數據進行分詞處理，得到處理結果；

特征提取模塊，用于對所述處理結果進行特征提取，得到特征向量；

輸入模塊，用于將所述特征向量輸入LDA模型中，得到所述網頁數據中每個主題對應的概率；

確定模塊，用于將所述概率大于預設值的主題作為熱點話題。

6.根據權利要求5所述熱點話題發現系統，其特征在于，還包括：

去噪模塊，用于根據貪心策略和預定的啟發式規則對所述網頁數據進行去除噪音處理。

7.根據權利要求5或6所述熱點話題發現系統，其特征在于，所述特征提取模塊具體包括：

添加單元，用于將經過分詞處理的網頁數據中TF-IDF權重大于預設值的詞語添加至文本特征項中；

向量化單元，用于將所述文本特征項輸入VSM模型中，得到所述網頁數據對應的特征向量。

8.根據權利要求7所述熱點話題發現系統，其特征在于，所述添加單元具體包括：

計算子單元，用于計算經過分詞處理的網頁數據中每個詞語的TF和IDF，所述TF為所述詞語在當前文本中的詞頻，IDF為包含所述詞語的文本數的倒數；

確定子單元，用于將所述TF與所述IDF的乘積作為所述詞語的TF-IDF權重；

判斷子單元，用于判斷所述TF-IDF權重是否大于所述預設值，若是，則將所述詞語添加至文本特征項中。

9.一種熱點話題發現設備，其特征在于，包括：

存儲器，用于存儲熱點話題發現程序；

處理器，用于執行所述熱點話題發現程序時實現如權利要求1至4任一項所述熱點話題發現方法的步驟。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有熱點話題發現程序，所述熱點話題發現程序被處理器執行時實現如權利要求1至4任一項所述熱點話題發現方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司，未經鄭州云海信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711091479.4/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】