[發明專利]一種基于文本挖掘的熱點新聞發現方法在審
| 申請號: | 202011381648.X | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112528018A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 張大朋;趙曉玲;孫哲南;張堃博;薛文芳 | 申請(專利權)人: | 天津中科智能識別產業技術研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 韓新城 |
| 地址: | 300457 天津市濱海新區天津經濟技*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 挖掘 熱點新聞 發現 方法 | ||
本發明公開一種基于文本挖掘的熱點新聞發現方法,包括步驟:將預處理后的新聞的標題的權重擴大,在分詞及去停用詞處理后,獲取新聞的TF?IDF的特征向量;基于所述TF?IDF的特征向量,利用聚類算法預測新聞的所屬類別;將新聞的標題及摘要合并成一句子,然后對句子進行分詞、去停用詞處理;利用TextRank算法,對新聞標題排序后輸出熱點新聞。本發明在聚類時增加了新聞標題權重,以提升其正確率;將新聞的標題、摘要、關鍵詞一并用于排序,一方面增加新聞標題的權重,一方面能減少新聞標題的重復。
技術領域
本發明涉及新聞發現技術領域,特別是涉及一種基于文本挖掘的熱點新聞發現方法。
背景技術
現有技術熱點新聞發現方法比較多:利用LDA主題模型,提出一個多核心活體模型,能夠識別同一話題下關注的核心,之后采用劃分聚類和層次聚類結合的辦法對新聞報道進行精確聚類。采用single-pass聚類思想和凝聚式層次聚類與K-Means聚類算法相結合發現熱點新聞。改進關聯規則算法,根據互信息來計算文本字符串的相似度,然后得出熱點新聞關鍵詞集合,再進行熱度計算來研究新聞熱點。利用聚類算法得到新聞的類別,然后利用TextRank排序,取前幾個新聞即為熱點新聞。
然而現有熱點新聞發現中,沒有考慮新聞的結構,導致區分度以及正確率上尚未達到滿意的效果,且也存在重復標題的新聞熱點發現問題。
發明內容
本發明的目的是針對現有技術中的缺陷,而提供一種基于文本挖掘的熱點新聞發現方法,本發明方法增加了區分度,提升了正確率,解決了新聞標題的重復的問題。
為實現本發明的目的所采用的技術方案是:
一種基于文本挖掘的熱點新聞發現方法,包括步驟:
將預處理后的新聞的標題的權重擴大,在分詞及去停用詞處理后,獲取新聞的TF-IDF的特征向量;
基于所述TF-IDF的特征向量,利用聚類算法預測新聞的所屬類別;
將新聞的標題及摘要合并成一句子,然后對句子進行分詞、去停用詞處理;
利用TextRank算法對句子處理,對新聞標題排序后輸出熱點新聞。
優選的,所述預處理包括去重、清洗的處理步驟。
優選的,利用訓練TF-IDF模型獲取新聞的TF-IDF的特征向量。
優選的,利用訓練k-means模型預測新聞的所屬類別。
優選的,TextRank算法順序的步驟是,計算所述句子間相似度,根據所述相似度計算句子權重,根據所述權重對新聞標題進行排序。
本發明在熱點新聞挖掘中,在聚類時,增加了新聞標題的權重,以提升其正確率;在排序時,將新聞的標題、摘要、關鍵詞一并用于排序,一方面增加新聞標題的權重,一方面能減少新聞標題的重復。
附圖說明
圖1是本發明的基于文本挖掘的熱點新聞發現方法的流程示意圖。
具體實施方式
以下結合附圖和具體實施例對本發明作進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
如圖1所示,本發明基于文本挖掘的熱點新聞發現方法,包括以下步驟:
將預處理后的新聞的標題的權重擴大,在分詞及去停用詞處理后,獲取新聞的TF-IDF的特征向量;
基于所述TF-IDF的特征向量,利用聚類算法預測新聞的所屬類別;
將新聞的標題及摘要合并成一句子,然后對句子進行分詞、去停用詞處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津中科智能識別產業技術研究院有限公司,未經天津中科智能識別產業技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011381648.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板和顯示裝置
- 下一篇:安全可靠的遠程銷毀裝置及其銷毀方法





