[發明專利]一種基于關鍵詞挖掘新聞的時代特征提取方法在審
| 申請號: | 202110913106.0 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113722428A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 趙毅;陳佳珊 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/216;G06F40/289 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 挖掘 新聞 時代特征 提取 方法 | ||
本發明是一種基于關鍵詞挖掘新聞的時代特征提取方法。本發明對單篇新聞文章進行關鍵詞的抽取,并進行分詞操作;通過TF?IDF算法和聚類系數對分詞后的關鍵詞進行賦權;基于TF?IDF權值和聚集系數,進行歸一化操作,得到所有特征詞的權重;根據單篇新聞文章,篩選所有權值大于0.0001的特征詞集合,得到出新聞關鍵詞集合;對新聞關鍵詞進行初步篩選和關鍵詞過濾,并計算關鍵詞的重要程度,并確定每個時期的特征關鍵詞;計算單篇新聞文章的熱度值,對關鍵詞關聯進行分析,確定關鍵詞的聯合度。
技術領域
本發明涉及新聞文本數據集特征提取技術領域,是一種基于關鍵詞挖掘新聞的時代特征提取方法。
背景技術
在大數據背景下,數據新聞應運而生,網易、新浪、搜狐、騰訊等門戶網站紛紛推出了數據新聞板塊。但目前為止,大部分數據新聞更類似數字新聞,向大眾呈現的更多的是簡單的靜態圖表,僅提供總結歸納后的數據信息,對于隱含在新聞數據背后的信息挖掘不夠深入,新聞價值與可讀性不夠高,故而深度報道的數據新聞較為罕見。與此同時,數據新聞中的數據存在缺乏權威性和可靠性的問題,這是因為部分新聞工作者缺乏對權威數據定以的理解,數據來源把關不嚴謹,導致做出不準確或不嚴謹的數據分析或價值判斷。
而本項技術則是在新聞行業趨向數字化發展的事實下、在擁有大量真實可靠新聞數據的前提下提出研發構思,并最終研發而成的方法。目前針對數據新聞的分析,大多停留在提取關鍵詞、對關鍵詞做統計分析的階段上,而本項技術則基于關鍵詞實現了更具深度的數據挖掘,能夠獲取到新聞數據所蘊含的時代特征。
發明內容
本發明基于所有風險源都要被應急物資儲備庫有效覆蓋的原則,綜合考慮環境風險評估和應急物資篩選,建立基于連續-離散型選址理論的環境應急物資儲備布局規劃模型,該模型適用于現有應急物資儲備庫不足,需要新建應急物資儲備庫的情況,,本發明提供了一種基于關鍵詞挖掘新聞的時代特征提取方法,本發明提供了以下技術方案:
一種基于關鍵詞挖掘新聞的時代特征提取方法,包括以下步驟:
步驟1:對單篇新聞文章進行關鍵詞的抽取,并進行分詞操作;
步驟2:通過TF-IDF算法和聚類系數對分詞后的關鍵詞進行賦權;
步驟3:基于TF-IDF權值和聚集系數,進行歸一化操作,得到所有特征詞的權重;
步驟4:根據單篇新聞文章,篩選所有權值大于0.0001的特征詞集合,得到出新聞關鍵詞集合;
步驟5:對新聞關鍵詞進行初步篩選和關鍵詞過濾,并計算關鍵詞的重要程度,并確定每個時期的特征關鍵詞;
步驟6:計算單篇新聞文章的熱度值,對關鍵詞關聯進行分析,確定關鍵詞的聯合度。
優選地,所述步驟1具體為:針對每一篇單篇新聞文章,使用jieba包作為分詞工具,通過搜集新聞專有名詞以及人工數據審閱,補充了分詞維護詞典。
優選地,所述步驟2具體為:
當某個詞或短語在一篇文章中的出現頻率高,IDF低,詞或者短語對文章具有類別區分能力,TF-IDF權值計算方法如下所示:
TFIDFij=TFij*IDFi
其中,TFij表示特征詞i在文章j中的出現頻率,nij表示特征詞i在文章j中的出現次數,∑knkj表示文章j的總詞數;IDFi表示特征詞i逆文章頻率,|D|表示總文章數量,|Di|表示包含特征詞i的文章數量;TFIDFij表示特征詞i在文章j中的重要程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110913106.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種清洗機的夾持裝置
- 下一篇:一種亮碟劑的投放方法及洗滌設備





