[發明專利]一種基于關鍵詞挖掘新聞的時代特征提取方法在審
| 申請號: | 202110913106.0 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113722428A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 趙毅;陳佳珊 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/216;G06F40/289 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 挖掘 新聞 時代特征 提取 方法 | ||
1.一種基于關鍵詞挖掘新聞的時代特征提取方法,其特征是:包括以下步驟:
步驟1:對單篇新聞文章進行關鍵詞的抽取,并進行分詞操作;
步驟2:通過TF-IDF算法和聚類系數對分詞后的關鍵詞進行賦權;
步驟3:基于TF-IDF權值和聚集系數,進行歸一化操作,得到所有特征詞的權重;
步驟4:根據單篇新聞文章,篩選所有權值大于0.0001的特征詞集合,得到出新聞關鍵詞集合;
步驟5:對新聞關鍵詞進行初步篩選和關鍵詞過濾,并計算關鍵詞的重要程度,并確定每個時期的特征關鍵詞;
步驟6:計算單篇新聞文章的熱度值,對關鍵詞關聯進行分析,確定關鍵詞的聯合度。
2.根據權利要求1所述的一種基于關鍵詞挖掘新聞的時代特征提取方法,其特征是:所述步驟1具體為:針對每一篇單篇新聞文章,使用jieba包作為分詞工具,通過搜集新聞專有名詞以及人工數據審閱,補充了分詞維護詞典。
3.根據權利要求2所述的一種基于關鍵詞挖掘新聞的時代特征提取方法,其特征是:所述步驟2具體為:
當某個詞或短語在一篇文章中的出現頻率高,IDF低,詞或者短語對文章具有類別區分能力,TF-IDF權值計算方法如下所示:
TFIDFij=TFij*IDFi
其中,TFij表示特征詞i在文章j中的出現頻率,nij表示特征詞i在文章j中的出現次數,∑knkj表示文章j的總詞數;IDFi表示特征詞i逆文章頻率,|D|表示總文章數量,|Di|表示包含特征詞i的文章數量;TFIDFij表示特征詞i在文章j中的重要程度。
4.根據權利要求3所述的一種基于關鍵詞挖掘新聞的時代特征提取方法,其特征是:所述步驟3具體為:
聚集系數根據特征詞在文章中的空間分布來計算,對文章d進行分詞,當特征詞在文章d中出現的位置為{p1,...,pn,pend},n代表特征詞出現了n次,pk,k≠end表示特征詞第k次出現的位置,分詞后的文章d的第i個詞,pend表示文章的結束位置文章d最后一個字詞的位置,聚集系數計算方法通過下式所示:
其中,Lij表示特征詞i在文章j中的平均距離;Sij表示特征詞i在文章j中的距離標準差;Cij表示特征詞i在文章j中的聚集系數,聚集系數越大,特征詞相對于文章的重要性越大;
基于計算得到的TF-IDF權值與聚集系數,當文章j有m個特征詞,分別對兩個指標進行歸一化操作:
對歸一化后的兩個分別賦予權重0.9、0.1,然后求和,得到的數即為特征詞i相對于文章j的權重wij:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110913106.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種清洗機的夾持裝置
- 下一篇:一種亮碟劑的投放方法及洗滌設備





