[發明專利]一種基于二次特征放大的新聞分類方法有效
| 申請號: | 202110781669.9 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113486176B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 張文輝;方興;王子辰;林鎮源;羅鴻豪 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 二次 特征 放大 新聞 分類 方法 | ||
本發明公開一種基于二次特征放大的新聞分類方法,結合改進TF?IDF算法和Word2vec算法,在對新聞預測時,對待預測文本的特征進行二次特征放大,可有效增大文本特征,從而進一步增加預測準確率。
技術領域
本發明涉及技術領域,具體涉及一種基于二次特征放大的新聞分類方法。
背景技術
隨著互聯網技術的迅猛發展,網絡已經成為人們獲取新聞的重要平臺,網絡中的新聞文本數量呈現出爆炸式的增長趨勢。針對新聞種類較多、新聞的內容層次參差不齊問題,對新聞進行科學的分類既能夠方便不同的閱讀群體根據需求快速選取自身感興趣的新聞,也能夠有效滿足對海量的新聞素材提供科學的檢索需求。
TF-IDF(詞頻-逆文本頻率指數)是一種用于信息檢索與數據挖掘的常用加權技術,其通過統計字詞在文本中出現的次數和整個語料中出現的文檔頻率來評判某個字詞的在整個語料和文本中的重要程度。但是當文檔數量過多的時候,不同單詞的數量非常大,而單個文檔使用的單詞數量遠遠少于總體詞袋單詞個數,此時所表示的特征向量是非常稀疏的。僅以“詞頻”度量詞的重要性,后續構成文檔的特征值序列,詞之間各自獨立,無法反映序列信息,且易受數據集偏斜的影響,如某一類別的文檔偏多,會導致IDF(逆文本頻率)低估,進而影響新聞分類的準確性。
發明內容
本發明針對利用TF-IDF進行新聞分類時所存在的準確性不高的問題,提出一種基于二次特征放大的新聞分類方法。
為解決上述問題,本發明是通過以下技術方案實現的:
一種基于二次特征放大的新聞分類方法,包括步驟如下:
步驟1、將帶有類別標簽的新聞文本通過Word2vec算法進行分詞處理后去除停用詞,得到訓練集;
步驟2、先分別統計訓練集中各個類別中詞頻排名前m位的詞,并通過Word2vec算法計算這些詞的詞向量bij;再利用每個類別的詞向量構造該類別的中心向量,得到每個類別的中心向量ci;
步驟3、將訓練集中各個類別的詞向量bij和對應的類別標簽送入gensim.models.word2vec模型進行訓練,得到訓練好的類別識別模型;
步驟4、通過Word2vec算法對待預測類別的新聞文本進行分詞處理后去除停用詞,并得到待測新聞文本,并通過Word2vec計算待測新聞文本中每個詞的詞向量dk;
步驟5、計算待測新聞文本的每個詞的詞向量dk與步驟2所得的訓練集的每個詞的詞向量bij的余弦相似度cos(dk,bij);
步驟6、基于余弦相似度cos(dk,bij)對待測新聞文本中每個詞的詞向量dk進行特征放大,得到每個詞的放大詞向量d′k;
步驟7、基于每個詞的放大詞向量d′k,計算待測新聞文本的每個類別的初始特征表征向量Ti;
步驟8、計算待測新聞文本的每個類別的初始特征表征向量Ti與步驟2所得的訓練集的每個類別的中心向量ci的余弦相似度cos(Ti,ci);
步驟9、基于余弦相似度cos(Ti,ci)對待測新聞文本的每個類別的初始特征表征向量Ti行特征放大,得到每個類別的放大初始特征表征向量T′i;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110781669.9/2.html,轉載請聲明來源鉆瓜專利網。





