[發明專利]一種基于二次特征放大的新聞分類方法有效
| 申請號: | 202110781669.9 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113486176B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 張文輝;方興;王子辰;林鎮源;羅鴻豪 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 二次 特征 放大 新聞 分類 方法 | ||
1.一種基于二次特征放大的新聞分類方法,其特征是,包括步驟如下:
步驟1、將帶有類別標簽的新聞文本通過Word2vec算法進行分詞處理后去除停用詞,得到訓練集;
步驟2、先分別統計訓練集中各個類別中詞頻排名前m位的詞,并通過Word2vec算法計算這些詞的詞向量bij;再利用每個類別的詞向量構造該類別的中心向量,得到每個類別的中心向量ci;
步驟3、將訓練集中各個類別的詞向量bij和對應的類別標簽送入gensim.models.word2vec模型進行訓練,得到訓練好的類別識別模型;
步驟4、通過Word2vec算法對待預測類別的新聞文本進行分詞處理后去除停用詞,并得到待測新聞文本,并通過Word2vec計算待測新聞文本中每個詞的詞向量dk;
步驟5、計算待測新聞文本的每個詞的詞向量dk與步驟2所得的訓練集的每個詞的詞向量bij的余弦相似度cos(dk,bij);
步驟6、基于余弦相似度cos(dk,bij)對待測新聞文本中每個詞的詞向量dk進行特征放大,得到每個詞的放大詞向量d′k;其中待測新聞文本的第k個詞的放大詞向量d′k為:
d′k=dk×TFk×IDFk×SCV1
式中,SCV1為第一放大函數,當余弦相似度cos(dk,bij)θ1時,第一放大調參值a1i取1,當余弦相似度cos(dk,bij)≥θ1時,第一放大調參值a1i取大于1的設定值;dk為待測新聞文本的第k個詞的詞向量;bij為訓練集的第i個類別的第j個詞的詞向量;TFk為待測新聞文本的第k個詞的詞頻;IDFk為待測新聞文本的第k個詞逆文本頻率;步驟7、基于每個詞的放大詞向量d′k,計算待測新聞文本的每個類別的初始特征表征向量Ti;
步驟8、計算待測新聞文本的每個類別的初始特征表征向量Ti與步驟2所得的訓練集的每個類別的中心向量ci的余弦相似度cos(Ti,ci);
步驟9、基于余弦相似度cos(Ti,ci)對待測新聞文本的每個類別的初始特征表征向量Ti行特征放大,得到每個類別的放大初始特征表征向量Ti′;其中待測新聞文本的第i個類別的放大初始特征表征向量Ti′為:
Ti′=Ti×SCV2
式中,SCV2為第二放大函數,當余弦相似度cos(Ti,ci)θ1時,第二放大調參值a2i取1,當余弦相似度cos(Ti,ci)≥θ1時,第二放大調參值a2i取大于1的設定值;Ti為待測新聞文本的第i個類別的初始特征表征向量;ci為訓練集的第i個類別的中心向量;步驟10、基于每個類別的放大初始特征表征向量Ti′,計算待測新聞文本的每個類別的最終特征表征向量Ti″;
步驟11、將待測新聞文本的每個類別的最終特征表征向量Ti″中模最大的那個類別的最終特征表征向量作為待測新聞文本的最終特征表征向量;
步驟12、將待測新聞文本的最終特征表征向量送入到步驟3訓練好的類別識別模型中,得到待測新聞文本的類別;
上述i=1,2,…,n,n代表類別數量;j=1,2,…,m,m代表設定的詞頻排名位數;k=1,2,…,l,l代表待測新聞文本的詞數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110781669.9/1.html,轉載請聲明來源鉆瓜專利網。





