[發明專利]一種基于改進互信息函數的科技文本分類方法有效
| 申請號: | 202010786910.2 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111930892B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 徐光俠;胡新庭;覃思詩;產拙;袁野;張家俊 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/247;G06F40/289;G06F40/30 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 互信 函數 科技 文本 分類 方法 | ||
1.一種基于改進互信息函數的科技文本分類方法,其特征在于,所述方法包括以下步驟:
S1、構建科技文本數據庫,進行數據預處理,包括對數據庫中的科技文本進行數據融合,通過對目標文本進行分詞,通過word2vec模型得出詞向量;
S2、構建文本特征提取模型,并為每個詞向量根據TF-ATF模型計算權值,統計特征詞出現次數不少于min次的文本數據,并根據權值更新詞向量的表示;根據TF-ATF模型計算權值包括:
其中,TF(t)代表特征詞t的詞頻;ATF(t)為特征詞t的平均詞頻類間集中度;DF(t,Ci)代表特征詞t在Ci類中所出現的文檔頻率;DF(t)代表特征詞t在訓練樣本中出現的文檔頻度;代表特征詞在文檔頻類間集中度;
S3、構建改進互信息函數,計算文本中所有詞向量的互信函數值,并根據互信息函數值更新詞向量的表示,即利用互信息函數值作為特征的權值來更新詞向量表示,改進互信息函數表示為:
其中,αi代表詞頻類間集中度,表示為tfi(t)表示特征詞t在該類文本中出現的次數,m是總文本類別數;βi代表文檔頻數內的分散度和集中度,表示為dfi(t)表示文本類別特征數量,|ci|表示該類文本的數量,P(ti,cj)代表文本中某一個特征ti在文本的某個類別ci中出現的概率,P(ti)代表特征ti出現的概率,P(cj)代表類別ci出現的概率;
S4、構建語義距離模型,將符合要求的同義詞或近義詞進行合并,并剔除其中詞頻較小的詞,將合并后的詞向量進行正則化,得到最終的文本特征向量;構建語義距離模型包括:
將特征向量表示為其中xi代表特征詞的詞向量表示,ωi表示該詞的文本特征模型,n表示特征詞的數量;
計算兩個特征詞的相似度Sim(wi,wj),相似度大于設定閾值的兩個特征詞屬于近義詞或同義詞;
計算兩個特征詞的相關度Rels(wi,wj),如果兩個特征詞之間相關度大于設定閾值的兩個特征詞屬于近義詞或同義詞;
根據通過判斷是否對同義詞、近義詞進行合并,若SR的值大于設定閾值則將兩個特征詞向量的權值進行相加,即ω=ωi+ωj,同時刪除詞頻較小的特征詞,以詞頻較大的特征詞作為合并后的代表詞向量X=(x,ω);
其中,為特征詞相似度系數,取值為(0,1);
S5、利用LSTM模型對文本特征向量進行訓練,利用訓練好的模型對科技文本進行分類,具體包括:
對LSTM模型中的神經單元進行改進,將神經單元轉化為輸入門、遺忘門和輸出門,使得遺忘門中長期狀態更新表示為:
計算獲取到長期狀態Ct之后,計算該時刻的輸出分類結果ht,表示為:
其中,ft為遺忘門函數;σ1為遺忘系數;Wf為遺忘門權值;ht-1為上一個神經元計算結果;bf為遺忘門偏置;it為輸入門函數;σ2為輸入門函數系數;bi為輸入門偏置;為短期狀態;Wc為短期狀態參數;bc為短期狀態偏置;Ct為長期狀態;ot為輸出函數,σ3為輸出函數系數,Wf為輸出函數的參數,xt為t時刻的詞向量,bo為輸出函數的偏置。
2.根據權利要求1所述的一種基于改進互信息函數的科技文本分類方法,其特征在于,目標文本為科技文本信息,科技文本信息包括科技項目數據、科技企業數據、科技金融服務數據、科技人才數據,針對來源不同、數據結構不同的數據進行多源異構數據的融合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010786910.2/1.html,轉載請聲明來源鉆瓜專利網。





