[發明專利]一種基于改進互信息函數的科技文本分類方法有效
| 申請號: | 202010786910.2 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111930892B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 徐光俠;胡新庭;覃思詩;產拙;袁野;張家俊 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/247;G06F40/289;G06F40/30 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 互信 函數 科技 文本 分類 方法 | ||
本發明涉及計算機領域,尤其涉及一種基于改進互信息函數的科技文本分類方法,包括構建科技文本數據庫,對數據庫中的科技文本進行數據融合,通過對目標文本進行分詞,通過word2vec模型得出詞向量;構建文本特征提取模型,并為每個詞向量根據TF?ATF模型計算權值,根據權值更新詞向量的表示;構建改進互信息函數計算詞向量的互信函數值,根據該函數更新詞向量的表示;構建合并同義詞或近義詞的語義距離模型,剔除其中權值較小的詞,將合并后的詞向量進行正則化,得到最終的文本特征向量;利用LSTM模型對文本特征向量進行訓練,利用訓練好的模型對科技文本進行分類;本發明可以通過科技文本分類對主題進行分類,優化資訊瀏覽體驗。
技術領域
本發明涉及計算機領域,尤其涉及一種基于改進互信息函數的科技文本分類方法。
背景技術
目前,我國互聯網、移動互聯網用戶規模居全球第一,擁有豐富的數據資源和應用市場優勢,大數據部分關鍵技術研發取得突破。而由于當前科技信息管理混亂,數據模型未統一,同一信息可能因為不同業務格式存在文本上的差異,沒有統一的標準,這會嚴重影響科技系統的各項業務效率和成本。因此,對科技系統中的海量電子文本進行檢索和信息提取,再進一步進行分類,就顯得十分有意義。
文本分類(Text?Classification)是自然語言處理(NLP)的主要研究問題之一,指的是在一個被事先定義好的固定類別中根據文本的特征將給定的文本對象進行分類的技術。典型的應用有判定垃圾郵件、網頁自動分類、情感分類和新聞個性化推薦等。
20世紀50年代,單純依靠文檔中出現與類名相同的詞來進行文檔分類的詞匹配法出現,之后又出現了向量空間模型和知識工程,但這些算法十分依賴于人力,且方法十分簡單,分類結果并不能滿足要求。之后,隨著機器學習算法的發展,SVM模型、貝葉斯網絡、決策樹等算法開始應用于文本分類。現如今,人工智能(AI)技術的快速發展使文本分類得到了新的發展,其成為了AI子領域自然語言處理(NLP)的一個重要分支,神經網絡,如卷積神經網絡(CNN)與深度神經網絡(DNN)也越來越多的應用到文本分類中來。但這些傳統的網絡存在梯度消失問題,無法處理長時間序列數據。
發明內容
為了能夠通過科技文本數據特征快速的對科技文本進行分類,本文提出一種基于改進互信息函數的科技文本分類方法,所述方法包括以下步驟:
S1、構建科技文本數據庫,進行數據預處理,包括對數據庫中的科技文本進行數據融合,通過對目標文本進行分詞,通過word2vec模型得出詞向量;
S2、構建改進互信息函數,通過添加詞頻信息降低低頻詞的擾亂,并將低頻詞進行剔除,計算文本中所有詞向量的互信息函數值;
S3、構建文本特征提取模型,并為每個詞向量根據TF-ATF模型計算權值,統計特征詞出現次數不少于min次的文本數據,并更新詞向量的表示;
S4、構建語義距離模型,將符合要求的同義詞或近義詞進行合并,并剔除其中權值較小的詞,將合并后的詞向量進行正則化,得到最終的文本特征向量;
S5、利用LSTM模型對文本特征向量進行訓練,利用訓練好的模型對科技文本進行分類。
進一步的,目標文本為科技文本信息,科技文本信息包括科技項目數據、科技企業數據、科技金融服務數據、科技人才數據,針對來源不同、數據結構不同的數據進行多源異構數據的融合。
進一步的,針對來源不同、數據結構不同的數據進行多源異構數據的融合過程包括:
將數據所屬數據表名作為本體名,將文本類型數據表直接構建為一個本體對象,若不是文本類型數據則讀取該數據的表頭作為本體類,同時循環的讀取該表每一行的數據創建本體對象;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010786910.2/2.html,轉載請聲明來源鉆瓜專利網。





