[發明專利]文本特征向量的確定方法及系統、文本分類方法及系統在審
| 申請號: | 201810092766.5 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108280211A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 陳宏偉;侯亞君;宗欣露;葉志偉;羅啟星;胡周;韓麟;符恒 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 王戈 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 水波 適應度 文本特征向量 迭代 文本分類 傳播 訓練文本集 方法提取 判斷結果 文本特征 重新確定 初始化 構建 維數 分類 保留 更新 檢驗 保證 | ||
本發明公開一種文本特征向量的確定方法及系統、文本分類方法及系統。確定方法包括:獲取訓練文本集;采用卡方檢驗方法提取文本特征;構建水波群并初始化;選出當前最優水波并判斷適應度值是否小于適應度閾值;若否,確定最優文本特征向量;若是,進行傳播處理并計算適應度值;判斷水波適應度值是否增大;若是,用傳播處理后的水波代替傳播處理前的水波;否則保留傳播處理前的水波;根據各第二判斷結果更新水波群及迭代次數,并重新確定當前最優水波;判斷迭代次數是否小于迭代閾值;若是則判斷當前最優水波的適應度值是否達到適應度閾值;否則確定最優文本特征向量。本發明提供的方法及系統能夠在保證分類的精度的前提下降低文本特征向量的維數。
技術領域
本發明涉及文本挖據領域,特別是涉及一種文本特征向量的確定方法及系統、文本分類方法及系統。
背景技術
中文文本分類中,用向量空間模型表示經過處理的中文文本時,向量空間的維數一般都比較高。在實際分類過程中,高維的特征空間中并不是每一維特征都對分類結果有貢獻,相反,貢獻不大的特征不僅會給分類學習算法增加學習負擔,而且還會降低分類器的分類精度。
因此,如何在保證分類精度的前提下降低文本特征向量的維數,成為本領域技術人員亟需解決的技術問題。
發明內容
本發明的目的是提供一種文本特征向量的確定方法及系統、文本分類方法及系統,能夠在保證分類的精度的前提下降低文本特征向量的維數。
為實現上述目的,本發明提供了如下方案:
一種文本特征向量的確定方法,所述確定方法包括:
獲取訓練文本集,所述訓練文本集包括若干訓練文本;
采用卡方檢驗方法提取每個所述訓練文本的文本特征;
根據各個所述訓練文本的文本特征生成預選文本特征集,所述預選文本特征集包括若干預選文本特征;
構建包括若干多維水波的水波群,并初始化各所述多維水波的位置、波高和波長,其中,每個所述多維水波的位置對應一個所述預選文本特征集的文本特征向量;
計算所述水波群中每個多維水波的適應度值,并選出適應度值最大的多維水波作為當前最優水波;
判斷所述當前最優水波的適應度值是否大于或者等于適應度閾值,獲得第一判斷結果;
若所述第一判斷結果表示所述當前最優水波的適應度值大于或者等于適應度閾值,則根據所述當前最優水波的位置確定所述預選文本特征集的最優文本特征向量;
若所述第一判斷結果表示所述當前最優水波的適應度值小于適應度閾值,則對所述水波群中的各所述多維水波進行傳播處理,并計算所述傳播處理后的多維水波的適應度值;
判斷所述傳播處理后的多維水波的適應度值是否大于所述傳播處理前的多維水波的適應度值,獲得第二判斷結果;
若所述第二判斷結果表示傳播處理后的多維水波的適應度值大于傳播處理前的多維水波的適應度值,則用傳播處理后的多維水波代替所述水波群中與所述傳播處理后的多維水波對應的傳播處理前的多維水波;
若所述第二判斷結果表示傳播處理后的多維水波的適應度值小于或者等于傳播處理前的多維水波的適應度值,則保留所述水波群中與所述傳播處理后的多維水波對應的傳播處理前的多維水波;
根據各個所述第二判斷結果更新所述水波群,并更新所述水波群的迭代次數;
計算更新后的所述水波群中的每個多維水波的適應度值,并將更新后的適應度值最大的多維水波作為當前最優水波;
判斷所述迭代次數是否小于迭代閾值,獲得第三判斷結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092766.5/2.html,轉載請聲明來源鉆瓜專利網。





