[發明專利]一種文本分類方法在審
| 申請號: | 201810238364.1 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108509552A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 韋靈;倪志平;黎偉強;崔亞楠;胡艷華 | 申請(專利權)人: | 廣西科技大學鹿山學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京君恒知識產權代理事務所(普通合伙) 11466 | 代理人: | 譚月萍;黃啟行 |
| 地址: | 545616 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 文本 指標集 權重 預處理 矩陣 歸一化處理 分類矩陣 分類模型 分類指標 篩選指標 提取特征 指標矩陣 特征詞 分類 分詞 歸類 去除 篩選 更新 | ||
1.一種文本分類方法,其特征在于:包括如下步驟,
步驟1:從文件庫選取若干篇文章篩選出文本的指標集,并將指標集進行歸類劃分為不同的指標庫;
步驟2:對指標庫進行歸一化處理得到文本分類指標矩陣;
步驟3:選取需分類的文本,對文本進行預處理,提取特征詞,對文本進行分詞和分字處理,去除中性詞;
步驟4:計算特征詞的權重值;
步驟5:根據權重值選取步驟2中的本分類指標矩陣對詞和字進行文本分類處理,完成文本分類。
2.根據權利要求1所述的一種文本分類方法,其特征在于,所述步驟1中的篩選文本的指標集的具體過程為:
步驟1.1:文件庫為已經分類號的文本類型的文件庫,從文件庫選取不同文本類型的5000篇-10000篇的文本進行篩選;
步驟1.2:步驟1.1篩選的過程為從每個文本提取與該文本的分類相關的詞或字;
步驟1.3:對每個類型的文本篩選出的詞或字進行匯總得到文本的指標集。
3.根據權利要求2所述的一種文本分類方法,其特征在于,所述步驟1中劃分為不同的指標庫的具體過程為:
步驟1.4:對每個文本類型的文本指標集進行根據詞或字在該類文本中的權重值進行劃分;
步驟1.5:同時劃分算出每個指標集在文本類型中的權重值。
4.根據權利要求3所述的一種文本分類方法,其特征在于,所述步驟2中歸一化處理的具體過程為:
設m個待測數據,n指權重值,得到矩陣(aij)m×n,其中aij為第i個指標所對應的第j個因素的評價值,將其歸一化之后得到矩陣(aij)m×n’。
5.根據權利要求4所述的一種文本分類方法,其特征在于,所述步驟驟4中的具體過程為:
首先,計算第j個狀態下的第i個因素占其指標的比重值:
其中,j=1,2…n,i為因素個數,j為狀態個數;
其次,計算第j個指標的信息熵:
其中,k=1,j=1,2…n,
然后,計算第j個指標的熵權;
其中,i代表每個因素,j代表每個因素所對應的狀態,n為總的狀態數;
最后,將均衡函數引入變權公式得到指標的變權重數值,式(4)為均衡函數,將其引入變權公式后變權重表達式為式(5);
其中,m代表各個因素,i為正整數,α為平衡因子,取1/2,
xm為變元;
其中,w′i為第i指標的變權重系數;m為指標所對應的二層指標個數;xi為第i個指標標準化之后的值;wi為第i個綜合狀態量的常權重系數。
6.根據權利要求5所述的一種文本分類方法,其特征在于,還包括步驟5中完成分類后,認為進行對已分類的文本進行認為判斷,把人為分類判斷與機器分類進行對比同時統計機器分類準確率,當分類少于1000篇或者準確率低于96%時,人為對文本分類后把該文檔執行步驟1,進行更新步驟1的指標庫;當當分類大于1000篇或者準確率不低于96%時,人為分類判斷停止,步驟5中執行的分類結果則為最終的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西科技大學鹿山學院,未經廣西科技大學鹿山學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810238364.1/1.html,轉載請聲明來源鉆瓜專利網。





