[發(fā)明專利]一種基于機器學習的文本分類方法在審
| 申請?zhí)枺?/td> | 202011544023.0 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN113157912A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設計)人: | 劉建雄;陳敏 | 申請(專利權)人: | 航天科工網(wǎng)絡信息發(fā)展有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06K9/62;G06N20/10 |
| 代理公司: | 中國兵器工業(yè)集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 文本 分類 方法 | ||
1.一種基于機器學習的文本分類方法,其特征在于,包括:
文本數(shù)據(jù)預處理、文本表示、特征降維、分類模型訓練以及分類性能評估;
文本數(shù)據(jù)預處理具體包括:按照順序需要對文本數(shù)據(jù)進行操作:文本標記、文本分詞處理以及去除停用詞處理;
文本表示包括:經(jīng)過文本預處理之后,將文本表示成一種形式化數(shù)學描述,使之成為計算機能夠識別的語言;
卡方統(tǒng)計算法引入詞頻因子,以及互信息算法引入調(diào)節(jié)因子,進行特征降維;
分類模型訓練包括:采用SVM來進行分類,定義訓練數(shù)據(jù)集中的兩個類別中幾何距離最近的兩組數(shù)據(jù)為支持向量,超平面H就是與這兩組分屬于不同類別的數(shù)據(jù)連線的垂直平分線,而分類線H1與H2分別是指經(jīng)過這兩個類別中支持向量,首先尋找支持向量,通過訓練集中不同類數(shù)據(jù)的幾何距離來剔除大量冗余數(shù)據(jù),根據(jù)保留的少量數(shù)據(jù)即支持向量,找到超平面H進行類別劃分。
2.如權利要求1所述的基于機器學習的文本分類方法,其特征在于,文本標記的處理包括:文本中的表情符、圖片或者鏈接非中文字符無法對文本分類提高直接且有用的幫助,進行刪除。
3.如權利要求2所述的基于機器學習的文本分類方法,其特征在于,去除停用詞包括:經(jīng)過分詞處理之后的文本數(shù)據(jù)仍然還存在許多功能詞和停用詞,對停用詞和功能詞進行額外刪除。
4.如權利要求2所述的基于機器學習的文本分類方法,其特征在于,文本分詞的處理包括:首先識別出中文語句中存在的標點符號或是某些漢語文字,并在這些出現(xiàn)位置上通過添加空格符實現(xiàn)切分效果并得到切分后的詞條內(nèi)容,相鄰字通過統(tǒng)計學方法得到分布信息,如果得到統(tǒng)計值很高達到一定閾值時,就判定這組相鄰的字就可能是一個詞語。
5.如權利要求1所述的基于機器學習的文本分類方法,其特征在于,文本表示通過VSM模型表示成一種形式化數(shù)學描述,通過將文本中帶有文本主題特征的那些詞項表示成特征向量,每一個具有獨立屬性的詞項所對應的一個特征向量就構成了這篇文本特征向量的一個維度,將文本轉(zhuǎn)化成了空間中的一個高維特征向量。
6.如權利要求5所述的基于機器學習的文本分類方法,其特征在于,利用VSM模型對文本進行文本表示時,詞項以及詞項的權重將成為文本表示這個模型的組成部分,文本D就能被n個詞項以及他們的權重值所組成的特征向量代表,表示形式如下:D={(t1,w1),(t2,w2),...,(ti,wj),...(tn,wn)},其中ti,wj分別是指對應的第i個特征詞以及第i個特征詞的權重值。
7.如權利要求1所述的基于機器學習的文本分類方法,其特征在于,卡方統(tǒng)計算法包括:
卡方統(tǒng)計算法公式基于詞項的詞頻因子,其大小等于這個詞項在該類別文檔中出現(xiàn)的詞頻數(shù)與在全體文本數(shù)據(jù)集文檔中存在該詞項的文本頻數(shù)大小的比值。其計算公式:
n(ti,cj)是指詞項ti在類別結果為cj的文檔中出現(xiàn)的次數(shù),n(ti)是指在全體文本數(shù)據(jù)集文檔中,文本中存在詞項ti的文本頻數(shù);
詞頻因子α(ti)的大小由詞項ti在某類別文檔中出現(xiàn)的頻數(shù)以及這個詞項在全體文本數(shù)據(jù)集文檔中出現(xiàn)的頻數(shù)大小所決定。詞頻因子α(ti)數(shù)值越大,代表該詞項ti只在這一個類別文檔中出現(xiàn)的頻率越高;詞頻因子α(ti)數(shù)值越小,代表該詞項ti只在這一個類別文檔中出現(xiàn)的頻率越小,引入詞頻因子α(ti),利用卡方統(tǒng)計算法更容易找到對分類更有幫助的特征詞。
8.如權利要求7所述的基于機器學習的文本分類方法,其特征在于,互信息算法包括:
提出基于詞項的調(diào)節(jié)因子,大小等于該類別文檔中存在這個詞頻的文本書與該類別文檔中總文本數(shù)大小的比值,其計算公式如下:
D(ti,cj)是指在類別結果為cj的文檔中存在詞項ti的文本頻數(shù),d(cj)是指類別結果為cj的文檔中的總文本頻數(shù);
調(diào)節(jié)因子D(ti,cj)的大小由在類別文檔中存在詞項ti的文本頻數(shù)以及在這個類別文檔中不存在詞項ti的文本頻數(shù)所決定,調(diào)節(jié)因子D(ti,cj)數(shù)值越大,代表在類別結果為cj的文檔中出現(xiàn)存在詞項ti的文本比例越高,反之越小,這樣的詞項在該類別文檔中更可能是低頻詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天科工網(wǎng)絡信息發(fā)展有限公司,未經(jīng)航天科工網(wǎng)絡信息發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011544023.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





