[發(fā)明專利]一種基于機器學習的文本分類方法在審
| 申請?zhí)枺?/td> | 202011544023.0 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN113157912A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設計)人: | 劉建雄;陳敏 | 申請(專利權)人: | 航天科工網絡信息發(fā)展有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06K9/62;G06N20/10 |
| 代理公司: | 中國兵器工業(yè)集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 文本 分類 方法 | ||
本發(fā)明涉及一種基于機器學習的文本分類方法,其中,包括:文本數據預處理、文本表示、特征降維、分類模型訓練以及分類性能評估;文本數據預處理具體包括:按照順序需要對文本數據進行操作:文本標記、文本分詞處理以及去除停用詞處理;文本表示包括:經過文本預處理之后,將文本表示成一種形式化數學描述,使之成為計算機能夠識別的語言;卡方統計算法以及互信息算法,進行特征降維。本發(fā)明在CHI中引入詞頻因子,MI中引入調節(jié)因子,形成新的特征選取算法CHMI,理論效果優(yōu)于卡方統計和互信息算法,實現了快速、準確獲取到目標數據。
技術領域
本發(fā)明涉及文本分類技術,特別涉及一種基于機器學習的文本分類方法。
背景技術
隨著互聯網和社交媒體的發(fā)展,目前網絡上已經有海里的文本信息,包括維基百科詞條、學術文章、新聞報道、以及各種售后服務評論,而這些文本信息中蘊含了大量有價值的信息,
在海量的電子文本數據之中想要實現快速、準確獲取到目標數據,對文本文檔實現合理分類就變成了這個過程當中一個非常直接和現實的迫切問題。
20世紀80年代以前,受限于技術的發(fā)展,處理文本分類這類問題時,通行的做法是通過專家制定規(guī)則、人為地選擇、制定分類準則從而完成分類器的指導和搭建工作。比較著名的例子是Carnegine Group為路透社開發(fā)的CONSTRUE系統,該系統首先由專業(yè)人員設計編寫分類規(guī)則并指導系統完成分類鞏固走,主要用于對新聞稿件實現自動分類;同時期還有美國白宮采用的一種郵件分類系統,主要用于對電子郵件的自動分揀和處理工作。這種分類方法在當時取得了比較好的效果,并對文本分類技術起到了積極作用和產生了深遠影響。
通過知識工程構建起來的分類器有諸多缺陷:首先需要人類專家根據對待分類文檔進行特征分析、總結得到對象特點的基礎上,再人為設計提出并選定適當規(guī)則,并且針對一個領域所建立的文本分類器在應對其他知識領域的分類情況時,往往回出現分類效果不佳等問題,主要原因在于通過知識工程構建文本分類方法的過程中存在對專家能力過度依賴。由于人類專家研究領域有限,所建立的文本分類器的有效領域也是有限的,在其他領域使用會出現可復現性差或遷移能力差等相關問題。此外,在涉及到數據集規(guī)模較大較復雜的文本分類情況時,為應對比較大的工作量又需要大量的專家參與其中,故又顯示出方法不夠聰明并且費時費力的缺陷。
發(fā)明內容
本發(fā)明通過引入一種基于機器學習的文本分類方法,以此進行更高效的文本分類。
本發(fā)明一種基于機器學習的文本分類方法,其中,包括:文本數據預處理、文本表示、特征降維、分類模型訓練以及分類性能評估;文本數據預處理具體包括:按照順序需要對文本數據進行操作:文本標記、文本分詞處理以及去除停用詞處理;文本表示包括:經過文本預處理之后,將文本表示成一種形式化數學描述,使之成為計算機能夠識別的語言;卡方統計算法以及互信息算法,進行特征降維;分類模型訓練包括:采用SVM來進行分類,定義訓練數據集中的兩個類別中幾何距離最近的兩組數據為支持向量,超平面H就是與這兩組分屬于不同類別的數據連線的垂直平分線,而分類線H1與H2分別是指經過這兩個類別中支持向量,首先尋找支持向量,通過訓練集中不同類數據的幾何距離來剔除大量冗余數據,根據保留的少量數據即支持向量,找到超平面H進行類別劃分。
根據本發(fā)明所述的基于機器學習的文本分類方法的一實施例,其中,文本標記的處理包括:文本中的表情符、圖片或者鏈接非中文字符無法對文本分類提高直接且有用的幫助,進行刪除。
根據本發(fā)明所述的基于機器學習的文本分類方法的一實施例,其中,去除停用詞包括:經過分詞處理之后的文本數據仍然還存在許多功能詞和停用詞,對停用詞和功能詞進行額外刪除。
根據本發(fā)明所述的基于機器學習的文本分類方法的一實施例,其中,文本分詞的處理包括:首先識別出中文語句中存在的標點符號或是某些漢語文字,并在這些出現位置上通過添加空格符實現切分效果并得到切分后的詞條內容,相鄰字通過統計學方法得到分布信息,如果得到統計值很高達到一定閾值時,就判定這組相鄰的字就可能是一個詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天科工網絡信息發(fā)展有限公司,未經航天科工網絡信息發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011544023.0/2.html,轉載請聲明來源鉆瓜專利網。





