[發明專利]一種層次型文本分類方法及系統有效
| 申請號: | 201910767580.X | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110543563B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 劉波;李洋洋 | 申請(專利權)人: | 暨南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/289;G06V30/19;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510632 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 層次 文本 分類 方法 系統 | ||
本發明公開了一種層次型文本分類方法及系統,方法包括步驟:根據文本類標簽的樹型層次結構,給文本類標簽層次樹中的類標簽節點編號;在每個非葉節點上訓練分類器,分類器輸出初步預測類標簽概率向量,向量元素代表該文本被分為每一個類標簽的概率;然后利用文本類標簽之間的聯系,訓練調整概率矩陣,調整概率矩陣中元素是類標簽被調整為各個類標簽的概率;通過訓練得到的調整概率矩陣對文本類標簽進行全局統籌修正,構建全局層次型文本分類模型。本發明打通了類標簽層與層之間的聯系,可以使文本類別預測錯誤率在每一層都有所減少,提高層次型文本分類的準確率。
技術領域
本發明涉及計算機自然語言處理與文本分類研究領域,特別涉及一種層次型文本分類方法及系統。
背景技術
隨著互聯網技術的飛速發展,每天都有數以億計的文本數據產生。如何管理這些文本數據已經變成了一個非常棘手的問題,文本分類就是解決這一問題最好的方式之一。文本分類方法的研究由來已久,對于類標簽數目比較少、每個文本有一個類標簽的情況,都取得了不錯的效果。但是隨著文本數目的增多,文本的類標簽數目也在飛速的增長,并且每個文本可能同時被分為不同粒度的類別。在這種情況下直接分類算法就很難滿足用戶的需求。在文本數據量不斷增大以及類標簽數目越來越多的情況下,分層分類相對于直接分類可以更準確地對文本進行分類。
層次型文本分類方法根據文本類標簽本身具有的層次結構構建分類模型。隨著文本數目的增多,文本的類標簽數目也在飛速的增長,并且每個文本可能同時被分為不同粒度級別的類別。文本類標簽的層次結構可以分為兩類:樹型結構和圖型結構。樹型結構綜合考慮數據類標簽之間的聯系,依據類標簽內部的聯系建立樹層次結構,樹中的每一節點(除了根節點)僅有一個父節點,根節點無父節點。文本類標簽的層次型結構示例如圖1所示,除了根節點(Root),其它各層上的節點均為類標簽。目前,層次型文本分類方法已經被運用于很多領域,例如,新聞分類,學術論文分類等。全局層次型文本分類模型可以快速準確地對文本進行分類,具有很好的產業前景。
近年來在層次型文本分類方面已經有很多研究。Zhang L等人在文獻《Hierarchical multi-label classification using fully associative ensemblelearning》、《Fully associative ensemble learning for hierarchical multi-labelclassification》中提出通過嵌入類層次結構中的結構信息,提高了層次型分類問題的性能。Khan和Baig在文獻《Ant colony optimization based hierarchical multi-labelclassification algorithm》中提出了一種基于蟻群優化的層次型分類算法。Salakhutdino等人在文獻《Learning with hierarchical-deep models》中提出了一種用集成學習的方法對圖像進行全局的層次分類。Kowsari等人在文獻《Hdltex:Hierarchicaldeep learning for text classification》中提出了一種分層深度學習文本分類的框架,對類標簽具有層次結構的文本進行分層分類。還有許多研究中利用了分層分類的思想,但分層分類過程沒有考慮類標簽本身的層次關系。
但是,層次型文本分類目前存在下述缺陷:
(1)現有技術存在分類錯誤疊加問題,即如果文本在上一層次分類錯誤,就不能在下一層被分為正確的類別。
(2)在類標簽樹型結構中,各層節點類標簽可能不僅僅與父親節點有關系,還可能與兄弟節點有關,現有技術沒有打通各層次類標簽節點之間的聯系,導致最終各層次的分類準確率不高。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供一種層次型文本分類方法及系統,其可解決層次型文本分類問題中存在的錯誤疊加問題,根據文本類標簽的樹型結構,在分類模型構建中充分考慮節點與兄弟節點和父節點的聯系,以及上下層之間分類結果的影響,得到準確率更高的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于暨南大學,未經暨南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910767580.X/2.html,轉載請聲明來源鉆瓜專利網。





