[發明專利]一種文本分類方法及系統有效
| 申請號: | 201911010301.1 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110968692B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 張強;鄧君華;趙鯨朋;柴博;馬應龍;宋博川;賈全燁 | 申請(專利權)人: | 全球能源互聯網研究院有限公司;國網江蘇省電力有限公司;國網江蘇省電力有限公司電力科學研究院;國家電網有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F18/2415;G06F40/30;G06N3/044;G06N3/08 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 張琳琳 |
| 地址: | 102211 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 系統 | ||
本發明公開了一種文本分類方法及系統,方法包括:獲取待分類文本的父標簽并轉化為父標簽詞索引向量;將父標簽詞索引向量與文本詞索引向量進行父標簽嵌入操作得到文本詞索引表征,然后進行轉化生成待分類文本的語義向量;利用神經元有序的循環神經網絡學習語義向量的層次結構,對層次結構的各層參數進行訓練輸出文本表征;利用多層感知器對文本表征進行非線性操作,獲取待分類文本各層標簽對應的概率分布;根據文本最后一層標簽的概率分布獲取文本分類結果。本發明將神經元有序的循環神經網絡和多層感知器的組合模型處理大量標簽的文本分類任務,涉及的參數少收斂速度快,通過對文本進行逐層的方式,與現有的平面分類器相比,大大提高了分類性能。
技術領域
本發明涉及機器學習領域,具體涉及一種文本分類方法及系統。
背景技術
文本分類主要采用基于知識工程的人工分類方法,該方法不僅費時費力,而且分類精度不高,此外,人工主觀干預對分類精度影響很大。隨后學者們提出了一系列基于機器學習的文本分類方法,如樸素貝葉斯、決策樹、K近鄰、支持向量機等。基于機器學習的文本分類方法在一定程度上優于專家人工分類的結果,而且文本分類方法在學習過程中不需要或很少需要人工知識的干預,因此可以應用到許多領域。
隨著信息技術的發展,類別標簽的劃分粒度越來越細,標簽的規模越來越大,標簽的結構也越來越復雜。以一篇新聞文章為例,它可能涉及“體育”,“籃球”和“NBA”三大類別。可以發現,這三個類別從左到右存在一個大小包含關系即類別標簽具有層次結構,而且在層次結構中,葉子節點的規模往往很大。由于語料庫規模的不斷擴大以及標簽的粒度不斷細化,目前的文本分類方法的分類難度也越來越大。Kowsari等人提出了一種層次化深度學習的文本分類方法(HDLTex),該方法以自頂向下的方式將深層神經網絡連接起來,在每個父標簽節點上建立一個單獨的神經網絡(CNN或RNN)來對其子標簽節點進行分類,該方法在層次分類法中取得了最好的表現,但存在參數爆炸,訓練時間長的弊端。Koustuv等人提出了基于深度學習的全局的層次化文本分類算法HATC,該模型基于注意力機制變體的動態文本表示,依次預測下一個級別的類別標簽,解決了參數爆炸問題,但其精度略低于HDLTex模型。
發明內容
因此,本發明提供文本分類方法及系統,克服了現有技術中的文本分類算法訓練時間長,精度低的缺陷。
第一方面,本發明實施例提供一種文本分類方法,包括:獲取待分類文本的父標簽,將所述父標簽轉化為父標簽詞索引向量;將父標簽詞索引向量與文本詞索引向量進行父標簽嵌入操作,獲取文本詞索引表征;將所述文本詞索引表征進行轉化生成待分類文本的語義向量;利用神經元有序的循環神經網絡學習所述語義向量的層次結構,并對層次結構的各層參數進行訓練,輸出文本表征;利用至少一層多層感知器對所述文本表征進行非線性操作,獲取待分類文本各層標簽對應的概率分布;根據文本最后一層標簽的概率分布,獲取文本分類結果
在一實施例中,所述將父標簽詞索引向量與文本詞索引向量進行父標簽嵌入操作,獲取文本詞索引表征的步驟,通過以下公式進行:
其中,zi,j表示在第j級標簽的第i個文本的文本詞索引表征,wi表示第i個文本詞索引向量,表示向量拼接操作,ci,j-1表示第i個文本的第j-1級標簽詞索引向量。
在一實施例中,所述利用神經元有序的循環神經網絡學習所述語義向量的層次結構,并對層次結構的各層參數進行訓練的步驟,包括:利用神經元有序的循環神經網絡根據待分類文本中的語法信息,學習待分類文本語義向量的層次結構;將前一層級標簽訓練的網絡的權重參數遷移到當前層級標簽作為其初始化參數進行訓練,對層次結構的各層參數進行訓練。
在一實施例中,輸出的文本表征通過以下公式表示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全球能源互聯網研究院有限公司;國網江蘇省電力有限公司;國網江蘇省電力有限公司電力科學研究院;國家電網有限公司,未經全球能源互聯網研究院有限公司;國網江蘇省電力有限公司;國網江蘇省電力有限公司電力科學研究院;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911010301.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光纖激光器用光閘的透鏡冷卻裝置
- 下一篇:一種葡萄枝夾





