[發明專利]一種多標簽文本分類方法及系統有效
| 申請號: | 202110272724.1 | 申請日: | 2021-03-13 |
| 公開(公告)號: | CN113220874B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 解福;鄭興芳;徐傳杰 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06F40/289;G06N3/0464;G06N3/0442;G06N3/0455 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 閆圣娟 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 文本 分類 方法 系統 | ||
本公開提供了一種多標簽文本分類方法及系統,所述方案結合了神經卷積網絡和自注意力機制作為編碼器,并且設計了一個新穎解碼器來解碼并生成標簽序列,所提出方法不僅充分考慮了源文本中可解釋的精細信息,而且還有效地利用了這些信息來生成標簽序列。在對標簽進行預測的時候可以有效的將全局信息與局部信息結合起來,提高標簽預測的準確度,進而實現了多標簽文本的精確分類。
技術領域
本公開屬于計算機處理技術領域,尤其涉及一種多標簽文本分類方法及系?統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在?先技術。
隨著大數據時代的到來,盡管我們時刻警惕私人信息是否泄露,但是由此?帶來了生活的便利。廣告推薦、搜索優化、文本總結等時時刻刻在方便你我。?而在自然語言處理中,多標簽文本分類是一項非常復雜的工作。因為一些標簽?經常會出現高度的關聯性,致使分類更加艱難。比較典型的例子就是當我們看?到一篇財經新聞的時候,你可能會不斷的會看到“基金”、“股票”、“債券”等?看起來相似的術語,這常常讓人感到難以分辨。
在此基礎上,人們嘗試了許多可行的辦法,并且取得了一定的成果。但是?發明人發現,在一些較早的方法里,他們往往存在一些缺點:可支持的數據集?較小、速度慢、算法復雜等等。而隨著現代計算機技術的不斷發展,神經網絡?的出現為我們利用卷積神經網絡模型解決問題提供了更加新穎的方式。但是這?一些方法沒能完整的考慮到我們從源文件來獲取標簽依存關系和解釋語義,并?且對于數量級較小的數據集不夠友好。
發明內容
本公開為了解決上述問題,提供了一種多標簽文本分類方法及系統,所述?方案,通過卷積神經網絡和自注意力機制獲取文本序列的局部和全局特征,有?效提高了文本序列標簽的預測精度,進而提高了多標簽文本分類的準確性。
根據本公開實施例的第一個方面,提供了一種多標簽文本分類方法,包括:
根據文本內容預先確定標簽空間;
對待分類的文本進行分詞,獲得文本序列;
在所述文本序列中嵌入位置矢量,并將其輸入到訓練好的多標簽文本分類?模型中,輸出所述文本序列的標簽預測;
其中,所述多標簽文本分類模型包括編碼器和解碼器,所述文本序列通過?編碼器中的卷積塊和自注意力機制分別獲取文本序列的局部信息和全局信息,?組合后的局部信息和全局信息通過解碼器進行解碼獲得標簽預測結果。
進一步的,所述編碼器中的卷積塊采用一維卷積和非線性激活函數,其中,?所述一維卷積的卷積核寬度與文本序列的單詞數量相同,同時為了能夠得到更?高級別的局部信息,選擇使用堆疊網絡,并將剩余連接添加到塊輸出中;所述?非線性激活函數采用門控線性單元,通過所述門控線性單元實現卷積輸出的門?控機制。
進一步的,考慮到標簽之間的相關性,將前一時刻所預測的標簽結果使用?到對當前標簽的預測中去,所述解碼器采用長短時記憶神經網絡作為基本循環?單元對序列進行解碼從而獲得最終的預測標簽。
根據本公開實施例的第二個方面,提供了一種多標簽文本分類系統,包括:
標簽空間獲取單元,其用于根據文本內容預先確定標簽空間;
文本序列獲取單元,其用于對待分類的文本進行分詞,獲得文本序列;
標簽預測單元,其用于在所述文本序列中嵌入位置矢量,并將其輸入到訓?練好的多標簽文本分類模型中,輸出所述文本序列的標簽預測;
其中,所述多標簽文本分類模型包括編碼器和解碼器,所述文本序列通過?編碼器中的卷積塊和自注意力機制分別獲取文本序列的局部信息和全局信息,?組合后的局部信息和全局信息通過解碼器進行解碼獲得標簽預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110272724.1/2.html,轉載請聲明來源鉆瓜專利網。





