[發明專利]一種文本分類方法、裝置、設備及存儲介質在審
| 申請號: | 202110005508.0 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112667782A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 王碩;周星杰;楊康;徐成國 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 裴素英 |
| 地址: | 200030 上海市徐匯區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 設備 存儲 介質 | ||
本申請提供一種文本分類方法、裝置、設備及存儲介質,涉及自然語言處理技術領域。該方法包括:將待分類文本中的至少一個詞語分別轉換成至少一個詞向量;將各詞向量輸入預先訓練得到的文本分類模型中的短語注意力子模型,得到該待分類文本對應的多個短語向量;將多個短語向量以及該待分類文本對應的層級標簽結構中的各候選類別輸入該文本分類模型中的標簽注意力子模型,得到該待分類文本的多個特征向量;基于該待分類文本的各特征向量,得到該待分類文本的分類結果,該分類結果用于表征所述待分類文本的類別。應用本申請實施例,可以提高對待分類文本進行分類的精度。
技術領域
本申請涉及自然語言處理技術領域,具體而言,涉及一種文本分類方法、裝置、設備及存儲介質。
背景技術
文本分類問題是自然語言處理領域的一個重要研究方向,在情感分析、信息檢索領域均有相關應用。層次多標簽文本分類方法是解決文本分類問題的一種重要的方法,近年來,備受學者關注。
目前,在層次多標簽文本分類方法中,是通過假設標簽間是相互獨立的,然后將其轉化為二分類問題,構建多個二分類器進行層次多標簽文本分類。
然而,層次多標簽文本分類任務中的標簽之間存在復雜的依賴關系,采用現有技術的方式對層次多標簽文本進行分類會使文本分類精度降低。
發明內容
本申請的目的在于,針對上述現有技術中的不足,提供一種文本分類方法、裝置、設備及存儲介質,可以提高對文本進行分類的精度。
為實現上述目的,本申請實施例采用的技術方案如下:
第一方面,本申請實施例提供了一種文本分類方法,所述方法包括:
將待分類文本中的至少一個詞語分別轉換成至少一個詞向量;
將各所述詞向量輸入預先訓練得到的文本分類模型中的短語注意力子模型,得到所述待分類文本對應的多個短語向量;
將所述多個短語向量以及所述待分類文本對應的層級標簽結構中的各候選類別輸入所述文本分類模型中的標簽注意力子模型,得到所述待分類文本的多個特征向量;
基于所述待分類文本的各特征向量,得到所述待分類文本的分類結果,所述分類結果用于表征所述待分類文本的類別。
可選地,所述標簽注意力子模型包括:圖卷積層、標簽注意力層;
所述將所述多個短語向量以及所述待分類文本對應的層級標簽結構中的各候選類別輸入所述文本分類模型中的標簽注意力子模型,得到所述待分類文本的多個特征向量,包括:
將所述多個短語向量以及所述待分類文本對應的層級標簽結構中的各候選類別向量輸入所述標簽注意力層,由所述標簽注意層根據所述多個短語向量以及所述圖卷積層輸出的各候選類別向量,得到所述待分類文本的多個特征向量。
可選地,所述根據所述多個短語向量以及所述圖卷積層輸出的各候選類別向量,得到所述待分類文本的多個特征向量,包括:
基于各所述候選類別向量以及各所述短語向量,確定各所述候選類別相對于各所述短語的權重;
根據各所述候選類別相對于各所述短語的權重以及各所述短語向量,得到所述待分類文本的多個特征向量。
可選地,所述將所述多個短語向量以及所述待分類文本對應的層級標簽結構中的各候選類別向量輸入所述標簽注意力層,由所述標簽注意層根據所述多個短語向量以及所述圖卷積層輸出的各候選類別向量,得到所述待分類文本的多個特征向量之前,所述方法還包括:
由所述圖卷積層對所述層級標簽結構中的各候選類別進行節點聚合處理,得到各候選類別向量。
可選地,所述短語注意力子模型包括:卷積層、雙向長短期記憶層、以及短語注意力層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110005508.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:人機交互牽引裝置及其控制方法
- 下一篇:一種區塊鏈基于偽隨機公鑰的加密方法





