[發明專利]文本分類方法、裝置、存儲介質及計算機設備有效
| 申請號: | 202010328286.1 | 申請日: | 2020-04-23 |
| 公開(公告)號: | CN111581377B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 周玥;胡盼盼;趙茜;佟博;黃仲強;黃聿;張超;張堅琳 | 申請(專利權)人: | 廣東博智林機器人有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06N3/0455;G06N3/044 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 劉夢晴 |
| 地址: | 528311 廣東省佛山市順德區北滘鎮順江*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 存儲 介質 計算機 設備 | ||
1.一種文本分類方法,其特征在于,所述文本為中文文本,所述方法包括:
獲得文本;
對所述文本進行編碼得到五筆字形編碼;
根據所述五筆字形編碼,結合XLNet模型確定所述文本中各子文本之間的特征信息,所述特征信息用于描述各子文本之間的上下文信息,所述XLNet模型已學習得到多個樣本子文本的樣本字形編碼,以及所述多個樣本子文本之間的特征信息的對應關系;
根據所述各子文本之間的特征信息,結合第一神經網絡模型對所述文本進行分類;
所述根據所述各子文本之間的特征信息,結合第一神經網絡模型對所述文本進行分類,包括:
根據所述各子文本之間的特征信息,結合第一神經網絡模型確定所述文本對應的多個候選分類,以及與各所述候選分類對應的概率值;所述第一神經網絡模型已學習得到各樣本的特征信息,與對應的樣本候選分類以及對應的樣本概率值之間的對應關系;
確定多個所述概率值中值最大的概率值對應的候選分類,作為對所述文本進行分類的結果;
所述根據所述五筆字形編碼,結合XLNet模型確定所述文本中各子文本之間的特征信息,包括:
將所述五筆字形編碼作為所述XLNet模型的輸入;
獲取所述XLNet模型的輸出的與所述五筆字形編碼對應的雙流自注意力機制的編碼序列;
將所述雙流自注意力機制的編碼序列作為所述各子文本之間的特征信息;
所述根據所述各子文本之間的特征信息,結合第一神經網絡模型確定所述文本對應的多個候選分類,以及與各所述候選分類對應的概率值,包括:
將所述雙流自注意力機制的編碼序列轉換為特征向量;
將所述特征向量輸入所述第一神經網絡模型的全連接層;
根據所述全連接層的輸出,結合softmax算法確定所述文本對應的多個候選分類,以及與各所述候選分類對應的概率值。
2.如權利要求1所述的文本分類方法,其特征在于,所述子文本,為所述文本中的文字、語句、詞組中的一種或者多種。
3.如權利要求1所述的文本分類方法,其特征在于,所述對所述文本進行編碼得到五筆字形編碼,包括:
根據五筆字根表,確定所述文本對應的多個字母編碼;
根據各所述字母編碼,確定所述五筆字形編碼。
4.如權利要求3所述的文本分類方法,其特征在于,所述根據各所述字母編碼,確定所述五筆字形編碼,包括:
確定各所述字母編碼對應的獨熱編碼;
根據各所述獨熱編碼,結合第二神經網絡模型確定對應的向量;其中,所述第二神經網絡模型已學習得到樣本的獨熱編碼,以及與所述樣本的獨熱編碼對應的向量之間的對應關系;
根據各所述獨熱編碼對應的向量確定所述五筆字形編碼。
5.如權利要求4所述的文本分類方法,其特征在于,所述確定各所述字母編碼對應的獨熱編碼,包括:
根據預設數值表,確定各所述字母編碼對應的獨熱編碼。
6.如權利要求4所述的文本分類方法,其特征在于,所述第二神經網絡模型為循環神經網絡,所述根據各所述獨熱編碼,結合第二神經網絡模型確定對應的向量,包括:
將各所述獨熱編碼輸入至所述循環神經網絡;
根據所述循環神經網絡的輸出得到目標維度的向量,從而確定所述對應的向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東博智林機器人有限公司,未經廣東博智林機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010328286.1/1.html,轉載請聲明來源鉆瓜專利網。





