[發明專利]文本分類方法、設備及存儲介質在審
| 申請號: | 201911380054.4 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111061881A | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 夏鑫;戴海宏 | 申請(專利權)人: | 浪潮通用軟件有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 北京君慧知識產權代理事務所(普通合伙) 11716 | 代理人: | 吳紹群 |
| 地址: | 250101 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 設備 存儲 介質 | ||
1.一種文本分類方法,其特征在于,包括:
獲取文本數據;
將所述文本數據輸入根據語義標簽和與所述語義標簽對應的訓練語句預先訓練的文本分類模型,得到分類結果;
其中,所述文本分類模型包括:嵌入層,用于將所述語義標簽和所述訓練語句轉換為N階張量;特征提取層,用于對所述N階張量進行特征提取;合并層,用于對所述特征提取層的輸出結果進行合并;全連接層,用于對所述合并層的輸出結果進行分類。
2.根據權利要求1所述的文本分類方法,其特征在于,所述特征提取層包括參數差異化的多個特征提取單元;
所述合并層用于對所述多個特征提取單元分別的輸出結果進行合并。
3.根據權利要求2所述的文本分類方法,其特征在于,所述特征提取單元包括卷積層和池化層。
4.根據權利要求2所述的文本分類方法,其特征在于,在所述合并層的處理步驟包括:
在所述合并層對所述多個特征提取單元分別的輸出結果進行拼接,得到拼接結果;
將所述拼接結果進行平整化處理。
5.根據權利要求1所述的文本分類方法,其特征在于,所述分類結果包括文本數據與多個語義標簽分別匹配的概率值;所述方法還包括:
確定所述概率值中的最大值對應的語義標簽為所述文本數據對應的語義標簽。
6.根據權利要求1所述的文本分類方法,其特征在于,得到所述文本分類模型的訓練步驟包括:
獲取訓練數據集,其中,所述訓練數據集包括所述語義標簽和與所述語義標簽對應的訓練語句;
將所述語義標簽和所述訓練語句依次經過初始神經網絡模型的嵌入層、特征提取層、合并層、全連接層,得到預測分類結果,其中,所述預測分類結果包括訓練語句分別與多個所述語義標簽相匹配的預測概率;
基于損失函數計算所述預測分類結果和所述訓練數據集中與所述訓練語句匹配的語義標簽的損失值;
響應于所述損失值在預設數值范圍內,得到的神經網絡模型為所述文本分類模型。
7.根據權利要求6所述的文本分類方法,其特征在于,所述方法還包括:
將所述訓練數據集中的所述訓練語句進行隨機亂序處理;
將亂序處理后的所述訓練語句分批次執行所述訓練步驟。
8.根據權利要求6所述的文本分類方法,其特征在于,所述獲取訓練數據集,包括:
對樣本文本進行詞匯切分,得到多個詞匯;
去除所述詞匯中的停用詞,得到樣本詞匯;
獲取所述樣本詞匯的同義詞;
將所述同義詞和所述樣本文本中的剩余樣本詞匯進行組合,得到樣本語句;
對所述樣本語句和所述樣本文本中的語句進行分類,得到訓練數據集,其中,所述訓練數據集包括語義標簽和與所述語義標簽對應的訓練語句。
9.一種電子設備,其特征在于,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-8中任一項所述的文本分類方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-8中任一項所述的文本分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮通用軟件有限公司,未經浪潮通用軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911380054.4/1.html,轉載請聲明來源鉆瓜專利網。





