[發明專利]一種文本分類方法、裝置及存儲介質有效
| 申請號: | 201810200768.1 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108416032B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 宋彥 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N7/00 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 存儲 介質 | ||
1.一種文本分類方法,其特征在于,包括:
確定主題模型,及確定文本分類模型,所述主題模型包括各個詞語的主題分布信息;
根據所述各個詞語的主題分布信息,確定待處理文本中的關鍵詞在所述主題模型中的第一主題分布信息;
通過文本分類模型獲取所述待處理文本的特征信息;
及所述文本分類模型根據所述第一主題分布信息與所述特征信息的計算結果,確定所述待處理文本的類別;
所述根據所述各個詞語的主題分布信息,確定待處理文本中的關鍵詞在所述主題模型中的第一主題分布信息,具體包括:
將所述待處理文本轉化為第二語法格式的待處理文本,所述第二語法格式是所述主題模型中各個詞語的語法格式;
獲取所述第二語法格式的待處理文本的第一特征信息;
根據所述第一特征信息及第一分布矩陣確定所述第一主題分布信息,所述第一分布矩陣用于指示所述主題模型中各個詞語的主題分布信息。
2.如權利要求1所述的方法,其特征在于,所述確定文本分類模型,具體包括:
確定所述文本分類模型,及確定所述文本分類模型與主題模型之間的連接結構,所述連接結構用于根據所述各個詞語的主題分布信息確定所述第一主題分布信息,并輸出給所述文本分類模型;
確定第二訓練樣本,所述第二訓練樣本中包括訓練文本,及所述訓練文本中各個詞語所屬的主題類型;
通過所述文本分類模型根據所述第二訓練樣本中各個訓練文本對應的第一主題分布信息,分別確定所述各個訓練樣本的類別,得到初始分類結果;
根據所述初始分類結果計算與所述文本分類模型相關的損失函數值;
根據所述損失函數值調整所述文本分類模型中的第二固定參數值。
3.如權利要求2所述的方法,其特征在于,如果對所述第二固定參數值的調整滿足如下任一停止條件,則停止對所述第二固定參數值的調整:
對所述第二固定參數值的調整次數達到預置的次數,當前調整的第二固定參數值與上一次調整的第二固定參數值的差值小于一閾值。
4.如權利要求1所述的方法,其特征在于,所述根據所述第一特征信息及第一分布矩陣確定所述第一主題分布信息,具體包括:
對所述第一分布矩陣進行歸一化處理;
將所述第一特征信息與所述歸一化處理后的第一分布矩陣的乘積作為所述第一主題分布信息。
5.如權利要求1至3任一項所述的方法,其特征在于,所述特征信息為所述待處理文本的淺層表達特征信息,則所述文本分類模型根據所述第一主題分布信息與所述特征信息的計算結果,確定所述待處理文本的類別,具體包括:
所述文本分類模型將所述淺層表達特征信息與所述第一主題分布信息進行相加,得到相加后特征信息;
所述文本分類模型根據所述相加后特征信息獲取所述待處理文本的最終特征信息;
所述文本分類模型根據所述最終特征信息進行分類操作,得到所述待處理文本的類別。
6.如權利要求5所述的方法,其特征在于,所述淺層表達特征信息為所述待處理文本的全局特征信息,或局部特征信息;
所述最終特征信息為所述待處理文本中關鍵的局部特征信息。
7.如權利要求1至3任一項所述的方法,其特征在于,所述特征信息為所述待處理文本的最終特征信息,則所述文本分類模型根據所述第一主題分布信息與所述特征信息的計算結果,確定所述待處理文本的類別,具體包括:
所述文本分類模型將所述最終特征信息與所述第一主題分布信息進行相加,得到相加后特征信息;
所述文本分類模型根據所述相加后特征信息進行分類操作,得到所述待處理文本的類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810200768.1/1.html,轉載請聲明來源鉆瓜專利網。





