[發明專利]文本分類方法、文本分類裝置及計算機可讀存儲介質有效
| 申請號: | 201810570387.2 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN110209806B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 王煦祥 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/2411;G06F40/205;G06F18/211 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;賈允 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種文本分類方法,其特征在于,包括:
對待分類文本進行文本表示,以獲得所述待分類文本的句子集合,其中,所述句子集合由所述待分類文本中各句子的詞語集合構成,所述詞語集合由相應句子所包含的詞語的詞向量構成;
基于雙向LSTM分別獲取各個詞語集合中各詞語的特征向量,雙向LSTM包含前向和后向前向按照從頭到尾的順序讀取句子中的詞語,后向按照從尾到頭的順序讀取句子中的詞語;
基于所述各詞語的特征向量與固定的詞語信息的高度化表示之間的關系,分別獲取各個詞語集合的特征向量,所述固定的詞語信息的高度化表示,通過隨機初始化并且跟隨訓練過程學習得來;
基于所述雙向LSTM和所述各個詞語集合的特征向量,分別獲取所述句子集合中各句子的特征向量,所述雙向LSTM通過兩個方向獲取句子的語義信息;
基于所述各句子的特征向量與固定的句子信息的高度化表示之間的關系,獲取所述句子集合的特征向量;所述固定的句子信息的高度化表示,通過隨機初始化并且跟隨訓練過程學習得來;
將所述句子集合的特征向量輸入文本分類模型,得到所述待分類文本的分類結果,其中,所述文本分類模型基于文本樣本和文本分類算法訓練得到。
2.根據權利要求1所述的文本分類方法,其特征在于,所述基于所述各詞語的特征向量與固定的詞語信息的高度化表示之間的關系,分別獲取各個詞語集合的特征向量,包括:
針對所述待分類文本的每個詞語集合,將所述詞語集合中各詞語的特征向量分別輸入多層感知器,得到所述詞語集合中各詞語的第一向量;
分別計算所述詞語集合中各詞語的第一向量與第二向量的相似度,并將計算得到的相似度歸一化后作為相應詞語的權重;
基于所述詞語集合中各詞語的特征向量和權重,對所述詞語集合中各詞語的特征向量進行加權求和,得到所述詞語集合的特征向量;
其中,所述第二向量為所述固定的詞語信息的高度化表示,其隨機初始化并跟隨訓練過程學習得到。
3.根據權利要求1或2所述的文本分類方法,其特征在于,所述基于所述各句子的特征向量與固定的句子信息的高度化表示之間的關系,獲取所述句子集合的特征向量,包括:
將所述句子集合中各句子的特征向量分別輸入多層感知器,得到各句子的第三向量;
分別計算所述各句子的第三向量與第四向量的相似度,并將計算得到的相似度歸一化后作為相應句子的權重;
基于所述各句子的特征向量和權重,對所述句子集合中各句子的特征向量進行加權求和,得到所述句子集合的特征向量;
其中,所述第四向量為所述固定的句子信息的高度化表示,其隨機初始化并跟隨訓練過程學習得到。
4.一種文本分類裝置,其特征在于,包括:
文本表示單元,用于對待分類文本進行文本表示,以獲得所述待分類文本的句子集合,其中,所述句子集合由所述待分類文本中各句子的詞語集合構成,所述詞語集合由相應句子所包含的詞語的詞向量構成;
特征提取單元,用于執行下述操作:
基于雙向LSTM分別獲取各個詞語集合中各詞語的特征向量,雙向LSTM包含前向和后向前向按照從頭到尾的順序讀取句子中的詞語,后向按照從尾到頭的順序讀取句子中的詞語;
基于所述各詞語的特征向量與固定的詞語信息的高度化表示之間的關系,分別獲取各個詞語集合的特征向量,所述固定的詞語信息的高度化表示,通過隨機初始化并且跟隨訓練過程學習得來;
基于所述雙向LSTM和所述各個詞語集合的特征向量,分別獲取所述句子集合中各句子的特征向量,所述雙向LSTM通過兩個方向獲取句子的語義信息;
基于所述各句子的特征向量與固定的句子信息的高度化表示之間的關系,獲取所述句子集合的特征向量;所述固定的句子信息的高度化表示,通過隨機初始化并且跟隨訓練過程學習得來;
分類單元,用于將所述句子集合的特征向量輸入文本分類模型,得到所述待分類文本的分類結果,其中,所述文本分類模型基于文本樣本和文本分類算法訓練得到。
5.一種文本分類裝置,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至3任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810570387.2/1.html,轉載請聲明來源鉆瓜專利網。





