[發明專利]一種文本分類方法有效
| 申請號: | 201810599385.6 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108829818B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 趙莉;姜松浩;張程;趙曉芳;段東圣;杜翠蘭 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 | ||
1.一種構建文本分類模型的方法,包括以下步驟:
步驟1:根據文本信息的字、詞語和句子的結構特征構建訓練樣本集,其中,所述訓練樣本集中的每一條樣本數據對應一條文本信息關于詞語的特征矩陣A、關于字的特征矩陣B和該條文本信息對應的類別向量O,O的維度與類別數量相同;
步驟2:以所述訓練樣本集中關于詞語的特征矩陣A和關于字的特征矩陣B為輸入,以對應的類別向量O為輸出,訓練深度學習模型,以獲得文本分類模型;所述深度學習模型包括第一層雙向循環神經網絡、第二層雙向循環神經網絡和分類器,所述第一層雙向循環神經網絡用作詞序列編碼器和字序列編碼器,以獲得詞的向量表示和字的向量表示,進而獲得文本信息的句子向量si,所述第二層雙向循環神經網絡用作句子序列編碼器,以獲得句子向量si的高級特征向量,進而獲得文本信息的高級特征向量表示v,所述分類器用于對文本信息的高級特征向量表示v進行分類,其中i為文本信息中句子的索引編號。
2.根據權利要求1所述的方法,其中,在步驟1中,根據以下子步驟構造一條文本信息的關于詞語的特征矩陣A和關于字的特征矩陣B:
步驟21:將該條文本信息進行分詞處理并將分詞結果按順序排列訓練詞語向量轉換模型,獲得該條文本信息關于詞語的高維特征表示;
步驟22:將該條文本信息進行分字處理并將分字結果按順序排列訓練字向量轉換模型,獲得該條文本信息關于字的高維特征表示;
步驟23:根據獲得的該條文本信息關于詞語的高維特征表示和該條文本信息關于字的高維特征表示以及該條文本信息的字、詞語和句子的結構特征構造關于詞語的特征矩陣A和關于字的特征矩陣B。
3.根據權利要求2所述的方法,其中,所述詞語向量轉換模型為Word2Vec詞嵌入模型,所述字向量轉換模型為Word2Vec字嵌入模型。
4.根據權利要求1所述的方法,其中,在步驟2中通過以下子步驟獲得一條文本信息的高級特征向量表示v:
步驟51:將該文本信息的關于詞語的特征矩陣A輸入到所述第一層雙向循環神經網絡進行訓練,獲得基于詞向量的句子表示s1i;
步驟52:將該條文本信息的關于字的特征矩陣B輸入到所述第一層雙向循環神經網絡進行訓練,獲得基于字向量的句子表示s2i;
步驟53:將s1i和s2i進行拼接,構成句子向量si;
步驟54:將句子向量si輸入到所述第二層雙向循環網絡進行訓練,獲得該條文本信息的高級特征向量表示v。
5.根據權利要求4所述的方法,其中,對于基于詞向量的句子表示s1i包含利用attention機制獲得的句子中各個詞語的重要性權重,對于基于字向量的句子表示s2i包含利用attention機制獲得的句子中各個字的重要性權重。
6.根據權利要求4所述的方法,其中,在步驟54中,所述該條文本信息的高級特征向量表示v包含利用attention機制獲得的該條文本信息中各個句子重要性的權重。
7.根據權利要求1所述的方法,其中,所述分類器為SoftMax模型、SVM或樸素貝葉斯。
8.根據權利要求1所述的方法,其中,所述第一層雙向循環神經網絡和所述第二層雙向循環神經網絡為雙向GRU或雙向LSTM。
9.一種文本的分類方法,包括:
步驟101:獲取文本信息的關于詞的特征向量表示和關于字的特征向量表示;
步驟102:將文本信息的關于詞的特征向量表示和關于字的特征向量表示輸入到根據權利要求1至8中任一項所獲得的文本分類模型,以獲得該文本信息的類別標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810599385.6/1.html,轉載請聲明來源鉆瓜專利網。





