[發明專利]一種短文本分類方法、終端設備及存儲介質有效
| 申請號: | 201911366859.3 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111143560B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 鄧葉勛;趙建強;黃劍;陳誠;劉曉芳;鄭偉斌 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04 |
| 代理公司: | 廈門市精誠新創知識產權代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 終端設備 存儲 介質 | ||
1.一種短文本分類方法,其特征在于,包括以下步驟:
S1:采集多個文本數據并進行特征提取后組成訓練集;
S2:分別構建基于卷積神經網絡和循環神經網絡的多個分類模型,并通過訓練集進行訓練后,計算每個分類模型對訓練集中各樣本的輸出為正例樣本的概率和負例樣本的概率;
S3:將所有基于卷積神經網絡的分類模型作為模型集1,將所有基于循環神經網絡的分類模型作為模型集2,將所有分類模型作為模型集3;
S4:根據KS值篩選三個模型集中的兩個模型集合并為融合模型庫I,設定融合模型庫I中的兩個模型集分別為模型集I1和模型集I2;每個模型集的KS值的計算方法為:
將訓練集中各樣本按照其在該模型集中輸出為正例樣本的概率的大小順序進行排列后,將訓練集中各樣本平均分為s組,設定每組中包含N個樣本,則該模型集的KS值的計算公式為:
KS=max({TPR1-FPR1,TPR2-FPR2,…,TPRs-FPRs}),s=1,2,…,
其中,m表示訓練集中的樣本總數,TPRs、FPRs分別表示第s組樣本的真陽率和假陽率;
S5:設定通過融合模型庫I的樣本預測值f(xi)的計算公式為:
其中,xi表示第i個樣本,pi11表示第i個樣本在第1個模型集中輸出為正例樣本的概率,pi12表示第i個樣本在第1個模型集中輸出為負例樣本的概率,pi21表示第i個樣本在第2個模型集中輸出為正例樣本的概率,pi12表示第i個樣本在第2個模型集中輸出為負例樣本的概率,w1、w2分別表示權重參數;
S6:設定融合模型庫I的損失函數loss為:
其中,yi表示樣本xi的真實值,||.||2表示求模運算,上標2表示求平方運算;
S7:通過訓練集對融合模型庫I進行迭代訓練,通過調整權重參數w1和w2,使得損失函數loss的值最小;
S8:通過訓練后的融合模型庫I對待分類文本數據進行分類。
2.根據權利要求1所述的短文本分類方法,其特征在于:步驟S1具體包括以下步驟:
S11:采集多個文本數據;
S12:對文本數據進行預處理,所述預處理包括分詞、去停用詞和編碼格式化;
S13:計算文本數據的詞向量作為文本數據的特征;
S14:將所有文本數據的特征組成訓練集。
3.根據權利要求2所述的短文本分類方法,其特征在于:步驟S11中還包括對內容為多條短消息的文本數據進行分段處理。
4.根據權利要求3所述的短文本分類方法,其特征在于:分段處理的方法為:逐條接收包含中文字符的短消息,判斷當前短消息的長度是否大于長度閾值,如果大于,則將該短消息作為獨立段落;否則將該短消息添加至分段任務列表中,判斷分段任務列表中包含的短消息的個數是否大于個數閾值,如果大于,將分段任務列表中的所有短消息組合一個段落,清空分段任務列表。
5.根據權利要求2所述的短文本分類方法,其特征在于:文本數據詞向量采用Word2vec算法進行計算。
6.一種短文本分類終端設備,其特征在于:包括處理器、存儲器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1~5中任一所述方法的步驟。
7.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1~5中任一所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911366859.3/1.html,轉載請聲明來源鉆瓜專利網。





