[發明專利]一種基于DiTextCNN的中文政務信息的文本分類方法在審
| 申請號: | 202011238122.6 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112328791A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 吳穎;王琳;孫潤元 | 申請(專利權)人: | 濟南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 蘇州和氏璧知識產權代理事務所(普通合伙) 32390 | 代理人: | 李曉星 |
| 地址: | 250022 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ditextcnn 中文 政務信息 文本 分類 方法 | ||
1.一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于,該方法包括以下步驟:
步驟1:使用中文分詞工具將政務數據標題文本信息切分成若干個中文單詞;
步驟2:將文本信息中的各個中文單詞依次通過預訓練語言模型進行向量化處理,得到文本信息中的各個中文單詞的詞向量表示;
步驟3:將中文單詞的詞向量輸入DiTextCNN模型的卷積層進行卷積和池化計算,提取局部關鍵詞特征;
步驟4:將政務數據的來源部門編碼得到one-hot 向量;
步驟5:將文本信息的局部關鍵詞特征和one-hot 向量拼接成更豐富的特征,輸入DiTextCNN模型的輸出層,得到文本分類結果。
2.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述中文分詞工具包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一個。
3.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述預訓練語言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一個。
4.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述步驟3中DiTextCNN模型的卷積層提取的局部關鍵詞特征的描述公式為:
令xi∈Rk為與句子中第i個單詞相對應的k維詞向量,長度為n的句子表示為:
X1:n=X1⊕X2⊕…⊕Xn
其中⊕是拼接操作,W∈Rhk表示與h個單詞的窗口相對應的過濾器,利用它通過卷積運算產生一個新特征,
Ci=?(W?Xn-h+1+b)
其中f是非線性函數,?表示矩陣乘法,過濾器在句子上滑動生成一個特征圖c,
c=[c1, c2,…cn-h+1]。
5.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述DiTextCNN模型的輸出層的激活函數為sigmoid函數。
6.根據權利要求5所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述sigmoid函數的描述公式為:
x的取值范圍為(0,1)。
7.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述池化計算包括:使用最大值(max-pooling)池化算法來進行池化計算或者使用均值池(avg-pooling)算法來進行池化計算。
8.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述DiTextCNN模型訓練過程中加入了正則化機制防止模型過擬合,包括L2regularization,dropout,batchnormalization。
9.根據權利要求1所述的一種基于DiTextCNN的中文政務信息的文本分類方法,其特征在于:所述DiTextCNN模型還包括交叉熵損失函數和Adam優化器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南大學,未經濟南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011238122.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種病原體微生物宏基因組去宿主方法及試劑盒
- 下一篇:發光基板及顯示裝置





