[發(fā)明專利]一種基于DiTextCNN的中文政務(wù)信息的文本分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011238122.6 | 申請(qǐng)日: | 2020-11-09 |
| 公開(公告)號(hào): | CN112328791A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 吳穎;王琳;孫潤元 | 申請(qǐng)(專利權(quán))人: | 濟(jì)南大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 蘇州和氏璧知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32390 | 代理人: | 李曉星 |
| 地址: | 250022 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ditextcnn 中文 政務(wù)信息 文本 分類 方法 | ||
本發(fā)明公開了一種基于DiTextCNN的中文政務(wù)信息的文本分類方法,該方法包括以下步驟:步驟1:使用中文分詞工具將政務(wù)數(shù)據(jù)標(biāo)題文本信息切分成若干個(gè)中文單詞;步驟2:將文本信息中的各個(gè)中文單詞依次通過預(yù)訓(xùn)練語言模型進(jìn)行向量化處理,得到文本信息中的各個(gè)中文單詞的詞向量表示;步驟3:將中文單詞的詞向量輸入DiTextCNN模型的卷積層進(jìn)行卷積和池化計(jì)算,提取局部關(guān)鍵詞特征。本發(fā)明構(gòu)思巧妙,DiTextCNN模型的全連接層有兩種特征輸入,一種是政務(wù)數(shù)據(jù)標(biāo)題經(jīng)過卷積層提取的局部關(guān)鍵詞特征,另一種是政務(wù)數(shù)據(jù)的來源部門編碼得到的one?hot向量,兩種特征拼接得到更加豐富的特征,從而更好地對(duì)政務(wù)信息進(jìn)行分類,提升分類精度。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分類技術(shù)領(lǐng)域,具體為一種基于DiTextCNN的中文政務(wù)信息的文本分類方法。
背景技術(shù)
政務(wù)信息對(duì)企業(yè)起著生死攸關(guān)的作用,企業(yè)需要時(shí)刻了解政府的各項(xiàng)規(guī)章制度和招標(biāo)信息,抓住重要機(jī)遇,實(shí)現(xiàn)企業(yè)的繁榮發(fā)展。國內(nèi)有很多提供招標(biāo)信息的服務(wù)公司,但政務(wù)信息不僅包括招標(biāo)信息,還包括經(jīng)濟(jì)和稅收政策、行業(yè)管理辦法、創(chuàng)新創(chuàng)業(yè)、產(chǎn)業(yè)基地建設(shè)、示范項(xiàng)目、招標(biāo)中標(biāo)、人才引進(jìn)等,這些對(duì)企業(yè)來說同樣至關(guān)重要。因此,對(duì)國內(nèi)政務(wù)信息實(shí)行分類,從中篩選出對(duì)企業(yè)有利的信息,能夠幫助企業(yè)及時(shí)了解政府發(fā)布的動(dòng)態(tài),進(jìn)而調(diào)整經(jīng)營戰(zhàn)略,實(shí)現(xiàn)企業(yè)的長遠(yuǎn)發(fā)展。
政務(wù)信息具有時(shí)效性和長期性,假如采用人工的方法對(duì)政務(wù)信息分類,將十分耗時(shí)耗力,不僅增加人力成本,還可能導(dǎo)致企業(yè)無法及時(shí)獲取有效信息,對(duì)政府的政策變化來不及做出反應(yīng)。因此,設(shè)計(jì)一種基于DiTextCNN的中文政務(wù)信息的文本分類方法是很有必要的。
發(fā)明內(nèi)容
針對(duì)上述情況,為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提供一種基于DiTextCNN的中文政務(wù)信息的文本分類方法,該文本分類方法,構(gòu)思巧妙,DiTextCNN模型的全連接層有兩種特征輸入,一種是政務(wù)數(shù)據(jù)標(biāo)題經(jīng)過卷積層提取的局部關(guān)鍵詞特征,另一種是政務(wù)數(shù)據(jù)的來源部門編碼得到的one-hot 向量,兩種特征拼接得到更加豐富的特征,從而更好地對(duì)政務(wù)信息進(jìn)行分類,提升分類精度。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于DiTextCNN的中文政務(wù)信息的文本分類方法,該方法包括以下步驟:
步驟1:使用中文分詞工具將政務(wù)數(shù)據(jù)標(biāo)題文本信息切分成若干個(gè)中文單詞;
步驟2:將文本信息中的各個(gè)中文單詞依次通過預(yù)訓(xùn)練語言模型進(jìn)行向量化處理,得到文本信息中的各個(gè)中文單詞的詞向量表示;
步驟3:將中文單詞的詞向量輸入DiTextCNN模型的卷積層進(jìn)行卷積和池化計(jì)算,提取局部關(guān)鍵詞特征;
步驟4:將政務(wù)數(shù)據(jù)的來源部門編碼得到one-hot 向量;
步驟5:將文本信息的局部關(guān)鍵詞特征和one-hot 向量拼接成更豐富的特征,輸入DiTextCNN模型的輸出層,得到文本分類結(jié)果。
優(yōu)選的,所述中文分詞工具包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一個(gè)。
優(yōu)選的,所述預(yù)訓(xùn)練語言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一個(gè)。
優(yōu)選的,所述步驟3中DiTextCNN模型的卷積層提取的局部關(guān)鍵詞特征的描述公式為:
令xi∈Rk為與句子中第i個(gè)單詞相對(duì)應(yīng)的k維詞向量,長度為n的句子表示為:
X1:n=X1⊕X2⊕…⊕Xn
其中⊕是拼接操作,W∈Rhk表示與h個(gè)單詞的窗口相對(duì)應(yīng)的過濾器,利用它通過卷積運(yùn)算產(chǎn)生一個(gè)新特征,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于濟(jì)南大學(xué),未經(jīng)濟(jì)南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011238122.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 政務(wù)公開電子監(jiān)察的方法及系統(tǒng)
- 一種基于互聯(lián)網(wǎng)的政務(wù)信息服務(wù)系統(tǒng)
- 政務(wù)信息檢索方法、系統(tǒng)及終端設(shè)備
- 政務(wù)信息發(fā)布方法、裝置及終端設(shè)備
- 基于區(qū)塊鏈網(wǎng)絡(luò)的政務(wù)信息處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈的政務(wù)信息處理方法、裝置、設(shè)備和介質(zhì)
- 一種政務(wù)信息公開平臺(tái)運(yùn)維管理系統(tǒng)
- 一種政務(wù)信息處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種政務(wù)信息差異化公開方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種政務(wù)信息資源代碼規(guī)則動(dòng)態(tài)配置方法





