[發(fā)明專利]一種基于文本循環(huán)神經(jīng)網(wǎng)絡的政務文本分類方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110685564.3 | 申請日: | 2021-06-21 |
| 公開(公告)號: | CN113505222A | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設計)人: | 王紅;莊魯賀;滑美芳;李威;張慧;韓書 | 申請(專利權(quán))人: | 山東師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F40/117;G06F40/242;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 閆偉姣 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 循環(huán) 神經(jīng)網(wǎng)絡 政務 分類 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于文本循環(huán)神經(jīng)網(wǎng)絡的政務文本分類方法及系統(tǒng),獲取政務文本數(shù)據(jù)及其對應的類別標簽;構(gòu)建文本循環(huán)神經(jīng)網(wǎng)絡分類模型,文本循環(huán)神經(jīng)網(wǎng)絡分類模型包括用于將政務文本數(shù)據(jù)映射為向量的嵌入層、雙層長短期記憶網(wǎng)絡層和全連接層;根據(jù)政務文本數(shù)據(jù)和類別標簽訓練文本循環(huán)神經(jīng)網(wǎng)絡分類模型;其中,在雙層長短期記憶網(wǎng)絡層中,雙向長短期記憶網(wǎng)絡的輸出嵌入向量和輸入嵌入向量進行拼接,將得到的拼接向量輸入到單向長短期記憶網(wǎng)絡中,由全連接層對單向長短期記憶網(wǎng)絡的輸出向量的長度進行收縮,以與類別標簽數(shù)量對應;根據(jù)訓練后的文本循環(huán)神經(jīng)網(wǎng)絡分類模型得到待分類政務文本數(shù)據(jù)的分類結(jié)果。具備較高的分類準確率和處理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)分析挖掘技術(shù)領(lǐng)域,特別是涉及一種基于文本循環(huán)神經(jīng)網(wǎng)絡的政務文本分類方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
近年來,網(wǎng)絡問政平臺上各類與社情民意相關(guān)的文本數(shù)據(jù)量在不斷地攀升,給以往靠人工對留言進行劃分和對熱點問題進行整理的工作帶來極大的挑戰(zhàn)。同時,隨著人工智能、大數(shù)據(jù)、云計算等技術(shù)的發(fā)展,已趨向于建立基于自然語言處理技術(shù)的智慧政務系統(tǒng)。
目前,針對各類問政平臺匯集的留言信息,傳統(tǒng)方法是通過人工對每條留言進行判斷,判斷留言回復工作的所屬部門,但是隨著對辦事效率的要求以及留言數(shù)據(jù)量的增加,傳統(tǒng)的人工分類方法已經(jīng)不能滿足目前的需求,而數(shù)據(jù)挖掘技術(shù)雖已應用于眾多領(lǐng)域中,但是,根據(jù)歷史留言信息,利用數(shù)據(jù)挖掘技術(shù),對群眾留言進行類別劃分尚缺乏有效的解決方案。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于文本循環(huán)神經(jīng)網(wǎng)絡的政務文本分類方法及系統(tǒng),構(gòu)建包括用于將政務文本數(shù)據(jù)映射為向量的嵌入層、雙層長短期記憶網(wǎng)絡層和全連接層的文本循環(huán)神經(jīng)網(wǎng)絡分類模型,對網(wǎng)絡問政平臺中的政務留言文本數(shù)據(jù)進行分類,具備較高的分類準確率和處理效率。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
第一方面,本發(fā)明提供一種基于文本循環(huán)神經(jīng)網(wǎng)絡的政務文本分類方法,包括:
獲取政務文本數(shù)據(jù)及其對應的類別標簽;
構(gòu)建文本循環(huán)神經(jīng)網(wǎng)絡分類模型,文本循環(huán)神經(jīng)網(wǎng)絡分類模型包括用于將政務文本數(shù)據(jù)映射為向量的嵌入層、雙層長短期記憶網(wǎng)絡層和全連接層;
根據(jù)政務文本數(shù)據(jù)和類別標簽訓練文本循環(huán)神經(jīng)網(wǎng)絡分類模型;其中,在雙層長短期記憶網(wǎng)絡層中,雙向長短期記憶網(wǎng)絡的輸出嵌入向量和輸入嵌入向量進行拼接,將得到的拼接向量輸入到單向長短期記憶網(wǎng)絡中,由全連接層對單向長短期記憶網(wǎng)絡的輸出向量的長度進行收縮,以與類別標簽數(shù)量對應;
根據(jù)訓練后的文本循環(huán)神經(jīng)網(wǎng)絡分類模型得到待分類政務文本數(shù)據(jù)的分類結(jié)果。
作為可選擇的實施方式,對政務文本數(shù)據(jù)經(jīng)預處理后進行特征提取,得到word2vec詞向量。
作為可選擇的實施方式,對word2vec詞向量通過CBOW模型進行訓練后用于分類。
作為可選擇的實施方式,對類別標簽進行編碼,得到標簽映射列表,將政務文本數(shù)據(jù)進行單字轉(zhuǎn)換映射后,構(gòu)建詞向量。
作為可選擇的實施方式,對類別標簽采用onehot編碼。
作為可選擇的實施方式,訓練文本循環(huán)神經(jīng)網(wǎng)絡分類模型的過程中,在嵌入層中將政務文本數(shù)據(jù)映射為二維向量,在雙向長短期記憶網(wǎng)絡中輸出一維向量,并將雙向長短期記憶網(wǎng)絡的輸出嵌入向量和輸入嵌入向量進行拼接。
作為可選擇的實施方式,對政務文本數(shù)據(jù)進行預處理,包括:
確定政務文本數(shù)據(jù)的缺失值比例,根據(jù)缺失值比例,清理缺失值所在的政務文本數(shù)據(jù)或填充缺失值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學,未經(jīng)山東師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110685564.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結(jié)構(gòu)的優(yōu)化方法及裝置





