[發(fā)明專利]基于自學(xué)習(xí)的電子案卷分類方法及裝置有效
| 申請?zhí)枺?/td> | 201911127812.1 | 申請日: | 2019-11-18 |
| 公開(公告)號: | CN111046175B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 林靜;呂曉敏;尉錦龍;盧會春;王翔 | 申請(專利權(quán))人: | 杭州天翼智慧城市科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06N3/0464;G06N3/08 |
| 代理公司: | 北京潤平知識產(chǎn)權(quán)代理有限公司 11283 | 代理人: | 陳瀟瀟;陳小蓮 |
| 地址: | 311121 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 自學(xué)習(xí) 電子 案卷 分類 方法 裝置 | ||
本發(fā)明實(shí)施方式提供一種基于自學(xué)習(xí)的電子案卷分類方法及裝置,屬于文本分類技術(shù)領(lǐng)域,所述方法包括:獲取電子案卷文本樣本;提取電子案卷文本樣本中的特征信息樣本;以特征信息樣本作為輸入,經(jīng)預(yù)訓(xùn)練的第一預(yù)測模型得到電子案卷文本樣本的預(yù)測類別;若預(yù)測類別不準(zhǔn)確,修正預(yù)測類別,將特征信息樣本以擴(kuò)容系數(shù)為倍數(shù)復(fù)制至訓(xùn)練集;若預(yù)測類別準(zhǔn)確,將特征信息樣本作為訓(xùn)練樣本加入訓(xùn)練集。本發(fā)明的技術(shù)方案通過訓(xùn)練好的預(yù)測模型對電子案卷文本進(jìn)行分類,結(jié)合自學(xué)習(xí)機(jī)制,在對電子案卷分類過程中,針對不同的分類結(jié)果,對應(yīng)不同的訓(xùn)練集數(shù)據(jù)修正策略,優(yōu)化訓(xùn)練集數(shù)據(jù),有效提高了預(yù)測的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分類技術(shù)領(lǐng)域,具體地涉及一種基于自學(xué)習(xí)的電子案卷分類方法以及一種基于自學(xué)習(xí)的電子案卷分類裝置。
背景技術(shù)
隨著電子政務(wù)服務(wù)的發(fā)展,報(bào)案人員可通過政務(wù)app、熱線、網(wǎng)頁等方式進(jìn)行投訴和建議,報(bào)案信息最終轉(zhuǎn)換為文本數(shù)據(jù)錄入、分類、提交,隨后根據(jù)案件類別、意見內(nèi)容將案卷分發(fā)至處理部門,以待處理。少量報(bào)案數(shù)據(jù)的情況下,人工分類可以滿足需求,但隨著各渠道案件量迅速上升,人工分類方式已不能滿足當(dāng)前的實(shí)際需要,新增案卷智能分類成為了急需解決的問題。
值得注意的是,以上分類工作大多可通過機(jī)器學(xué)習(xí)的方法解決,傳統(tǒng)的機(jī)器學(xué)習(xí)方法主要是線性和淺層非線性的方法,如SVM、樸素貝葉斯分類器實(shí)現(xiàn)文本分類,對于復(fù)雜詞句的語義內(nèi)容必然會帶來許多誤差,且存在數(shù)據(jù)量變大時(shí)會有收斂速度慢的缺點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施方式的目的是提供一種基于自學(xué)習(xí)的電子案卷分類方法以及一種基于自學(xué)習(xí)的電子案卷分類裝置,以解決現(xiàn)有的文本分類對復(fù)雜詞句的誤差大,且在數(shù)據(jù)量變大時(shí)會有收斂速度慢的問題。
為了實(shí)現(xiàn)上述目的,在本發(fā)明第一方面,提供一種基于自學(xué)習(xí)的電子案卷分類方法,包括:
獲取電子案卷文本樣本;
提取所述電子案卷文本樣本中的特征信息樣本;
以所述特征信息樣本作為輸入,經(jīng)預(yù)訓(xùn)練的第一預(yù)測模型得到電子案卷文本樣本的預(yù)測類別,所述第一預(yù)測模型通過包括不同類別電子案卷文本樣本的特征信息樣本的訓(xùn)練集對卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練后得到;
判斷所述預(yù)測類別是否準(zhǔn)確,若不準(zhǔn)確,修正所述預(yù)測類別,以修正后的類別作為最終分類類別,以及將所述特征信息樣本以擴(kuò)容系數(shù)為倍數(shù)復(fù)制至所述訓(xùn)練集;若準(zhǔn)確,將所述預(yù)測類別作為最終分類類別,并將所述特征信息樣本作為訓(xùn)練樣本加入所述訓(xùn)練集。
可選地,所述提取所述電子案卷文本樣本中的特征信息樣本,包括:
對所述電子案卷文本樣本進(jìn)行數(shù)據(jù)預(yù)處理;
對經(jīng)數(shù)據(jù)預(yù)處理后的電子案卷文本樣本進(jìn)行分詞及去停用詞處理,得到分詞詞組,基于所述分詞詞組得到所述特征信息樣本。
可選地,所述方法還包括:
在當(dāng)前所有的電子案卷文本樣本數(shù)量達(dá)到設(shè)定閾值時(shí),通過所述訓(xùn)練集對所述第一預(yù)測模型重新進(jìn)行訓(xùn)練,得到第二預(yù)測模型,若所述第二預(yù)測模型的預(yù)測準(zhǔn)確率高于所述第一預(yù)測模型的預(yù)測準(zhǔn)確率,用所述第二預(yù)測模型替換所述第一預(yù)測模型。
可選地,所述第一預(yù)測模型包括:
輸入層,用于接收所述特征信息樣本并對所述特征信息樣本進(jìn)行詞嵌入以將輸入的特征信息樣本轉(zhuǎn)化為特征向量;
卷積層,用于提取所述特征向量的向量特征;
池化層,用于對提取到的所有向量特征進(jìn)行降維處理;
全連接層,用于依據(jù)降維處理后的向量特征輸出所述特征信息樣本對應(yīng)的電子案卷文本樣本屬于每個(gè)類別的概率,并以概率最高的類別作為預(yù)測類別。
可選地,所述擴(kuò)容系數(shù)通過以下方式確定::
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州天翼智慧城市科技有限公司,未經(jīng)杭州天翼智慧城市科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911127812.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種低成本自學(xué)習(xí)溫控器及其方法
- 一種改善換規(guī)格首塊帶鋼板形質(zhì)量的自學(xué)習(xí)方法
- AMT系統(tǒng)擋位判別基準(zhǔn)的自學(xué)習(xí)及自適應(yīng)控制方法和系統(tǒng)
- 矢量型變頻器自學(xué)習(xí)方法
- EMS系統(tǒng)油品自學(xué)習(xí)值的修正方法
- 一種變速箱復(fù)位自學(xué)習(xí)方法及相關(guān)裝置
- 基于單邊驅(qū)動的EGR閥自學(xué)習(xí)方法
- 一種基于插值計(jì)算的電噴系統(tǒng)閉環(huán)自學(xué)習(xí)控制方法
- 一種ECU自學(xué)習(xí)數(shù)據(jù)備份方法及系統(tǒng)
- 一種可變氣門正時(shí)系統(tǒng)的自學(xué)習(xí)控制方法、系統(tǒng)及車輛
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備





