[發(fā)明專(zhuān)利]一種文檔分類(lèi)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202211000816.5 | 申請(qǐng)日: | 2022-08-19 |
| 公開(kāi)(公告)號(hào): | CN115292498A | 公開(kāi)(公告)日: | 2022-11-04 |
| 發(fā)明(設(shè)計(jì))人: | 李剛 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京華宇九品科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/284 |
| 代理公司: | 北京智行陽(yáng)光知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11738 | 代理人: | 孫雪廣 |
| 地址: | 100084 北京市海淀區(qū)中*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 分類(lèi) 方法 系統(tǒng) 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種文檔分類(lèi)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),方法包括:監(jiān)測(cè)是否有新類(lèi)別的目標(biāo)文檔輸入至預(yù)先構(gòu)建的文檔分類(lèi)模型;響應(yīng)于有新類(lèi)別的目標(biāo)文檔,利用預(yù)設(shè)的分詞算法對(duì)目標(biāo)文檔進(jìn)行分詞處理且得到目標(biāo)語(yǔ)料庫(kù),并生成詞匯級(jí)向量;利用漢語(yǔ)言模型N?Gram對(duì)目標(biāo)語(yǔ)料庫(kù)中的各單詞進(jìn)行片段切分得到字符級(jí)向量;將詞匯級(jí)向量和字符級(jí)向量構(gòu)成的特征向量作為新的訓(xùn)練數(shù)據(jù)并輸入文檔分類(lèi)模型,進(jìn)而利用新的訓(xùn)練數(shù)據(jù)對(duì)文檔分類(lèi)模型進(jìn)行優(yōu)化,并基于優(yōu)化后的文檔分類(lèi)模型輸出目標(biāo)文檔的分類(lèi)結(jié)果。本發(fā)明提供的分類(lèi)方法利用相對(duì)較少的訓(xùn)練數(shù)據(jù)卻能達(dá)到較高準(zhǔn)確率的文檔分類(lèi)效果,是一種增量自學(xué)習(xí)式架構(gòu)設(shè)計(jì),訓(xùn)練效率高、分類(lèi)準(zhǔn)確率高。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔管理領(lǐng)域,尤其涉及一種文檔分類(lèi)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
在如今快節(jié)奏的生活與工作中,紛繁雜亂的文檔會(huì)花費(fèi)人們大量時(shí)間,因此,為便于文檔管理,需要依據(jù)文檔內(nèi)容進(jìn)行分類(lèi)。
現(xiàn)有技術(shù)提供了一種基于傳統(tǒng)機(jī)器學(xué)習(xí)的文檔分類(lèi)方法,首先根據(jù)文檔中出現(xiàn)的關(guān)鍵詞制定分類(lèi)規(guī)則,建立好分類(lèi)規(guī)則后,輸入文檔后先對(duì)文檔內(nèi)容進(jìn)行分詞,然后依據(jù)分類(lèi)規(guī)則進(jìn)行關(guān)鍵詞匹配,匹配到哪個(gè)分類(lèi)的關(guān)鍵詞就判定文檔屬于哪個(gè)分類(lèi)。但是,這種文檔分類(lèi)方法的準(zhǔn)確率不高,而且,當(dāng)同一個(gè)詞可以在多個(gè)分類(lèi)中出現(xiàn)時(shí),現(xiàn)有技術(shù)的分類(lèi)方法的分類(lèi)結(jié)果就會(huì)不準(zhǔn)確。舉例而言,表1為一篇證據(jù)清單文檔,很顯然,依據(jù)關(guān)鍵詞“身份證”、“個(gè)人汽車(chē)消費(fèi)抵押貸款合同”、“一般條款”可以將該文檔中劃分為證據(jù)清單類(lèi)別,但是,可以理解的是,“身份證”、“XXXX貸款合同”、“一般條款”在另一個(gè)文檔中例如購(gòu)車(chē)合同就需要被劃分成貸款合同類(lèi)別。
表1:
現(xiàn)有技術(shù)中還提供了一種基于深度學(xué)習(xí)的文檔分類(lèi)方法,通過(guò)用卷積神經(jīng)網(wǎng)絡(luò)CNN、前饋神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM等深度學(xué)習(xí)模型來(lái)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,從而對(duì)數(shù)據(jù)進(jìn)行特征抽取。然而,這種方法最大的問(wèn)題就是:需要選用大量的訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)以及測(cè)試數(shù)據(jù)來(lái)訓(xùn)練和修正算法模型,決定文檔分類(lèi)精度的影響因素是數(shù)據(jù)量以及訓(xùn)練過(guò)程中的迭代次數(shù)。尤其是在初期業(yè)務(wù)系統(tǒng)數(shù)據(jù)量不多的情況下,訓(xùn)練得到的模型準(zhǔn)確率比較低,難以達(dá)到上線使用的要求。
實(shí)際應(yīng)用中,通常會(huì)將文檔分類(lèi)系統(tǒng)與某機(jī)構(gòu)的文檔庫(kù)進(jìn)行對(duì)接,這種情況下需要對(duì)文檔庫(kù)中的大量文檔進(jìn)行分類(lèi)打標(biāo)簽,而這些同類(lèi)別的文檔其文檔模板可能相同,且每個(gè)類(lèi)別下的文檔數(shù)量并不相同即每個(gè)類(lèi)別下文檔的數(shù)量分布不均勻,因此,如果將該機(jī)構(gòu)的文檔分類(lèi)系統(tǒng)再對(duì)接新機(jī)構(gòu)的文檔庫(kù)時(shí),需要識(shí)別新類(lèi)別的文檔。有鑒于此,有必要提供一種新的文檔分類(lèi)方案,能夠基于少量的文檔進(jìn)行分類(lèi)模型的構(gòu)建,且能保證文檔分類(lèi)的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是:能夠基于少量的文檔進(jìn)行分類(lèi)模型的構(gòu)建,且能保證文檔分類(lèi)的準(zhǔn)確性。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種文檔分類(lèi)方法,包括:
監(jiān)測(cè)是否有新類(lèi)別的目標(biāo)文檔輸入至預(yù)先構(gòu)建的文檔分類(lèi)模型;
響應(yīng)于有新類(lèi)別的目標(biāo)文檔,利用預(yù)設(shè)的分詞算法對(duì)目標(biāo)文檔進(jìn)行分詞處理且得到目標(biāo)語(yǔ)料庫(kù),并生成對(duì)應(yīng)于所述目標(biāo)語(yǔ)料庫(kù)的詞匯級(jí)向量;
利用漢語(yǔ)言模型N-Gram對(duì)所述目標(biāo)語(yǔ)料庫(kù)中的各單詞進(jìn)行片段切分,得到各單詞對(duì)應(yīng)的字符級(jí)向量;
將所述詞匯級(jí)向量和所述字符級(jí)向量構(gòu)成的特征向量作為新的訓(xùn)練數(shù)據(jù)并輸入所述文檔分類(lèi)模型,進(jìn)而利用新的訓(xùn)練數(shù)據(jù)對(duì)所述文檔分類(lèi)模型進(jìn)行優(yōu)化,并基于優(yōu)化后的文檔分類(lèi)模型輸出目標(biāo)文檔的分類(lèi)結(jié)果。
可選地,還包括:
在未監(jiān)測(cè)到新類(lèi)別的目標(biāo)文檔的情況下,直接利用預(yù)先構(gòu)建的所述文檔分類(lèi)模型對(duì)所述目標(biāo)文檔進(jìn)行識(shí)別,且輸出分類(lèi)結(jié)果。
可選地,預(yù)先構(gòu)建文檔分類(lèi)模型的步驟包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京華宇九品科技有限公司,未經(jīng)北京華宇九品科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211000816.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類(lèi)型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





