[發(fā)明專(zhuān)利]一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910972986.1 | 申請(qǐng)日: | 2019-10-14 |
| 公開(kāi)(公告)號(hào): | CN110728240A | 公開(kāi)(公告)日: | 2020-01-24 |
| 發(fā)明(設(shè)計(jì))人: | 趙岳;張學(xué)來(lái);賀敏;劉佳寧;付陽(yáng);張創(chuàng)偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京華宇信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 11640 北京中索知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 胡大成 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)村*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷宗 表格格式 文本格式 表頭 文本 表格區(qū)域 神經(jīng)網(wǎng)絡(luò) 輸出標(biāo)題 文本區(qū)域 自動(dòng)識(shí)別 標(biāo)注 匹配 分類(lèi) | ||
1.一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:對(duì)所述電子卷宗分類(lèi),分為文本格式卷宗和表格格式卷宗;分別對(duì)文本格式卷宗和表格格式卷宗進(jìn)行標(biāo)題識(shí)別,輸出標(biāo)題識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:還包括采用深度神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型進(jìn)行訓(xùn)練的步驟,所述采用深度神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型進(jìn)行訓(xùn)練的步驟是在對(duì)電子卷宗分類(lèi)之前進(jìn)行的,具體包括:
步驟a、收集大量的標(biāo)題文本和非標(biāo)題文本形成標(biāo)題訓(xùn)練集,標(biāo)題文本作為標(biāo)題訓(xùn)練集的正樣本,非標(biāo)題文本作為標(biāo)題訓(xùn)練集的負(fù)樣本;
步驟b、對(duì)自動(dòng)識(shí)別裝置基于標(biāo)題訓(xùn)練集進(jìn)行標(biāo)題類(lèi)訓(xùn)練和非標(biāo)題類(lèi)訓(xùn)練;
步驟c、將詞性的向量隨機(jī)加入訓(xùn)練。
3.根據(jù)權(quán)利要求2所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的標(biāo)題訓(xùn)練集根據(jù)需要進(jìn)行補(bǔ)充,用戶自行收集標(biāo)題文本和非標(biāo)題文本,人工篩選后加入標(biāo)題訓(xùn)練集重新訓(xùn)練。
4.根據(jù)權(quán)利要求1所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:包括以下步驟:
步驟1、輸入電子卷宗,獲取待識(shí)別的圖像;
步驟2、對(duì)電子卷宗進(jìn)行文字識(shí)別和表格區(qū)域識(shí)別;
步驟3、判斷該電子卷宗是否為表格格式卷宗,如判斷是表格格式卷宗,則到步驟4;如判斷不是表格格式卷宗,則到步驟5;
步驟4、將表格上方的文本作為標(biāo)題識(shí)別待選區(qū)域,提取該標(biāo)題識(shí)別待選區(qū)域中的文本,到步驟6;
步驟5、選擇文首、位置居中或文字相對(duì)大的區(qū)域作為標(biāo)題識(shí)別待選區(qū)域,提取該標(biāo)題識(shí)別待選區(qū)域中的文本,到步驟6;
步驟6、對(duì)提取的文本進(jìn)行匹配,輸出匹配結(jié)果;
步驟7、根據(jù)匹配結(jié)果判斷是否為電子卷宗的標(biāo)題;
步驟8、輸出標(biāo)題識(shí)別結(jié)果。
5.根據(jù)權(quán)利要求4所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的步驟3中判斷電子卷宗是否為表格格式卷宗的標(biāo)準(zhǔn)是:所述電子卷宗的組成方式為文本+1個(gè)表格,并且表格的部分占電子卷宗的60%以上,則判斷該電子卷宗為表格格式卷宗;否則判斷為文本格式卷宗。
6.根據(jù)權(quán)利要求4所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的匹配是通過(guò)正則表達(dá)式匹配或通過(guò)基于深度神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型進(jìn)行判斷匹配。
7.根據(jù)權(quán)利要求6所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的基于深度神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型,是指分別對(duì)標(biāo)題和非標(biāo)題的文本進(jìn)行分類(lèi)標(biāo)注形成標(biāo)題訓(xùn)練集,并基于標(biāo)題訓(xùn)練集進(jìn)行訓(xùn)練,使得分類(lèi)模型有自動(dòng)判斷一段文本是標(biāo)題類(lèi)或非標(biāo)題類(lèi)的能力,根據(jù)分類(lèi)模型的判斷,可以將正確的標(biāo)題文本判斷并提取出來(lái)。
8.根據(jù)權(quán)利要求4所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的步驟7中判斷是否為電子卷宗的標(biāo)題的標(biāo)準(zhǔn)為:匹配結(jié)果的概率大于等于80%則判斷是電子卷宗的標(biāo)題,小于80%則判斷不是電子卷宗的標(biāo)題。
9.根據(jù)權(quán)利要求4所述的一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法,其特征在于:所述的步驟8中標(biāo)題的識(shí)別結(jié)果有兩種:即輸出標(biāo)題或輸出空;步驟7中判斷是電子卷宗的標(biāo)題時(shí),輸出標(biāo)題;步驟7中判斷不是電子卷宗的標(biāo)題時(shí),輸出空。
10.一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的裝置,其特征在于:包括:
存儲(chǔ)模塊:用于存儲(chǔ)輸入的電子卷宗;
分類(lèi)模塊:識(shí)別電子卷宗的全文,并將電子卷宗分為文本格式卷宗或表格格式卷宗;
提取模塊:選擇文本格式卷宗和表格格式卷宗的標(biāo)題識(shí)別待選區(qū)域,提取該標(biāo)題識(shí)別待選區(qū)域的文本;
匹配模塊:對(duì)提取模塊提取的文本進(jìn)行匹配,輸出匹配結(jié)果;
輸出模塊:根據(jù)匹配結(jié)果,輸出標(biāo)題或輸出空。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京華宇信息技術(shù)有限公司,未經(jīng)北京華宇信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972986.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種利用深度學(xué)習(xí)的胃癌增強(qiáng)CT圖像自動(dòng)識(shí)別系統(tǒng)
- 下一篇:一種基于深度學(xué)習(xí)多特征融合的駕駛員疲勞檢測(cè)方法
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于將連鎖式聯(lián)接表格轉(zhuǎn)換為樹(shù)形結(jié)構(gòu)的方法以及程序
- 報(bào)表模板開(kāi)發(fā)工具、方法和報(bào)表樣式導(dǎo)入裝置
- 文檔中插入對(duì)象的處理方法及系統(tǒng)
- 報(bào)表系統(tǒng)中的報(bào)表上報(bào)方法及報(bào)表系統(tǒng)
- 用于編輯表格的方法及裝置
- 表格格式轉(zhuǎn)換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 層壓數(shù)據(jù)的存儲(chǔ)方法、電路板的層壓方法及相關(guān)裝置
- 一種對(duì)電子卷宗的標(biāo)題自動(dòng)識(shí)別的方法及裝置
- 基于最小單元格聚類(lèi)的表格版面分析方法、系統(tǒng)及設(shè)備
- 表格格式編程





