[發(fā)明專利]一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法在審
| 申請?zhí)枺?/td> | 202110591900.8 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113449602A | 公開(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計)人: | 楊修一;陳杰;龐小紅 | 申請(專利權(quán))人: | 南京超募數(shù)字科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06F40/169 |
| 代理公司: | 南京磐泰合盛知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32521 | 代理人: | 張浩 |
| 地址: | 210000 江蘇省南京市建鄴*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 機(jī)器 視覺 文本 內(nèi)容 識別 分析 方法 | ||
1.一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于:包括如下步驟:
S1、首先通過機(jī)器掃描文件,識別文件中的文本內(nèi)容,根據(jù)文件內(nèi)容選擇合適的識別方式;
S2、在對特定的內(nèi)容進(jìn)行查找時,通過在知識庫中選擇需要查找的內(nèi)容,通過機(jī)器掃描,識別該內(nèi)容對應(yīng)的文本;
S3、先識別確定文本的整體結(jié)構(gòu),分析不同文本之間的關(guān)聯(lián)性,再抓取文件中文本的名稱和目錄內(nèi)容;
S4、然后按照目錄對文本內(nèi)容進(jìn)行識別,先識別每個目錄下的小標(biāo)題,對文本結(jié)構(gòu)進(jìn)行補充;
S5、再根據(jù)盡職調(diào)查的需要和文本結(jié)構(gòu),快速定位至需要查找的位置,對重要內(nèi)容進(jìn)行識別分析;
S6、在重要文本內(nèi)容識別分析過程中,識別到相同的文本內(nèi)容時,將其他相同文本的位置標(biāo)注在文本右側(cè);
S7、重要內(nèi)容識別分析完成后,打印出重點內(nèi)容分析報告;
S8、然后逐句對文本剩余內(nèi)容進(jìn)行識別分析,先識別提取數(shù)字和文字內(nèi)容,最后識別圖片內(nèi)容;
S9、在文本內(nèi)容全部分析完成后,打印整體分析報告。
2.根據(jù)權(quán)利要求1所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述S1中,待識別的文件為圖像文件,圖像文件中的內(nèi)容包括表格、文章和票據(jù);
根據(jù)文本中文字記錄的表格和票據(jù),對其他含有表格和票據(jù)的文本進(jìn)行查找,將表格名稱和票據(jù)名稱分別與文字記錄的內(nèi)容進(jìn)行對比,將關(guān)聯(lián)的票據(jù)文本和表格文本排放在對應(yīng)文本后面;
關(guān)聯(lián)表格和票據(jù)查找完成后,將票據(jù)與票據(jù)、表格與表格、表格與票據(jù)之間的內(nèi)容進(jìn)行對比分析,在對比后存在數(shù)據(jù)差異的位置進(jìn)行框選標(biāo)記;
所述S2中,知識庫中存儲有公司名稱、重要文件名稱、商業(yè)計劃書名稱和商業(yè)計劃書中的故事。
3.根據(jù)權(quán)利要求1所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述S3中,在識別文本內(nèi)容時,先通過機(jī)器視覺對文本內(nèi)容進(jìn)行掃描,對整個文本開始處的文本主題名稱和文本目錄進(jìn)行識別,了解文檔的大致內(nèi)容,為后期查詢做準(zhǔn)備,然后識別文本中的目錄,接著識別文本的重要內(nèi)容,最后識別剩余內(nèi)容;
在識別表格和票據(jù)時,先識別表格上方的表格名稱,再識別表格的第一列和第一行的文本內(nèi)容,確定表格整體結(jié)構(gòu),最后識別表格中剩余文本內(nèi)容。
4.根據(jù)權(quán)利要求1所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述S4中,確定需要查詢的內(nèi)容,然后選擇對應(yīng)的文件;
在對應(yīng)的文本中,先對目錄進(jìn)行分析,確定需要查詢的內(nèi)容在文本中的頁數(shù),根據(jù)文本目錄的指引找到對應(yīng)的頁數(shù),先識別對應(yīng)頁數(shù)上的文本小標(biāo)題,確定該頁文本結(jié)構(gòu),對文本整體的結(jié)構(gòu)進(jìn)行補充,使文本結(jié)構(gòu)更加完整。
5.根據(jù)權(quán)利要求4所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述文本小標(biāo)題確定后,將需要查找的內(nèi)容與小標(biāo)題進(jìn)行匹配,確定需要查找的內(nèi)容具體位置,在對應(yīng)的小標(biāo)題下查找對應(yīng)的文本內(nèi)容;
在表格和票據(jù)識別時,對第一行和第一列文本內(nèi)容識別后,確定需查找內(nèi)容與第一行內(nèi)容的對應(yīng)位置,再確定需查找內(nèi)容與第一列內(nèi)容的對應(yīng)位置,然后確定對應(yīng)行列交叉位置的單元格,獲取需要查找的內(nèi)容。
6.根據(jù)權(quán)利要求1所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述S6中,在文本內(nèi)容識別分析過程中,對識別內(nèi)容進(jìn)行記憶,再次識別到相同的文本內(nèi)容時,將上次識別的相同的文本位置標(biāo)注在本次文本右側(cè),并將本次文本的位置標(biāo)注至上次文本的右側(cè),出現(xiàn)多個相同文本內(nèi)容時,全部相同文本位置均進(jìn)行標(biāo)注。
7.根據(jù)權(quán)利要求6所述的一種基于機(jī)器視覺的文本與內(nèi)容識別分析方法,其特征在于,所述相同文本的認(rèn)定標(biāo)準(zhǔn)通過用戶自定義設(shè)置,設(shè)置的內(nèi)容包括字?jǐn)?shù)、段落數(shù)和數(shù)字,其中,字?jǐn)?shù)大于等于30字,段落數(shù)大于等于1,數(shù)字的個數(shù)大于等于3;
在識別文本內(nèi)容時,由人工設(shè)置相似文本的數(shù)值,文本相似程度達(dá)到設(shè)置值后,認(rèn)定為相同的文本內(nèi)容,然后對相同文本位置進(jìn)行標(biāo)注。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京超募數(shù)字科技有限公司,未經(jīng)南京超募數(shù)字科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110591900.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





