[發(fā)明專利]基于OCR和可信結(jié)構(gòu)化數(shù)據(jù)的信息鑒別方法有效
| 申請?zhí)枺?/td> | 201810958615.3 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109145819B | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計)人: | 王佩光;楊小蕾;羅奕;朱友衛(wèi);林雄建;肖鄭海;陳龍;潘盛裕;孟浩 | 申請(專利權(quán))人: | 國網(wǎng)信通億力科技有限責(zé)任公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國家電網(wǎng)有限公司 |
| 主分類號: | G06V30/42 | 分類號: | G06V30/42;G06V30/262;G06F16/242 |
| 代理公司: | 北京鍾維聯(lián)合知識產(chǎn)權(quán)代理有限公司 11579 | 代理人: | 趙中璋 |
| 地址: | 361009 福建省廈門*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ocr 可信 結(jié)構(gòu) 數(shù)據(jù) 信息 鑒別方法 | ||
1.一種基于OCR和可信結(jié)構(gòu)化數(shù)據(jù)庫的信息鑒別方法,其特征在于,包括:
步驟S100,對信息載體的一個或多個影像進行OCR處理,獲得信息載體的主索引內(nèi)容CI、第一內(nèi)容向量A=(a1,a2,...,am)和第二內(nèi)容向量B=(b1,b2,...,bn),其中m和n分別為第一、二內(nèi)容向量中元素的數(shù)量;
步驟S200,在可信結(jié)構(gòu)化數(shù)據(jù)庫中使用主索引內(nèi)容CI進行檢索,并將檢索獲得結(jié)果記錄中提取第一可信內(nèi)容向量P=(p1,p2,...,pm)和第二可信內(nèi)容向量Q=(q1,q2,...,qn);
步驟S300,如果A=P,那么執(zhí)行步驟S400;如果A≠P,那么向用戶提示所述影像中呈現(xiàn)的內(nèi)容為虛假內(nèi)容;
步驟S400,計算第二內(nèi)容向量B和第二可信內(nèi)容向量Q的相似度其中,bqi為bi和qi的相似度,如果SBQ≥D,D為預(yù)設(shè)閾值,那么判斷所述影像中呈現(xiàn)的內(nèi)容為真實內(nèi)容;否則,向用戶提示影像中呈現(xiàn)的內(nèi)容為虛假內(nèi)容;
所述第二內(nèi)容向量B和所述第二可信內(nèi)容向量Q中的元素均為文本類型;
所述步驟S300中,A=P的判斷具體為:
如果內(nèi)容向量A和P的每組對應(yīng)元素均相同,即ai=pi,i的取值為1…m,那么A=P;
如果內(nèi)容向量A和P的存在任意一組對應(yīng)元素不相同,那么A≠P;
所述步驟S400還包括:
步驟S410,如果bi=qi,那么bqi=1;否則執(zhí)行步驟S420;
步驟S420,使用標(biāo)準(zhǔn)詞語料庫中的標(biāo)準(zhǔn)詞對文本bi和qi進行分詞,分別形成分詞后的詞語向量Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys),其中r和s分別為分詞后的詞語向量中詞語的數(shù)量;
步驟S430,如果Xbi和Yqi中相同的k個詞語均為所述語料庫中的標(biāo)準(zhǔn)詞,那么bqi=0;否則執(zhí)行步驟S440;
步驟S440,對于Xbi和Yqi中的與標(biāo)準(zhǔn)詞相同的詞語,將其權(quán)重設(shè)置為對應(yīng)的標(biāo)準(zhǔn)詞權(quán)重w0;所述標(biāo)準(zhǔn)詞語料庫中包括標(biāo)準(zhǔn)詞及標(biāo)準(zhǔn)詞權(quán)重w0;
步驟S450,對于Xbi中的與標(biāo)準(zhǔn)詞不相同的詞語,其權(quán)重設(shè)置為對于Yqi中的與標(biāo)準(zhǔn)詞不相同的詞語,其權(quán)重設(shè)置為其中,r1和s1分別為Xbi和Yqi中標(biāo)準(zhǔn)詞的數(shù)量;
步驟S460,計算其中k為Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys)中相同詞語數(shù)量,wbj為Xbi內(nèi)k個相同的詞語中的第j個權(quán)重,wqj為文本Yqi內(nèi)k個相同的詞語中的第j個權(quán)重。
2.根據(jù)權(quán)利要求1所述的信息鑒別方法,其特征在于,w0小于或等于0.05。
3.根據(jù)權(quán)利要求2所述的信息鑒別方法,其特征在于,w0等于0.03。
4.根據(jù)權(quán)利要求1所述的信息鑒別方法,其特征在于,所述影像為電子復(fù)印件或紙件復(fù)印件的掃描件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)信通億力科技有限責(zé)任公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國家電網(wǎng)有限公司,未經(jīng)國網(wǎng)信通億力科技有限責(zé)任公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國家電網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810958615.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





