[發(fā)明專(zhuān)利]基于OCR技術(shù)的文本自動(dòng)生成方法、裝置、設(shè)備及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010727815.5 | 申請(qǐng)日: | 2020-07-24 |
| 公開(kāi)(公告)號(hào): | CN111782772A | 公開(kāi)(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉文濤;馮德亮;陳明忠 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安銀行股份有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F16/36;G06F40/289;G06F40/216;G06N3/04;G06K9/00;G06F21/62 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ocr 技術(shù) 文本 自動(dòng) 生成 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明涉及人工智能技術(shù),揭露了一種基于OCR技術(shù)的文本自動(dòng)生成方法,包括:利用預(yù)構(gòu)建的圖片文字識(shí)別方法對(duì)待識(shí)別圖片進(jìn)行文字識(shí)別,得到文本信息;對(duì)所述文本信息進(jìn)行分詞和過(guò)濾,得到詞語(yǔ)集,基于圖排序算法從所述詞語(yǔ)集中提取關(guān)鍵詞;將所述關(guān)鍵詞與預(yù)構(gòu)建的字典進(jìn)行匹配得到目標(biāo)關(guān)鍵詞,根據(jù)所述目標(biāo)關(guān)鍵詞在預(yù)構(gòu)建的數(shù)據(jù)庫(kù)中查詢,得到初始文本集;根據(jù)所述初始文本集生成目標(biāo)文本。本發(fā)明還涉及區(qū)塊鏈技術(shù),所述待識(shí)別圖片可存儲(chǔ)于區(qū)塊鏈中。本發(fā)明可以實(shí)現(xiàn)節(jié)省存儲(chǔ)資源且更智能化的執(zhí)行文書(shū)等文本的自動(dòng)生成。本發(fā)明還涉及區(qū)塊鏈技術(shù),同時(shí)本發(fā)明還適用于智慧政務(wù)、智慧教育或者智慧醫(yī)療等領(lǐng)域,從而推動(dòng)智慧城市的建設(shè)。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于OCR技術(shù)的文本自動(dòng)生成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
文書(shū)通常是指公文、書(shū)信、契約等。不同的文書(shū)有不同的內(nèi)容和格式要求,目前,文書(shū)的制作方法主要有人工制作文書(shū)和基于數(shù)據(jù)庫(kù)的文書(shū)自動(dòng)生成方法。
所述人工制作文書(shū)是由多個(gè)領(lǐng)域?qū)<疫M(jìn)行討論,然后查閱大量資料人工編寫(xiě)文書(shū),過(guò)程繁瑣,且耗時(shí)較長(zhǎng)。所述基于數(shù)據(jù)庫(kù)的文書(shū)自動(dòng)生成方法通過(guò)收集常用文書(shū)范文,存入范文數(shù)據(jù)庫(kù),對(duì)范文精選后作為模板,把不同形式的模板框架及數(shù)據(jù)分別存入不同數(shù)據(jù)表中,利用關(guān)鍵詞檢索匹配模板后自動(dòng)生成文書(shū),但隨著文書(shū)內(nèi)容涉及的領(lǐng)域不斷更新,需要存儲(chǔ)大量的模板庫(kù),占用存儲(chǔ)資源,此外,已有的文書(shū)生成系統(tǒng)的智能化水平有待提高,生成的文書(shū)內(nèi)容中包含語(yǔ)法錯(cuò)誤和不相關(guān)文字。
發(fā)明內(nèi)容
本發(fā)明提供一種基于OCR技術(shù)的文本自動(dòng)生成方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其主要目的在于提供一種節(jié)省存儲(chǔ)資源且更智能化的文書(shū)等文本的自動(dòng)生成方法。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種基于OCR技術(shù)的文本自動(dòng)生成方法,包括:
利用預(yù)構(gòu)建的圖片文字識(shí)別方法對(duì)待識(shí)別圖片進(jìn)行文字識(shí)別,得到文本信息;
對(duì)所述文本信息依次進(jìn)行分詞和過(guò)濾,得到詞語(yǔ)集,基于圖排序算法從所述詞語(yǔ)集中提取關(guān)鍵詞;
將所述關(guān)鍵詞與預(yù)構(gòu)建的關(guān)鍵詞字典進(jìn)行匹配得到目標(biāo)關(guān)鍵詞,根據(jù)所述目標(biāo)關(guān)鍵詞在預(yù)構(gòu)建的文本素材集數(shù)據(jù)庫(kù)中查詢,得到初始文本集;
根據(jù)所述初始文本集生成目標(biāo)文本。
可選地,所述利用預(yù)構(gòu)建的圖片文字識(shí)別方法對(duì)待識(shí)別圖片進(jìn)行文字識(shí)別,得到文本信息,包括:
對(duì)所述待識(shí)別圖片進(jìn)行圖像預(yù)處理,得到標(biāo)準(zhǔn)圖片;
利用預(yù)設(shè)的文字識(shí)別模型對(duì)所述標(biāo)準(zhǔn)圖片進(jìn)行文字識(shí)別,得到所述文本信息。
可選地,所述利用預(yù)設(shè)的文字識(shí)別模型對(duì)所述標(biāo)準(zhǔn)圖片進(jìn)行文字識(shí)別,得到所述文本信息,包括:
通過(guò)所述文字識(shí)別模型的卷積層對(duì)所述標(biāo)準(zhǔn)圖片執(zhí)行卷積操作,從所述標(biāo)準(zhǔn)圖片中提取特征序列;
利用所述文字識(shí)別模型的循環(huán)層預(yù)測(cè)所述特征序列的標(biāo)簽分布;
根據(jù)所述標(biāo)簽分布,利用所述文字識(shí)別模型的轉(zhuǎn)錄層對(duì)所述特征序列進(jìn)行序列化識(shí)別,得到所述文本信息。
可選地,所述對(duì)所述文本信息依次進(jìn)行分詞和過(guò)濾,得到詞語(yǔ)集,包括:
利用前綴分詞詞典對(duì)所述文本信息進(jìn)行切分,得到一種或者多種劃分方式下的原始詞語(yǔ)集;
根據(jù)所述原始詞語(yǔ)集,通過(guò)首尾相連構(gòu)建有向無(wú)環(huán)圖;
采用動(dòng)態(tài)規(guī)劃算法計(jì)算所述有向無(wú)環(huán)圖中的最大概率路徑,得到所述文本信息的分詞結(jié)果;
根據(jù)預(yù)設(shè)的停用詞表對(duì)所述分詞結(jié)果進(jìn)行過(guò)濾,得到所述詞語(yǔ)集。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安銀行股份有限公司,未經(jīng)平安銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010727815.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- OCR文檔識(shí)別方法及其裝置
- 智能調(diào)度多OCR識(shí)別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識(shí)別方法、裝置和終端
- OCR識(shí)別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測(cè)方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評(píng)估方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識(shí)別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 技術(shù)評(píng)價(jià)裝置、技術(shù)評(píng)價(jià)程序、技術(shù)評(píng)價(jià)方法
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 視聽(tīng)模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫(kù)的技術(shù)推薦方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





