[發(fā)明專利]文檔信息整合方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品在審
| 申請?zhí)枺?/td> | 202210199157.6 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114564930A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 高毓斌 | 申請(專利權(quán))人: | 中國建設(shè)銀行股份有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 康歡歡 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 信息 整合 方法 裝置 設(shè)備 介質(zhì) 程序 產(chǎn)品 | ||
本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,公開了一種文檔信息整合方法、裝置、系統(tǒng)、設(shè)備、介質(zhì)和程序產(chǎn)品,其中,方法包括:獲取待評估對象名單,根據(jù)待評估對象名單獲取對應(yīng)的非結(jié)構(gòu)化的信息源文檔,根據(jù)該待評估對象對應(yīng)的信息源文檔中各文檔的文檔編號,匹配與各文檔相對應(yīng)的內(nèi)容提取規(guī)則,基于內(nèi)容提取規(guī)則從非結(jié)構(gòu)化的信息源文檔中提取目標(biāo)關(guān)鍵信息,進(jìn)而根據(jù)預(yù)設(shè)信息整合模板以及目標(biāo)關(guān)鍵信息整合得到目標(biāo)結(jié)構(gòu)化文檔,實(shí)現(xiàn)了多源非結(jié)構(gòu)文檔的信息提取以及信息整合,無需針對每一種類型的源文檔單獨(dú)配置整合模板,解決了現(xiàn)有技術(shù)中依賴復(fù)雜的模板配置進(jìn)行信息提取技術(shù)問題,提高了多源非結(jié)構(gòu)文檔信息提取與整合的效率。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文檔信息整合方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品。
背景技術(shù)
在一些項(xiàng)目評估或者金融領(lǐng)域內(nèi)的授信評估場景下,需要對大量的相關(guān)信息內(nèi)容進(jìn)行分析與評估。但是,待評估信息內(nèi)容的文檔來源較多,且文檔數(shù)量也較大,需要預(yù)先將各文檔中的有效信息進(jìn)行提取與整合。
目前,多基于模板引擎(Freemarker)為每個(gè)類型文檔編寫模板,進(jìn)而根據(jù)文檔模板結(jié)構(gòu)進(jìn)行文檔內(nèi)容的提取。但是,各文檔來源多樣格式多樣,模板配置難度較大,導(dǎo)出內(nèi)容占用空間較大,導(dǎo)出內(nèi)容為非標(biāo)準(zhǔn)文檔,難以動態(tài)再加工的問題,導(dǎo)致信息整合的效率較低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種文檔信息整合方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品,以實(shí)現(xiàn)提高多源非結(jié)構(gòu)文檔信息提取與整合的效率。
第一方面,本發(fā)明實(shí)施例提供了一種文檔信息整合方法,該方法包括:
獲取待評估對象名單,并根據(jù)所述待評估對象名單獲取對應(yīng)的信息源文檔,其中,所述信息源文檔為非結(jié)構(gòu)化文檔;
針對所述待評估對象名單中的每個(gè)待評估對象,根據(jù)與待評估對象對應(yīng)的信息源文檔中各文檔的文檔編號匹配與各文檔相對應(yīng)的內(nèi)容提取規(guī)則,并按照所述內(nèi)容提取規(guī)則提取目標(biāo)關(guān)鍵信息;
按照預(yù)設(shè)信息整合模板,將所述目標(biāo)關(guān)鍵信息進(jìn)行整合,生成目標(biāo)結(jié)構(gòu)化文檔。
可選的,所述根據(jù)與待評估對象對應(yīng)的信息源文檔中各文檔的文檔編號匹配與各文檔相對應(yīng)的內(nèi)容提取規(guī)則,并按照所述內(nèi)容提取規(guī)則提取目標(biāo)關(guān)鍵信息,包括:
根據(jù)所述文檔編號確定信息源文檔對應(yīng)的文檔類型,并根據(jù)所述文檔類型匹配對應(yīng)的內(nèi)容提取規(guī)則;
基于所述內(nèi)容提取規(guī)則中的預(yù)設(shè)關(guān)鍵詞信息在對應(yīng)類型的信息源文檔中提取出目標(biāo)關(guān)鍵信息。
可選的,所述基于所述內(nèi)容提取規(guī)則中的預(yù)設(shè)關(guān)鍵詞信息在對應(yīng)類型的信息源文檔中提取出目標(biāo)關(guān)鍵信息,包括:
獲取所述預(yù)設(shè)關(guān)鍵詞信息中的第一預(yù)設(shè)關(guān)鍵詞詞組;
根據(jù)所述第一預(yù)設(shè)關(guān)鍵詞詞組中第一開始關(guān)鍵詞和第一結(jié)束關(guān)鍵詞,匹配并提取以所述第一開始關(guān)鍵詞為起始位置,且以所述第一結(jié)束關(guān)鍵詞為結(jié)束位置的第一段落。
可選的,所述基于所述內(nèi)容提取規(guī)則中的預(yù)設(shè)關(guān)鍵詞信息在對應(yīng)類型的信息源文檔中提取出目標(biāo)關(guān)鍵信息,還包括:
獲取所述預(yù)設(shè)關(guān)鍵詞信息中的第二預(yù)設(shè)關(guān)鍵詞詞組;
根據(jù)所述第二預(yù)設(shè)關(guān)鍵詞詞組中第二開始關(guān)鍵詞和第二結(jié)束關(guān)鍵詞,匹配以所述第二開始關(guān)鍵詞為起始位置,且以所述第二結(jié)束關(guān)鍵詞為結(jié)束位置的第二段落;
在所述第二段落中,提取包含第一預(yù)設(shè)關(guān)鍵詞的句子。
可選的,所述基于所述內(nèi)容提取規(guī)則中的預(yù)設(shè)關(guān)鍵詞信息在對應(yīng)類型的信息源文檔中提取出目標(biāo)關(guān)鍵信息,還包括:
提取包含第二預(yù)設(shè)關(guān)鍵詞的表格或表格中的單元格內(nèi)容。
可選的,所述獲取待評估對象名單,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國建設(shè)銀行股份有限公司,未經(jīng)中國建設(shè)銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210199157.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





