[發(fā)明專利]一種基于大數(shù)據(jù)分析的OFD版式文件的自動(dòng)簽章方法及系統(tǒng)在審
申請(qǐng)?zhí)枺?/td> | 202110361731.9 | 申請(qǐng)日: | 2021-04-02 |
公開(公告)號(hào): | CN113112222A | 公開(公告)日: | 2021-07-13 |
發(fā)明(設(shè)計(jì))人: | 陸猛;孫高健;趙云;莊玉龍;張偉;謝文迅;孫肖輝;郭尚;楊瑞欽 | 申請(qǐng)(專利權(quán))人: | 北京點(diǎn)聚信息技術(shù)有限公司 |
主分類號(hào): | G06Q10/10 | 分類號(hào): | G06Q10/10;G06F40/289;G06K9/00 |
代理公司: | 北京工信聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 11266 | 代理人: | 蘆玲玲 |
地址: | 100096 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 分析 ofd 版式 文件 自動(dòng) 簽章 方法 系統(tǒng) | ||
1.一種基于大數(shù)據(jù)分析的OFD版式文件的自動(dòng)簽章方法,其特征在于,所述方法包括:
構(gòu)建初始的自動(dòng)簽章模型;其中,所述自動(dòng)簽章模型,包括:基礎(chǔ)信息和規(guī)則信息;
獲取用戶的至少一個(gè)歷史簽章文檔,對(duì)所述至少一個(gè)歷史簽章文檔以簽章位置為中心解析預(yù)設(shè)范圍內(nèi)的文字內(nèi)容,并對(duì)所述文字內(nèi)容進(jìn)行分詞處理,獲取每個(gè)歷史簽章文檔對(duì)應(yīng)的規(guī)則信息;
根據(jù)用戶的基礎(chǔ)信息和每個(gè)歷史簽章文檔對(duì)應(yīng)的規(guī)則信息對(duì)所述初始的自動(dòng)簽章模型進(jìn)行訓(xùn)練,以獲取經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型;
接收用戶根據(jù)待簽章文檔發(fā)送的文檔簽章請(qǐng)求,對(duì)所述文檔簽章請(qǐng)求進(jìn)行解析,確定目標(biāo)基礎(chǔ)信息,并根據(jù)所述目標(biāo)基礎(chǔ)信息利用所述經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型自動(dòng)對(duì)所述待簽章文檔進(jìn)行簽章。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基礎(chǔ)信息,包括:印章信息和用戶信息,所述規(guī)則信息,包括:簽章位置中心的核心文字、簽章位置與核心文字的相對(duì)坐標(biāo)信息和相關(guān)文字。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
采集用戶每次對(duì)文檔手動(dòng)蓋章的位置信息,并計(jì)算每個(gè)文字使用的次數(shù),確定每個(gè)文字對(duì)應(yīng)的頻度,優(yōu)化自動(dòng)簽章模型的可用性和適用性;針對(duì)每個(gè)自動(dòng)簽章模型中的多個(gè)文字內(nèi)容生成對(duì)應(yīng)的頻繁項(xiàng)集:{X,Y1,Y2,…,Yn}=Z;即X,Y1,Y2,…,Xn出現(xiàn)在同一個(gè)區(qū)域,則X所在區(qū)域?yàn)楹炚挛恢茫黄渲校琗為核心文字,Y1,Y2,…,Xn為相關(guān)文字;Z為蓋章區(qū)域。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
針對(duì)每個(gè)自動(dòng)簽章模型,設(shè)置對(duì)應(yīng)的最小頻度,通過(guò)最小頻度進(jìn)行模型評(píng)價(jià),使用已簽章的文檔進(jìn)行重復(fù)簽章測(cè)試,確定自動(dòng)簽章位置與已簽章位置的差異;其中,評(píng)價(jià)模型質(zhì)量的指標(biāo)包括:平均誤差率和線性回歸判定系數(shù)R2。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述目標(biāo)基礎(chǔ)信息利用所述經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型自動(dòng)對(duì)所述待簽章文檔進(jìn)行簽章,包括:
根據(jù)所述目標(biāo)基礎(chǔ)信息確定對(duì)應(yīng)的經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型,并利用對(duì)應(yīng)的經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型確定至少一個(gè)核心文字;
選取所述至少一個(gè)核心文字中頻度最大的文字作為目標(biāo)核心文字,根據(jù)所述目標(biāo)核心文字關(guān)聯(lián)出模型庫(kù)中的相關(guān)文字,并選取所述相關(guān)文字中頻度最大的文字作為目標(biāo)相關(guān)文字;
對(duì)所述待簽章文檔進(jìn)行分析,確定所述目標(biāo)核心文字在所述待簽章文檔中的位置,獲取目標(biāo)核心文字坐標(biāo)信息;
根據(jù)所述目標(biāo)核心文字坐標(biāo)信息和預(yù)設(shè)的分析范圍確定內(nèi)容提取區(qū)域,并對(duì)所述內(nèi)容提取區(qū)域中的文字進(jìn)行識(shí)別和分詞處理,以獲取分詞數(shù)據(jù);
將所述分詞數(shù)據(jù)與所述目標(biāo)中滿足頻度要求的相關(guān)文字進(jìn)行比對(duì),當(dāng)匹配度大于預(yù)設(shè)的最小匹配度時(shí),在所述目標(biāo)核心文字坐標(biāo)信息處進(jìn)行簽章。
6.一種基于大數(shù)據(jù)分析的OFD版式文件的自動(dòng)簽章系統(tǒng),其特征在于,所述系統(tǒng)包括:
自動(dòng)簽章模型構(gòu)建單元,用于構(gòu)建初始的自動(dòng)簽章模型;其中,所述自動(dòng)簽章模型,包括:基礎(chǔ)信息和規(guī)則信息;
規(guī)則信息確定單元,用于獲取用戶的至少一個(gè)歷史簽章文檔,對(duì)所述至少一個(gè)歷史簽章文檔以簽章位置為中心解析預(yù)設(shè)范圍內(nèi)的文字內(nèi)容,并對(duì)所述文字內(nèi)容進(jìn)行分詞處理,獲取每個(gè)歷史簽章文檔對(duì)應(yīng)的規(guī)則信息;
自動(dòng)簽章模型訓(xùn)練單元,用于根據(jù)用戶的基礎(chǔ)信息和每個(gè)歷史簽章文檔對(duì)應(yīng)的規(guī)則信息對(duì)所述初始的自動(dòng)簽章模型進(jìn)行訓(xùn)練,以獲取經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型;
自動(dòng)簽章單元,用于接收用戶根據(jù)待簽章文檔發(fā)送的文檔簽章請(qǐng)求,對(duì)所述文檔簽章請(qǐng)求進(jìn)行解析,確定目標(biāo)基礎(chǔ)信息,并根據(jù)所述目標(biāo)基礎(chǔ)信息利用所述經(jīng)過(guò)訓(xùn)練的自動(dòng)簽章模型自動(dòng)對(duì)所述待簽章文檔進(jìn)行簽章。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述基礎(chǔ)信息,包括:印章信息和用戶信息,所述規(guī)則信息,包括:簽章位置中心的核心文字、簽章位置與核心文字的相對(duì)坐標(biāo)信息和相關(guān)文字。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京點(diǎn)聚信息技術(shù)有限公司,未經(jīng)北京點(diǎn)聚信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361731.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問(wèn)題”或“下料問(wèn)題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種OFD格式文檔支持腳本的方法
- 一種基于OFD文檔的增量修改方法
- 一種基于OFD格式文件的長(zhǎng)效數(shù)字簽名方法
- 一種基于XML模板生成OFD版式頁(yè)面的方法和裝置
- 一種OFD文檔的處理方法、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- OFD文件合并展現(xiàn)及目錄生成方法
- OFD電子文件的線性化存取方法
- 基于SVG的OFD文件在線顯示方法、服務(wù)器端及系統(tǒng)
- 采用版式數(shù)據(jù)流文件技術(shù)對(duì)OFD文件安全管控的方法
- 一種基于云服務(wù)的OFD版式發(fā)票解析方法、系統(tǒng)及設(shè)備