[發(fā)明專(zhuān)利]一種基于摘要方式的機(jī)器輔助閱讀審計(jì)方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810142416.5 | 申請(qǐng)日: | 2018-02-11 |
| 公開(kāi)(公告)號(hào): | CN110162765A | 公開(kāi)(公告)日: | 2019-08-23 |
| 發(fā)明(設(shè)計(jì))人: | 韓中華;姜偉;徐福海;吳雪軍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鼎復(fù)數(shù)據(jù)科技(北京)有限公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27 |
| 代理公司: | 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11426 | 代理人: | 范國(guó)鋒;劉冬梅 |
| 地址: | 100020 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 審計(jì) 抽取 功能區(qū)塊 機(jī)器輔助 類(lèi)別標(biāo)簽 摘要方式 摘要內(nèi)容 審閱 解析 分類(lèi)內(nèi)容 機(jī)器模型 審計(jì)成本 數(shù)據(jù)內(nèi)容 文本內(nèi)容 原文內(nèi)容 原文信息 閱讀 錄入 標(biāo)注 原文 文本 修正 輸出 合并 分類(lèi) 幫助 | ||
1.一種基于摘要方式的機(jī)器輔助閱讀審計(jì)方法,其特征在于,該方法包括以下步驟:
步驟100,錄入文本,并完成數(shù)據(jù)內(nèi)容及格式的解析;
步驟200,對(duì)解析后文本內(nèi)容進(jìn)行分類(lèi),將相同分類(lèi)內(nèi)容進(jìn)行聚合并標(biāo)注類(lèi)別標(biāo)簽,形成帶類(lèi)別標(biāo)簽的功能區(qū)塊;
步驟300,抽取各功能區(qū)塊中相應(yīng)的摘要內(nèi)容;
步驟400,輸出摘要內(nèi)容,結(jié)合審閱人員的意見(jiàn),形成審閱結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟100中,所述解析包括將錄入文本格式轉(zhuǎn)化為純文本格式;
優(yōu)選地,錄入文本為Word文檔或PDF文檔格式,將文檔中的內(nèi)容解析為XML數(shù)據(jù),再通過(guò)解析XML數(shù)據(jù)獲得純文本格式文本。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟100中,所述解析還包括順序給予解析后文本中子句相應(yīng)的編號(hào),并以編號(hào)形成句子索引。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟200中,采用邏輯回歸方法構(gòu)建分類(lèi)模型,進(jìn)行文本內(nèi)容分類(lèi);優(yōu)選地,以段落為基本單位進(jìn)行文本內(nèi)容分類(lèi)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟200中,分類(lèi)模型構(gòu)建包括訓(xùn)練過(guò)程和測(cè)試過(guò)程:
訓(xùn)練過(guò)程:將語(yǔ)料標(biāo)注為所屬的類(lèi)別,形成訓(xùn)練樣本;提取訓(xùn)練樣本的特征來(lái)訓(xùn)練模型;
測(cè)試過(guò)程:采用標(biāo)注的或未標(biāo)注語(yǔ)料作為測(cè)試樣本;提取測(cè)試樣本的特征后加載模型,獲得分類(lèi)結(jié)果;根據(jù)分類(lèi)結(jié)果對(duì)模型進(jìn)行調(diào)整,至獲得分類(lèi)準(zhǔn)確性高的模型;
其中,模型訓(xùn)練過(guò)程或者實(shí)際分類(lèi)過(guò)程中的特征提取過(guò)程包括:解析文檔結(jié)構(gòu),并將篇章結(jié)構(gòu)信息形成樹(shù)形文檔結(jié)構(gòu);通過(guò)該樹(shù)形文檔結(jié)構(gòu)將文檔各級(jí)標(biāo)題置于相應(yīng)文檔正文前,形成標(biāo)題+正文的內(nèi)容形式,以此內(nèi)容形式中文本為基礎(chǔ)進(jìn)行特征提取。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟300中,根據(jù)區(qū)塊特點(diǎn),對(duì)每一個(gè)功能區(qū)塊訓(xùn)練相應(yīng)的機(jī)器模型,抽取相應(yīng)的摘要內(nèi)容。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,步驟300中,除對(duì)每一個(gè)功能區(qū)塊訓(xùn)練相應(yīng)的機(jī)器模型外,還針對(duì)整篇文本訓(xùn)練普適性機(jī)器模型;
優(yōu)選地,采用針對(duì)各功能區(qū)塊的機(jī)器模型、以及普適性機(jī)器模型共同確定各功能區(qū)塊的摘要內(nèi)容。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟300中,摘要抽取的最小選取單位為子句,子句為以逗號(hào)、句號(hào)、問(wèn)號(hào)、感嘆號(hào)、分號(hào)分隔形成的短句;經(jīng)句子選取模型處理后,取排序高的前n句內(nèi)容對(duì)應(yīng)的子句作為摘要結(jié)果,其中n值可根據(jù)需求調(diào)整。
9.一種用于實(shí)施上述權(quán)利要求1至8之一所述方法的系統(tǒng),該系統(tǒng)包括:
錄入解析模塊,用于錄入文本,并完成數(shù)據(jù)內(nèi)容及格式的解析;
分塊分類(lèi)模塊,用于對(duì)解析后文本內(nèi)容進(jìn)行分類(lèi),將相同分類(lèi)內(nèi)容進(jìn)行聚合并標(biāo)注類(lèi)別標(biāo)簽,形成帶類(lèi)別標(biāo)簽的功能區(qū)塊;
摘要抽取模塊,用于抽取各功能區(qū)塊中相應(yīng)的摘要內(nèi)容;
摘要輸出編輯模塊,用于輸出摘要內(nèi)容,結(jié)合審閱人員的意見(jiàn),形成審閱結(jié)果。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,摘要輸出編輯模塊包括摘要輸出子模塊、摘要顯示子模塊和摘要編輯子模塊:
摘要輸出子模塊,用于接收摘要抽取模塊指示,根據(jù)摘要抽取模塊確定的抽取內(nèi)容,將相應(yīng)子句編號(hào)傳送至摘要顯示子模塊;
摘要顯示子模塊,用于接收摘要輸出子模塊發(fā)送的子句編號(hào)信息進(jìn)行子句內(nèi)容顯示;接收摘要編輯子模塊發(fā)送的編輯指令,刪除相應(yīng)的子句或顯示審閱人員編輯的意見(jiàn);
摘要編輯子模塊,接收啟動(dòng)編輯狀態(tài)指示并啟動(dòng)編輯狀態(tài),接收編輯指令并傳遞至摘要顯示子模塊,實(shí)施顯示內(nèi)容編輯。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鼎復(fù)數(shù)據(jù)科技(北京)有限公司,未經(jīng)鼎復(fù)數(shù)據(jù)科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810142416.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 操作調(diào)度系統(tǒng)及方法
- 網(wǎng)絡(luò)電話(huà)
- 集成電路熱模擬裝置及方法
- 區(qū)塊鏈節(jié)點(diǎn)演進(jìn)方法及區(qū)塊鏈節(jié)點(diǎn)
- 可配置銀關(guān)的區(qū)塊鏈構(gòu)建方法、裝置及電子設(shè)備
- 一種區(qū)塊鏈網(wǎng)絡(luò)的部署控制方法、裝置、設(shè)備和介質(zhì)
- 一種區(qū)塊處理方法及相關(guān)設(shè)備
- 基于大數(shù)據(jù)的城市開(kāi)放空間的分類(lèi)方法及裝置
- 基于區(qū)塊鏈的無(wú)線(xiàn)物聯(lián)網(wǎng)系統(tǒng)
- 一種腦功能數(shù)據(jù)分析的個(gè)體腦功能網(wǎng)絡(luò)提取方法





