[發(fā)明專利]一種基于配置文件的規(guī)范文書處理方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201711408304.1 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108009137B | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設計)人: | 任寧;郝思洋 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F40/103 | 分類號: | G06F40/103;G06F40/279 |
| 代理公司: | 北京弘權知識產(chǎn)權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 配置文件 規(guī)范 文書 處理 方法 裝置 系統(tǒng) | ||
本申請實施例公開了一種基于配置文件的規(guī)范文書處理方法、裝置及系統(tǒng),使用至少一個抽取樹和一個可編輯的配置文件;抽取樹包括多個節(jié)點,節(jié)點中包含用于對規(guī)范文書進行節(jié)點匹配的表達式;所述配置文件包含多條配置,包括身份抽取類配置、文書切塊類配置和要素抽取類配置。根據(jù)配置文件中的所述身份抽取類配置,從規(guī)范文書中抽取文書身份;根據(jù)文書切塊類配置將已知文書身份的規(guī)范文書切分成多個內(nèi)容塊;根據(jù)要素抽取類配置,從每個內(nèi)容塊中抽取文書要素。由于,本申請使用了一個可編輯的配置文件,因此,只要編輯配置文件的內(nèi)容,就可以更改從規(guī)范文書中抽取的文書要素,從而,能夠適應不同的抽取文書要素的需求,適應性強。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種基于配置文件的規(guī)范文書處理方法、裝置及系統(tǒng)。
背景技術
規(guī)范文書(也可稱為專用文書),是指在特定的法律環(huán)境或商業(yè)環(huán)境下,給予個人或公司的某種特定格式的專業(yè)文件,規(guī)范文書通常具有約定俗稱的編寫格式和結構框架。規(guī)范文書通常用來表達某個指定類型的信息,具有特定的用途。例如,在法律領域,法院使用的裁判文書就以指定的格式記錄了案件的詳細信息;在商業(yè)領域,保險合同也以規(guī)范的格式記錄了保險所包含的各種約定條款。
由于,規(guī)范文書中包含了特定領域的具有指定用途和意義的信息,這些信息對相關領域的從業(yè)人士具有關注價值,因此,從規(guī)范文書中提取出有價值的信息(即文書要素),成為了相關領域從業(yè)人士的需求。為了滿足這種需求,現(xiàn)有技術提供的規(guī)范文書處理方法中,通常針對特定領域的使用的規(guī)范文書編寫不同的規(guī)范文書提取程序,以實現(xiàn)對特定規(guī)范文書的要素提取。但是,現(xiàn)有技術中的規(guī)范文書提取程序針對特定的規(guī)范文書編寫,對不同領域、不同用途的規(guī)范文書都需要編寫不同的提取程序,并且,文書要素的提取內(nèi)容通常會被固化在提取程序中,不易修改,每次修改都要重新編譯和發(fā)布程序,甚至重構程序。然而,對于相關領域的從業(yè)人士來說,根據(jù)實際需求的不同,對文書要素的需求也會發(fā)生變化,這就要求規(guī)范文書處理方法能夠根據(jù)用戶的需求可適應地修改,可見,上述現(xiàn)有技術的規(guī)范文書處理方法由于不易修改而無法滿足用戶的需求,因此,適用性差。
從上述現(xiàn)有技術可以看出,如何提供一種可適應文書要素提取需求變化、適應性強的規(guī)范文書處理方法,成為本領域技術人員亟待解決的技術問題。
發(fā)明內(nèi)容
本申請實施例提供了一種基于配置文件的規(guī)范文書處理方法、裝置及系統(tǒng),以解決現(xiàn)有技術中存在的問題。
第一方面,本申請實施例提供了一種基于配置文件的規(guī)范文書處理方法,使用至少一個抽取樹和一個可編輯的配置文件;
所述抽取樹包括多個節(jié)點,節(jié)點中包含用于對規(guī)范文書進行節(jié)點匹配的表達式;
所述配置文件包含多條配置,每條所述配置用于調(diào)用所述抽取樹中的節(jié)點對規(guī)范文書進行節(jié)點匹配,以及根據(jù)節(jié)點匹配結果對規(guī)范文書執(zhí)行預設的處理方式;每條所述配置以規(guī)范文書全文或其他所述配置對規(guī)范文書的處理結果作為處理對象;
所述配置包括身份抽取類配置、文書切塊類配置和要素抽取類配置,其中,所述文書切塊類配置以至少一條所述身份抽取類配置的節(jié)點匹配結果作為觸發(fā)的前置條件,所述要素抽取類配置以至少一條所述文書切塊類配置的節(jié)點匹配結果作為觸發(fā)的前置條件;
所述方法包括:
根據(jù)所述配置文件中的所述身份抽取類配置,從規(guī)范文書中抽取文書身份;根據(jù)所述身份抽取類配置的節(jié)點匹配結果,觸發(fā)滿足前置條件的所述文書切塊類配置;根據(jù)觸發(fā)的所述文書切塊類配置,對規(guī)范文書切塊,生成規(guī)范文書的多個內(nèi)容塊;根據(jù)所述文書切塊類配置的節(jié)點匹配結果,觸發(fā)滿足前置條件的所述要素抽取類配置;根據(jù)觸發(fā)的所述要素抽取類配置,從每個所述內(nèi)容塊中抽取文書要素。
第二方面,本申請實施例提供了一種基于配置文件的規(guī)范文書處理裝置,使用至少一個抽取樹和一個可編輯的配置文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經(jīng)鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711408304.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





