[發(fā)明專利]一種公文特征提取方法、裝置、設(shè)備和介質(zhì)有效
| 申請?zhí)枺?/td> | 202011253863.1 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112686012B | 公開(公告)日: | 2023-03-31 |
| 發(fā)明(設(shè)計)人: | 黃敬林;莊莉;梁懿;林振天;池少寧;翁明東 | 申請(專利權(quán))人: | 福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國網(wǎng)信通億力科技有限責(zé)任公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186 |
| 代理公司: | 廣州京諾知識產(chǎn)權(quán)代理有限公司 44407 | 代理人: | 軒青濤 |
| 地址: | 350000 福建省福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 公文 特征 提取 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種公文特征提取方法,包括:公文提取模板定義過程和公文特征提取過程;通過可擴展標(biāo)記語言自定義公文提取模板,所述公文提取模板包括:附件提取標(biāo)識標(biāo)簽、拆分句子規(guī)則標(biāo)簽以及至少一個提取特征字段標(biāo)簽;然后根據(jù)公文提取模板中的附件提取標(biāo)識標(biāo)簽,獲取公文正文或公文正文及附件作為待提取公文,將待提取公文轉(zhuǎn)化為用可擴展標(biāo)記語言格式內(nèi)容;根據(jù)拆分句子規(guī)則標(biāo)簽將待提取公文進行句子拆分;根據(jù)提取特征字段標(biāo)簽逐句進行特征字段提取并輸出。本發(fā)明提供的一種公文特征提取方法、裝置、設(shè)備和介質(zhì),通過定義公文特征提取模版,以搭積木的方式實現(xiàn)對非結(jié)構(gòu)化公文的特征提取,大大簡化對公文特征提取的難度。
技術(shù)領(lǐng)域
本發(fā)明涉及公文管理技術(shù)領(lǐng)域,特別涉及一種公文特征提取方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù)
公文是法定機關(guān)與組織在公務(wù)活動中,按照特定的體式、經(jīng)過一定的處理程序形成和使用的書面材料,又稱公務(wù)文件。無論從事專業(yè)工作,還是從事行政事務(wù),都要學(xué)會通過公文來傳達政令政策、處理公務(wù),以保證協(xié)調(diào)各種關(guān)系,決定事務(wù)使工作正確地、高效地進行。公文特征提取是針對公文內(nèi)容深度分析的主要手段,隨著人工智能、自然語言處理、文本挖掘等相關(guān)技術(shù)的不斷深入,對公文特征提取的手段也不斷豐富。
現(xiàn)階段公文特征提取系統(tǒng)主要局限于在已有的元數(shù)據(jù)中進行梳理,形成完整的元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),還未有針對公文非結(jié)構(gòu)化文件提取特征的系統(tǒng)。現(xiàn)有針對公文特征提取的方法主要是通過對已有的元數(shù)據(jù)進行分析及非結(jié)構(gòu)化文件段落內(nèi)容提取形成公文特征信息,主要通過關(guān)鍵詞提取、分詞等相關(guān)技術(shù)來實現(xiàn)。
現(xiàn)有公文特征提取系統(tǒng)主要存在代碼復(fù)雜、可復(fù)用性不強等特點。需要針對不同的文檔編寫代碼進行特征的抽取,需要耗費大量的人員投入。對提取的特征信息很難具像化的呈現(xiàn),代碼難于調(diào)試與修改,給文檔智能化的應(yīng)用帶來巨大的難題和難以突破的業(yè)務(wù)點。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題,在于提供一種公文特征提取方法、裝置、設(shè)備和介質(zhì),通過定義公文特征提取模版,以搭積木的方式實現(xiàn)對非結(jié)構(gòu)化公文的特征提取,大大簡化對公文特征提取的難度。
第一方面,本發(fā)明提供了一種公文特征提取方法,包括:公文提取模板定義過程和公文特征提取過程;
所述公文提取模板定義過程包括:
通過可擴展標(biāo)記語言自定義公文提取模板,所述公文提取模板包括:附件提取標(biāo)識標(biāo)簽、拆分句子規(guī)則標(biāo)簽以及至少一個提取特征字段標(biāo)簽;所述附件提取標(biāo)識標(biāo)簽用于定義提取文件特征時是否包含公文中的附件;所述拆分句子規(guī)則標(biāo)簽用于定義公文的句子拆分規(guī)則;所述提取特征字段標(biāo)簽用于定義提取公文特征字段的內(nèi)容和方式;
所述公文特征提取過程包括:
根據(jù)公文提取模板中的附件提取標(biāo)識標(biāo)簽,獲取公文正文或公文正文及附件作為待提取公文,將待提取公文轉(zhuǎn)化為用可擴展標(biāo)記語言格式內(nèi)容;
根據(jù)拆分句子規(guī)則標(biāo)簽將待提取公文進行句子拆分;
根據(jù)提取特征字段標(biāo)簽逐句進行特征字段提取并輸出。
進一步地,所述提取特征字段標(biāo)簽包括:按句提取特征字段標(biāo)簽、分組提取特征字段標(biāo)簽以及按段落拆分提取標(biāo)簽;
所述按句提取特征字段標(biāo)簽用于按句提取公文特征字段的信息,所述按句提取特征字段標(biāo)簽用正則表達式定義;
所述分組提取特征字段標(biāo)簽用于以分組的形式提取公文特征字段的信息,所述分組提取特征字段標(biāo)簽可嵌套按句提取特征字段的規(guī)則;
所述按段落拆分提取標(biāo)簽用于按段拆分提取公文特征字段的信息,所述按段落拆分提取標(biāo)簽可嵌套按句提取特征字段的規(guī)則。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國網(wǎng)信通億力科技有限責(zé)任公司,未經(jīng)福建億榕信息技術(shù)有限公司;國網(wǎng)信息通信產(chǎn)業(yè)集團有限公司;國網(wǎng)信通億力科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011253863.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





