[發明專利]一種文獻處理方法及裝置有效

申請號：	201811419695.1	申請日：	2018-11-26
公開（公告）號：	CN109635681B	公開（公告）日：	2021-11-26
發明（設計）人：	孟曉靜;高寶慶;王戰波	申請（專利權）人：	漢王科技股份有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/62
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文獻處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提供了一種文獻處理方法，屬于文獻處理領域，解決了現有技術中文獻數據處理效率低下的問題。所述方法包括：獲取用于表達目標文獻的體例特征的特征模版；根據特征模版對描述目標文獻的文本文件進行文本識別，確定目標文獻的業務特征的特征值；根據確定的業務特征的特征值和特征模版，輸出目標文獻的預設格式文獻信息。本申請實施例公開的文獻處理方法，基于特征模版進行文獻數據提取，不需要進行大數據量的語義識別，有效降低了運算量，有助于提升文獻數據提取的效率。

技術領域

本申請涉及文獻處理領域，尤其涉及一種文獻處理方法及裝置。

背景技術

古籍文獻是研究某一時期和/或某一地域的自然、社會、政治、經濟、文化等方面情況的重要依據。如地方志就是全面記載某一時期某一地域的自然、社會、政治、經濟、文化等方面情況的一種文獻。為了便于開展研究，以及便于文獻信息的查閱，古籍文獻的結構化顯得尤為重要。在古籍文獻的結構化過程中，通常做法是首先通過掃描識別，得到碎片化文獻中的詞語；然后，再通過對文獻中的詞語進行語義識別，從而對碎片化的文獻內容進行歸類整理或索引。

現有技術中的文獻處理方法需要進行大數據量的語義識別，存在文獻處理效率低下的問題。

發明內容

本申請實施例提供一種文獻處理方法及裝置，通過特征模板對文獻數據進行識別匹配，以解決文獻數據處理效率低下的問題。

第一方面，本申請實施例提供了一種文獻處理方法，包括：

獲取用于表達目標文獻的體例特征的特征模版，所述特征模版包括：業務特征；

根據所述特征模版對描述所述目標文獻的文本文件進行文本識別，確定目標文獻的業務特征的特征值；

根據確定的所述業務特征的特征值和所述特征模版，輸出所述目標文獻的預設格式文獻信息。

可選的，所述獲取用于表達目標文獻的體例特征的特征模版的步驟之前，還包括：

根據所述目標文獻的業務特征和所述業務特征在所述目標文獻中出現的先后順序及重復規律，構建具有體例層級關系的特征模版。

可選的，所述特征模版包括每個體例層級的格式特征和業務特征，所述根據所述特征模版對描述所述目標文獻的文本文件進行文本識別，確定目標文獻的業務特征的特征值的步驟，包括：

按照體例層級關系由高到低的順序，在所述描述所述目標文獻的文本文件中從前向后依次識別與所述特征模版中各體例層級的格式特征和業務特征匹配的文本；

根據識別得到的文本，確定所述目標文獻的各體例層級的業務特征的特征值。

可選的，所述文本文件中依次記錄所述目標文獻中的文本塊，所述按照體例層級關系由高到低的順序，在所述描述所述目標文獻的文本文件中從前向后依次識別與所述特征模版中各體例層級的格式特征和業務特征匹配的文本的步驟，包括：

起始條件確定子步驟，用于確定所述特征模版中的最高體例層級為指定體例層級，以及，確定所述文本文件的首個文本塊為指定文本塊；

逐層匹配子步驟，用于按照體例層級關系由高到低的順序，依次將所述特征模版中所述指定體例層級以下各體例層級的格式特征和業務特征確定為當前格式特征和當前業務特征，并在每次確定所述當前格式特征和當前業務特征之后，分別執行從描述所述目標文獻的文本文件中指定文本塊起從前向后遍歷所述文本文件，確定所述文本文件中所述指定文本塊之后首個與所述當前格式特征和當前業務特征匹配的文本塊的操作，直至所述文本文件遍歷完成，或者直至首個與所述特征模版的最低體例層級中的格式特征和業務特征匹配的文本塊確定成功；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于漢王科技股份有限公司，未經漢王科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811419695.1/2.html，轉載請聲明來源鉆瓜專利網。