[發明專利]word文檔關鍵信息抽取方法在審
| 申請號: | 202011290565.X | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112668316A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 張麗;董雨辰;張翔宇;杜慧;解崢;鐘習;陳志鵬;俞曉明;劉悅 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/205;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 卞靜靜 |
| 地址: | 100029 北京市朝陽區裕民*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | word 文檔 關鍵 信息 抽取 方法 | ||
1.word文檔關鍵信息抽取方法,其特征在于,其包括:
步驟一、獲取源word文檔,遍歷word文檔的段落,對于任一段落,判斷段落是否具有模板樣式屬性,若具有模板樣式屬性,則進入步驟二;若不具有模板樣式屬性,則進入步驟三;
步驟二、根據段落的模板樣式屬性獲取段落信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入至輸出文件一中所屬信息類別對應的區域;
步驟三、基于預設的神經網絡模型識別段落的信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入至輸出文件一中所屬信息類別對應的區域。
2.如權利要求1所述的word文檔關鍵信息抽取方法,其特征在于,預設的待抽取關鍵信息類別列表至少包括標題、正文、表格等類別。
3.如權利要求2所述的word文檔關鍵信息抽取方法,其特征在于,步驟三中,基于預設的神經網絡模型識別段落的信息類別具體為:根據預設的格式屬性規則,對段落進行預處理,并提取得到特征向量M,將特征向量M輸入至預設的神經網絡模型中,獲取神經網絡模型的輸出結果,根據輸出結果確定段落的信息類別;
其中,M=[m1、m2、…mn],其中m表示一種格式屬性;
所述神經網絡模型包括三層全連接層,第一層全連接層的輸出維度為50;第二層全連接層的輸出維度為20,第三層全連接層的輸出維度為n;n與預設的待抽取關鍵信息類別信息中的類別個數相等。
4.如權利要求3所述的word文檔關鍵信息抽取方法,其特征在于,所述格式屬性包括字號、字體、文本長度、段間距、是否加黑、是否加粗、是否斜體等中的至少一個。
5.如權利要求4所述的word文檔關鍵信息抽取方法,其特征在于,還包括,步驟四將word文檔的所有段落按照預設的格式屬性,進行格式處理,并形成新的word文檔作為輸出文件二。
6.如權利要求5所述的word文檔關鍵信息抽取方法,其特征在于,所述文件一為json格式。
7.如權利要求6所述的word文檔關鍵信息抽取方法,其特征在于,步驟一中獲取word文檔具體為:填寫配置文件,所述配置文件包括待處理的文件名稱字段,待處理的文件存儲路徑字段;讀取待處理的文件名稱字段,待處理的文件存儲路徑字段,并解析文件名稱、文件存儲路徑,獲取文件;
其中,文件為word文檔或文件夾,若文件為word文檔時,獲取word文檔并遍歷word文檔中的所有段落;若文件為文件夾時,啟動多個線程,一個線程對應獲取文件夾中的至少一個word文檔并遍歷word文檔中的所有段落。
8.如權利要求7所述的word文檔關鍵信息抽取方法,其特征在于,所述配置文件還包括待抽取的關鍵信息類別字段;步驟一中,獲取word文檔的同時,讀取待抽取的關鍵信息類別字段,設置待抽取的關鍵信息類別形成預設的待抽取的關鍵信息類別列表。
9.word文檔關鍵信息抽取裝置,其特征在于,其包括:
處理器;
存儲器,其存儲有可執行指令;
其中,所述處理器被配置為執行所述可執行指令,以執行權利要求1~8任一所述的word文檔關鍵信息抽取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所,未經國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011290565.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





