[發明專利]word文檔關鍵信息抽取方法在審
| 申請號: | 202011290565.X | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112668316A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 張麗;董雨辰;張翔宇;杜慧;解崢;鐘習;陳志鵬;俞曉明;劉悅 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/205;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 卞靜靜 |
| 地址: | 100029 北京市朝陽區裕民*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | word 文檔 關鍵 信息 抽取 方法 | ||
本發明公開了一種word文檔關鍵信息抽取方法,其包括:步驟一、獲取源word文檔,遍歷word文檔的段落,對于任一段落,判斷段落是否具有模板樣式屬性,若具有模板樣式屬性,則進入步驟二,否則進入步驟三;步驟二、根據段落的模板樣式屬性獲取段落信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入至輸出文件一中所屬信息類別對應的區域;步驟三、基于預設的神經網絡模型識別段落的信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入所屬信息類別對應的區域。本發明利用了word文檔中的模板樣式屬性的信息,從而極大地提高了word文檔抽取關鍵信息地效率。
技術領域
本發明涉及信息內容加工技術領域。更具體地說,本發明涉及一種word文檔關鍵信息抽取方法。
背景技術
現有的MS Word文檔關鍵信息抽取方法主要是由程序員編寫特定的程序進行抽取,各種方法的具體差異很大,沒有一種固定的標準。現有的關鍵信息抽取存在不能有效地抽取MS Word文檔中有樣式的段落;已有技術的可定制性較差,用戶很多時候不能選擇抽取哪些類型的關鍵信息;對于無樣式的段落,沒有一種有效的抽取方案;抽取文件的輸出并不規范等缺陷。
發明內容
本發明的一個目的是解決至少上述問題,并提供至少后面將說明的優點。
本發明還有一個目的是提供一種word文檔關鍵信息抽取方法,本發明利用了word文檔段落的模板樣式屬性地信息,將word文檔的段落按照是否具有模板樣式屬性進行分類,對于不同類型的段落采用不同的關鍵信息提取方法,極大地提高了word文檔關鍵信息的抽取效率;本發明將抽取的關鍵信息采用統一格式的文件輸出,使得程序的結果更加清晰明了。
為了實現根據本發明的這些目的和其它優點,提供了一種word文檔關鍵信息抽取方法,其包括:
步驟一、獲取源word文檔,遍歷word文檔的段落,對于任一段落,判斷段落是否具有模板樣式屬性,若具有模板樣式屬性,則進入步驟二;若不具有模板樣式屬性,則進入步驟三;
步驟二、根據段落的模板樣式屬性獲取段落信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入至輸出文件一中所屬信息類別對應的區域;
步驟三、基于預設的神經網絡模型識別段落的信息類別,并與預設的待抽取關鍵信息類別列表進行匹配,將段落抽取并輸入至輸出文件一中所屬信息類別對應的區域。
優選的是,所述的word文檔關鍵信息抽取方法,預設的待抽取關鍵信息類別列表至少包括標題、正文、表格等類別。
優選的是,所述的word文檔關鍵信息抽取方法,步驟三中,基于預設的神經網絡模型識別段落的信息類別具體為:根據預設的格式屬性規則,對段落進行預處理,并提取得到特征向量M,將特征向量M輸入至預設的神經網絡模型中,獲取神經網絡模型的輸出結果,根據輸出結果確定段落的信息類別;
其中,M=[m1、m2、…mn],其中m表示一種格式屬性;
所述神經網絡模型包括三層全連接層,第一層全連接層的輸出維度為50;第二層全連接層的輸出維度為20,第三層全連接層的輸出維度為n;n與預設的待抽取關鍵信息類別信息中的類別個數相等。
優選的是,所述的word文檔關鍵信息抽取方法,所述格式屬性包括字號、字體、文本長度、段間距、是否加黑、是否加粗、是否斜體等中的至少一個。
優選的是,所述的word文檔關鍵信息抽取方法,還包括,步驟四將word文檔的所有段落按照預設的格式屬性,進行格式處理,并形成新的word文檔作為輸出文件二。
優選的是,所述的word文檔關鍵信息抽取方法,所述文件一為json格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所,未經國家計算機網絡與信息安全管理中心;中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011290565.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





