[發明專利]文檔目錄自動生成方法、裝置及計算機可讀存儲介質在審
| 申請號: | 201910965809.0 | 申請日: | 2019-10-11 |
| 公開(公告)號: | CN110852079A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 侯麗;佘昊天 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 目錄 自動 生成 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明涉及一種人工智能技術,揭露了一種文檔目錄自動生成方法,包括:提取目標文檔中的初始標題,基于所述初始標題確定所述目標文檔的初始標題規則;將所述初始標題規則輸入至預先構建的生成對抗網絡模型中訓練,得訓練后的標題規則;基于訓練后的所述標題規則,生成正則表達式;遍歷所述目標文檔全部內容,將所述目標文檔中的內容與所述正則表達式進行對比分析,提取出所述目標文檔的全部所述標題,按照遍歷先后順序排列全部所述標題,生成文檔目錄。本發明還提出一種文檔目錄自動生成裝置以及一種計算機可讀存儲介質。本發明可以實現精準高效的文檔目錄自動生成功能。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種對文檔結構的深度學習進而生成文檔目錄的方法、裝置及計算機可讀存儲介質。
背景技術
目前已有的提取文檔目錄的方法主要是通過POI(Point of Interest,興趣點)讀取一個word文檔。現有技術只能按段落讀取,無法識別文檔的具體結構。此外,在文檔中有多級標題的情況下,現有方法不能把文檔中的目錄結構完整、準確地提取出來。
發明內容
本發明提供一種文檔目錄自動生成方法、裝置及計算機可讀存儲介質,其主要目的在于提供一種對目標文檔進行深度學習從而得到文檔目錄的方法。
為實現上述目的,本發明提供的一種文檔目錄自動生成方法,包括:
提取目標文檔中的初始標題,基于所述初始標題確定所述目標文檔的初始標題規則;
將所述初始標題規則輸入至預先構建的生成對抗網絡模型中訓練,得到訓練后的標題規則;
基于訓練后的所述標題規則,生成正則表達式;
遍歷所述目標文檔全部內容,將所述目標文檔中的內容與所述正則表達式進行對比分析,提取出所述目標文檔的全部所述標題,按照遍歷先后順序排列全部所述標題,生成文檔目錄。
可選地,所述文檔目錄自動生成方法還包括:構建所述生成對抗網絡模型,包括:
建立生成模型和判別模型;將所述生成模型和判別模型通過互相博弈學習得到最優化解,其中,所述最優化解包括所述訓練后的標題規則。
可選地,所述生成正則表達式之前,所述文檔目錄自動生成方法還包括:
基于訓練后的標題規則生成狀態機;其中,所述生成狀態機包括:
對訓練后的標題規則進行語法解析,并將所述訓練后的標題規則改寫成狀態機構建所需的狀態機規則;根據所述狀態機規則進行狀態機構建;
將構建的狀態機轉換成生成正則表達式所需要的格式并存儲。
可選地,所述遍歷所述目標文檔全部內容,將所述目標文檔中的內容與所述正則表達式進行對比分析,提取出所述目標文檔的全部所述標題,包括:
遍歷所述目標文檔全部內容,從所述目標文檔提取一個或多個感興趣點;
通過所述感興趣點提取所述目標文檔的內容,識別所述目標文檔的大綱結構;
將所述目標文檔的大綱結構與所述正則表達式進行對比匹配分析,若所述目標文檔中內容與所述正則表達式匹配,則確認所述目標文檔中內容為所述標題,并提取所述標題,若所述目標文檔中內容與正則表達式不匹配,則確認所述目標文檔中內容為文本。
可選地,所述文檔目錄為可擴展標記語言;所述目標文檔的文件格式為MicrosoftOffice Word。
此外,為實現上述目的,本發明還提供一種文檔目錄自動生成裝置,該裝置包括存儲器和處理器,所述存儲器中存儲有可在所述處理器上運行的文檔目錄自動生成程序,所述文檔目錄自動生成程序被所述處理器執行時實現如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910965809.0/2.html,轉載請聲明來源鉆瓜專利網。





