[發明專利]基于機器學習的電子文檔分析系統及方法有效
| 申請號: | 201810236000.X | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108334501B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 王欣;楊煜清;施舉紅 | 申請(專利權)人: | 王欣;楊煜清;施舉紅 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G16H50/70 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 武媛;呂學文 |
| 地址: | 100005 北京市東城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 電子 文檔 分析 系統 方法 | ||
1.基于機器學習的電子文檔分析方法,其特征在于,所述分析方法包括以下步驟:
步驟一:電子文檔分析者通過用戶管理模塊進入分析系統,并利用文檔提交模塊提交待分析的電子文檔,機器學習算法模塊提取電子文檔的文字和圖像信息進行存儲,同時記錄文字和圖像的位置對應關系;
步驟二:利用文檔特征描述模塊對所提交的電子文檔結構和待提取的目標信息進行特征描述,若用于描述大于一個的電子文檔結構,機器學習算模塊判別最符合于當前電子文檔的描述類型,然后再進行結構解析;
步驟三,機器學習算法模塊依據電子文檔結構解析結果和目標信息內容特征進行模型訓練和信息提取,分析者對文檔內容特征描述或機器學習算法提取的信息進行修改,機器學習算法模塊對修改的特征對應的模型重新進行訓練;
步驟四:分析結果審核模塊將機器學習算法模塊的模型訓練和信息提取結果呈現給電子文檔分析者,電子文檔分析者查閱目標信息在每個電子文檔中的上下文和預測結果,對預測結果進行糾正和備注;
所述步驟三中模型訓練和信息提取包括以下步驟:
1)比較目標信息的文檔內容特征和分析系統中存儲的所有文檔內容特征之間的相似性,并記錄相似性大于某一閾值的文檔內容特征;
2)對目標信息對應的內容特征模型訓練,由相似的內容特征對應的模型組成加權集成模型,或綜合當前任務的訓練數據和其他任務內容特征的訓練數據,構建數據遷移模型;
3)利用訓練完畢的內容特征模型預測電子文檔中目標信息;
所述步驟三中對提取的信息進行修改中:
若分析者修改內容特征描述,則機器學習算法模塊對修改對應的特征的加權集成模型和數據遷移模型重新進行訓練;
若分析者通過分析結果審核模塊修改機器學習算法模塊提取的目標信息,則機器學習算法模塊對修改對應的特征的數據遷移模型重新進行訓練;
所述步驟2)中,構建數據遷移模型包括:
201)基于內容特征的“前綴”,定位內容特征對應的目標信息所處“單元”;
202)基于內容特征“主體”的“詞語集”中的詞語,在“單元”中定位目標信息可能的上下文,該上下文是句子的集合;
203)基于內容特征“主體”的“句法集”,在“單元”中定位目標信息可能的上下文;
204)綜合202)和203)得到的上下文集合,得到目標特征的訓練上下文集;
205)根據內容特征的“類型”,結合模型的預測或用戶的審核,賦予每個上下文“標記”;
206)通過遷移學習方法對構建的目標特征和內容特征數據集進行數據遷移模型訓練。
2.根據權利要求1所述的基于機器學習的電子文檔分析方法,其特征在于,所述步驟一中還包括,電子文檔分析者通過任務管理模塊邀請他人參與任務協作進行電子文檔分析。
3.根據權利要求1所述的基于機器學習的電子文檔分析方法,其特征在于,所述分析方法還包括通過分析結果清洗模塊對電子文檔分析者提取每個電子文檔的目標信息進行合并、歸類及對重復值、缺失值處理并生成處理表格,然后通過分析結果統計模塊對分析結果進行頻率計算、交叉表、相關性統計分析和展示,剖析電子文檔分析結果形成結論。
4.基于機器學習的電子文檔分析系統,基于權利要求1至3任一項的分析方法,其特征在于,所述分析系統包括:
用戶管理模塊,用于為使用分析系統的電子文檔分析者創建賬號信息,通過注冊登錄服務進入分析系統;
任務管理模塊,用于電子文檔分析者創建分析任務以及邀請他人參與任務協作進行電子文檔分析;
文檔提交模塊,用于將電子文檔分析者搜集的電子文檔提交到分析系統;
文檔特征描述模塊,用于電子文檔分析者通過分析系統提供的電子文檔特征描述語言對所提交的電子文檔結構和待提取的目標信息進行特征描述;
機器學習算法模塊,用于根據電子文檔分析者描述的電子文檔結構特征解析電子文檔并依據內容特征進行模型構建,同時根據構建模型進行文字和圖像模型訓練和信息提取,對于圖像信息的處理過程中同時記錄文字和圖像的位置對應關系;
分析結果審核模塊,用于將機器學習算法模塊的模型訓練和信息提取結果呈現給電子文檔分析者,供電子文檔分析者查閱目標信息在所分析電子文檔中的上下文和預測結果,并對預測結果進行糾正和備注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王欣;楊煜清;施舉紅,未經王欣;楊煜清;施舉紅許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810236000.X/1.html,轉載請聲明來源鉆瓜專利網。





