[發明專利]基于機器學習的電子文檔分析系統及方法有效
| 申請號: | 201810236000.X | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108334501B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 王欣;楊煜清;施舉紅 | 申請(專利權)人: | 王欣;楊煜清;施舉紅 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G16H50/70 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 武媛;呂學文 |
| 地址: | 100005 北京市東城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 電子 文檔 分析 系統 方法 | ||
本發明公開一種基于機器學習的電子文檔分析系統及方法,利用文檔特征描述模塊對所提交的電子文檔結構進行描述,若描述大于一個的電子文檔結構,機器學習算模塊判別最符合于當前電子文檔的描述類型,再進行結構解析;機器學習算法模塊依據電子文檔結構解析結果和目標信息內容特征進行模型訓練和信息提取,分析者對內容特征描述或機器學習算法提取的目標信息進行修改,機器學習算法模塊將對修改內容特征對應的模型重新進行訓練;分析結果審核模塊將機器學習算法模塊的模型訓練和信息提取結果呈現給電子文檔分析者。本發明有效解決機器學習算法文檔數量有限和特征動態變化情況下的學習問題,能夠讓算法真正輔助文檔分析,提升分析效率。
技術領域
本發明涉及計算機信息分析技術領域,具體涉及一種基于機器學習的電子文檔分析系統及方法。
背景技術
電子文檔是由文字或文字和圖表組成的信息資料,例如電子病歷、影像報告和法律文書等。現有的電子文檔分析技術多為文檔結構化技術。以醫學領域的電子病歷結構化技術為例,病歷結構化多是利用固定的規則和模板,結合機器學習算法,一次性提取病歷中盡可能多的信息;然后進行存儲和索引,建立類似搜索引擎的應用,方便醫生檢索和查詢。這種結構化技術在從文檔提取信息時,存在準確率低、工作量大、靈活性差和與實際分析流程脫節的問題。由于人類文字表達方式多樣化的特點,人工定義的規則和模板很難涵蓋一種信息所有的表達方式,利用規則或模板提取的信息難免存在遺漏或錯誤,若單純依賴計算機算法進行分析,模型訓練和信息提取準確率無法保證。
為了保證數據分析的準確性,需要提供病歷結構化服務的一方投入大量人力進行模板規則完善和錯誤糾正,而且在類似醫學研究等對數據質量要求很高的場景,接受服務的一方也無法避免投入人力進行審核和查漏。這樣無形中增加了文檔模型訓練和信息提取的人力成本。對于電子文檔信息特點動態變化的分析,用戶所需信息會因分析目的不同而千差萬別,而且在分析過程中,所需信息也會隨著分析的深入發生動態改變;固定的規則和模板是不能將所有信息描述和收集完整的,無法滿足用戶個性化的需求,缺乏靈活性。單純依靠文檔結構化技術,不結合用戶分析文檔的整個流程進行優化,是無法真正改善文檔分析用戶的工作環境和提升文檔分析效率的。以病歷結構化和醫生進行科研為例,現有的病歷結構化及搜索引擎服務,多是由獨立于醫院的公司提供,和醫生科研的過程是分離的。為了建立搜索引擎服務,公司投入大量人力去進行信息核對,糾正計算機算法的錯誤;醫生為了提取個性化的文檔信息,也需要投入時間和精力進行病歷閱讀。由于這種模型訓練和信息提取服務未和醫生科研深度結合,導致其無法及時更新病歷中醫生所需的動態的文檔信息,同時也耗費了多余的人力在信息核對上,未體現出文檔結構化技術的優勢。
文檔結構化技術通常首先定義固定的規則,建立模板或知識庫,對文檔的段落結構和句子/段落中的語義信息進行固定的描述。這類規則、模板或知識庫多是文檔結構化技術提供方自行構建,文檔分析用戶只能看到解析的結果,而無法根據自己的需求自定義規則、模板或知識庫。目前尚未有針對用戶設計的,供用戶使用的文檔特征描述語言,來便捷、靈活的進行文檔段落結構和語義信息的描述。以病歷結構化和醫生科研為例,由于不同背景的醫生在所需信息的理解和描述上有差別,很多信息描述無法在選定研究題目之前給定;而且對于醫生想要的信息還會隨著醫生對問題的理解加深而發生變化,這些都是固有的規則和知識庫無法表達的。
用戶提取的文檔信息,多是詞匯、數字、概念或是對是否滿足特定描述的判定。在文檔結構化的過程中,為了提取上述信息,通常會用到機器學習算法建立模型進行模型訓練和信息提取。目前的技術有傳統的貝葉斯模型和深度學習模型兩大類。這兩類模型在實際文檔分析過程中,均易受到文檔數量有限和用戶所需特征多變的影響,降低準確率和實用性。為了使模型達到較高的準確率,通常需要對固定的特征,標注大量文檔進行模型訓練;但是實際過程中多數用戶的電子文檔都是分批次提供,每次數量有限,針對單個用戶的數據,很難進行復雜模型的訓練。以病歷結構化和醫生科研為例,每位醫生的課題都會針對特定類型的病歷,病歷數量難以確定;而且醫生需要的信息也會隨著課題不同或者研究的深入發生變化,單獨針對一位醫生的課題,難以提前訓練模型進行文檔模型訓練和信息提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王欣;楊煜清;施舉紅,未經王欣;楊煜清;施舉紅許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810236000.X/2.html,轉載請聲明來源鉆瓜專利網。





