[發(fā)明專利]提取文檔中數(shù)據(jù)的方法、裝置、介質(zhì)及電子設備有效
| 申請?zhí)枺?/td> | 201811364864.6 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109522529B | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 強晟 | 申請(專利權)人: | 北京懿醫(yī)云科技有限公司 |
| 主分類號: | G06F40/14 | 分類號: | G06F40/14;G06F16/84 |
| 代理公司: | 北京律智知識產(chǎn)權代理有限公司 11438 | 代理人: | 袁禮君;闞梓瑄 |
| 地址: | 100195 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文檔 數(shù)據(jù) 方法 裝置 介質(zhì) 電子設備 | ||
本發(fā)明實施例提供了一種提取文檔中數(shù)據(jù)的方法、裝置、介質(zhì)及電子設備,該方法包括:利用預設關鍵字Key列表對所述文檔進行數(shù)據(jù)提取,以獲取預設格式的初步提取內(nèi)容;根據(jù)實現(xiàn)預設功能的函數(shù)處理所述初步提取內(nèi)容,以對所述文檔中數(shù)據(jù)的最終提取。通過本發(fā)明實施例的技術方案進行文檔中數(shù)據(jù)的處理效率高并且適用性廣。
技術領域
本發(fā)明涉及數(shù)據(jù)處理技術領域,具體而言,涉及一種提取文檔中數(shù)據(jù)的方法、裝置、介質(zhì)及電子設備方法、裝置、介質(zhì)及電子設備。
背景技術
對文檔中某些數(shù)據(jù)進行提取是各行各業(yè)均需面對和解決的問題。示例性的,臨床文檔構架(Clinical Document Architecture,簡稱:CDA)是衛(wèi)生信息用戶層(HealthLevel 7,簡稱:簡稱HL7)第三版標準的一部分,用來規(guī)定臨床文檔內(nèi)容的標準化。CDA文檔包含診斷、手術經(jīng)過、隨訪結果等重要信息,具有極大的研究價值。但是,CDA文檔的大部分內(nèi)容以可擴展標記語言(Extensive Makeup Language,簡稱:XML)格式進行存儲。由于自然語言在諸如統(tǒng)計分析、歸納等方面存在較大處理困難性,因此,對于CDA文檔的數(shù)據(jù)價值挖掘手段前,需先對其進行數(shù)據(jù)處理。通用的處理方法是把CDA文檔進行細化歸納,例如:把手術記錄拆分為,“手術時間,手術醫(yī)生,手術經(jīng)過,術后診斷”等,或者,針對手術經(jīng)過,可以進行進一步的細化,比方“手術體位,手術部位,出入量以及吻合方式”等,才適合用于數(shù)據(jù)挖掘等研究。
現(xiàn)有技術中,對于CDA文檔的數(shù)據(jù)處理方式一般采用人工處理方式或XPath方式。人工處理方式中,對于待解析的數(shù)據(jù)(例如:照片或HTML頁面等)進行人工結構化分析候錄入計算機。XPath方式中,使用XPath來確定每個節(jié)點的位置。針對已采樣XML格式的CDA文檔,配置每個字段的XPath路徑,之后再泛化至所有文檔,就可以實現(xiàn)所有所需字段的文本抽取。
然而,現(xiàn)有技術中對文檔的處理方式效率低或適用性差。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本發(fā)明的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種提取文檔中數(shù)據(jù)的方法、裝置、介質(zhì)及電子設備,進而至少在一定程度上克服了現(xiàn)有技術中對文檔的處理方式效率低或適用性差的問題。
本發(fā)明的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習得。
根據(jù)本發(fā)明實施例的第一方面,提供了一種提取文檔中數(shù)據(jù)方法,包括:利用預設關鍵字Key列表對所述文檔進行數(shù)據(jù)提取,以獲取預設格式的初步提取內(nèi)容;根據(jù)實現(xiàn)預設功能的函數(shù)處理所述初步提取內(nèi)容,以對所述文檔中數(shù)據(jù)的最終提取。
在本發(fā)明的一種實施例中,利用預設的Key列表對所述文檔進行數(shù)據(jù)提取,包括:獲取多個Key,已確定所述Key列表;基于所述文檔確定對每個所述Key對應的Value的判斷條件;在所述文檔中定位所述多個Key的位置,判斷位于每個所述Key后的數(shù)據(jù)是否符合所述Key對應的Value的判斷條件;若位于所述Key后的數(shù)據(jù)符合所述Key對應的Value的判斷條件,則提取位于所述Key后的數(shù)據(jù)作為所述Key對應的Value。
在本發(fā)明的一種實施例中,判斷位于每個所述Key后的數(shù)據(jù)是否符合所述Key對應的Value的判斷條件之后,還包括:若存在位于所述Key后的數(shù)據(jù)不符合所述Key對應的Value的判斷條件,則基于所述Key,利用XPath方式對所述文檔進行提取。
在本發(fā)明的一種實施例中,所述預設格式的初步提取內(nèi)容包括:純文本格式和/或可擴展標記語言XML格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京懿醫(yī)云科技有限公司,未經(jīng)北京懿醫(yī)云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811364864.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





