[發明專利]電子文件的解析方法及裝置、計算機設備、存儲介質有效
| 申請號: | 202010126793.7 | 申請日: | 2020-02-28 | 
| 公開(公告)號: | CN111370132B | 公開(公告)日: | 2022-04-15 | 
| 發明(設計)人: | 吳東平 | 申請(專利權)人: | 平安醫療健康管理股份有限公司 | 
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H10/60;G06F16/16;G06F16/11 | 
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 | 
| 地址: | 200001 上海市黃浦*** | 國省代碼: | 上海;31 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 電子 文件 解析 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種電子文件的解析方法,其特征在于,所述方法包括:
從多個數據源采集樣本病例數據;
根據所述樣本病例數據生成第一病例模板;
根據所述第一病例模板解析源病例文件,得到多個病例字段;
將所述多個病例字段填充至第二病例模板,得到目標病例文件;
其中,所述根據所述樣本病例數據生成第一病例模板包括:
基于預設維度拆分所述樣本病例數據,得到M個病例元素,其中,所述預設維度包括以下至少之一:病例結構、病例種類、病例內容;
根據語義對所述多個病例元素進行分類和數據清洗,得到N個符合預設字典庫格式的標準元素,其中,N小于M,M、N均為正整數;
將所述標準元素映射至預設模板文件的字段內容中,以生成所述第一病例模板;
所述根據所述第一病例模板解析源病例文件包括:
接收源設備發送的源病例文件;
刪除所述源病例文件中的預設字符,得到源病例數據,其中,所述預設字符為無意義的字符;
基于所述第一病例模板中的字段標識從所述源病例數據爬取字段內容;
所述將所述多個病例字段填充至第二病例模板包括:
根據所述病例字段的格式獲取字段內容;
按照第二病例模板中的字段標識讀取對應的字段內容,并將所述字段內容填充在所述第二病例模板中,其中,所述第二病例模板是根據接收端的需求信息配置的病例模板,所述第二病例模板包括多個預設字段標識。
2.根據權利要求1所述的方法,其特征在于,在將所述標準元素映射至預設模板文件的字段內容中之前,所述方法還包括以下至少之一:
為所述預設模板文件的每一個字段的字段內容設置缺省值;
為所述預設模板文件的每一個字段的字段內容設置字段范圍或字段集合。
3.根據權利要求1所述的方法,其特征在于,接收源設備發送的源病例文件包括以下之一:
接收源設備發送的大數據文件,其中,所述大數據文件包括多個源病例數據,每個源病例數據存儲在一個子字段中;
接收源設備發送的第一子字段;根據所述第一子字段查詢關聯的大字段;將所述第一子字段以及與所述大字段關聯的第二子字段組合成源病例數據,其中,所述大字段是所述第一子字段和所述第二子字段的父字段,所述大字段用于在一個長字段中存儲多個短字段。
4.根據權利要求1所述的方法,其特征在于,根據所述病例字段的格式獲取字段內容包括:
判斷所述源病例文件的數據格式,其中,所述數據格式包括以下之一:結構化數據、半結構化數據、非結構化數據;
在所述數據格式為結構化數據時,直接獲取結構化的字段內容;在所述數據格式為半結構化數據時,獲取半結構化的字段內容;在所述數據格式為非結構化數據時,將非結構化數據轉換為半結構化數據,獲取半結構化的字段內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安醫療健康管理股份有限公司,未經平安醫療健康管理股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010126793.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種科技成果評價系統及評價方法
 - 下一篇:一種服裝生產計劃跟蹤管理方法及系統
 





