[發明專利]一種電子病歷的非結構化信息轉化為結構化的泛化方法有效
| 申請號: | 201510429975.0 | 申請日: | 2015-07-21 |
| 公開(公告)號: | CN105159917B | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 夏小玲;張盈利 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海泰能知識產權代理事務所 31233 | 代理人: | 宋纓;孫健 |
| 地址: | 201620 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 病歷 結構 信息 轉化 泛化 方法 | ||
本發明涉及一種電子病歷的非結構化信息轉化為結構化的泛化方法,包括以下步驟:采用樣本學習的方法構建初始候選模式庫;根據電子病歷信息構建關于標本名的醫療詞庫;根據醫療詞庫中標本名,把電子病歷語句切分成多個子句,其中,每個子句只包含一個標本的信息;采用分詞提取工具對子句進行分詞,生成子句序列;依據已經構建的初始候選模式庫,從所述子句序列中提取新模式;將多個模式泛化成一個模式;根據得到的模式對文本信息進行信息抽取。本發明可以獲得更快速、精確的抽取結果。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種電子病歷的非結構化信息轉化為結構化的泛化方法。
背景技術
隨著信息時代數據量的爆炸式增長,臨床醫療數據也展現出其容量大、增速快、形式多樣和潛在價值高的特點。而在臨床醫療領域,以自然語言文本形式存在的非結構化數據占有重要地位。由于自然語言文本沒有一個相對統一的結構,文檔格式沒有具體的限制,書寫比較隨意,因此對非結構化醫療數據的結構化信息提取變得十分困難,目前針對文本信息抽取常用的方法,主要是基于規則的抽取模型和基于統計的抽取模型兩種。
基于統計的抽取模型的特點是信息抽取精度高,但是對于概率模型發訓練過程復雜度高,耗時久。而基于規則的抽取模型的特點是抽取過程簡單,但抽取結構過分依賴于規則制定或學習的成果。且這兩種方法都是針對所有領域的文本信息,而沒有考慮到醫療數據的特點,因此這兩種方法很難獲得快速精確的抽取結果。如何根據電子病歷的特點進行信息抽取,特別是對抽取過程的優化,成為醫療數據分析過程中迫切需要解決的問題。
發明內容
本發明所要解決的技術問題是提供一種電子病歷的非結構化信息轉化為結構化的泛化方法,以獲得更快速、精確的抽取結果。
本發明解決其技術問題所采用的技術方案是:提供一種電子病歷的非結構化信息轉化為結構化的泛化方法,包括以下步驟:
(1)采用樣本學習的方法構建初始候選模式庫;
(2)根據電子病歷信息構建關于標本名的醫療詞庫;
(3)根據醫療詞庫中標本名,把電子病歷語句切分成多個子句,其中,每個子句只包含一個標本的信息;
(4)采用分詞提取工具對子句進行分詞,生成子句序列;
(5)依據已經構建的初始候選模式庫,從所述子句序列中提取新模式;
(6)將多個模式泛化成一個模式;
(7)根據得到的模式對文本信息進行信息抽取。
所述步驟(5)為:根據子句中的標本名,從初始候選模式庫中選擇標本名相同的模式,分別計算每一個模式與子句的相似度,取相似度最大值為CMax,對應模式為Pk,若CMax大于設定閾值,且標本名相同,則新模式為Pk;若標本名不同,則根據子句標本名構建與Pk同構的模式;若CMax小于設定閾值,則采用學習方法構建新模式。
所述步驟(5)和步驟(6)之間還包括進行模式優化的步驟,即若從所述步驟(5)產生的新模式來自初始候選模式庫,則依據新模式提取子句信息,并與原子句序列比較提取出新模式未提取的詞,依據該詞在新模式中增加標本屬性,標本屬性序列與子句序列對應相同,從而優化新模式。
所述步驟(6)具體包括以下子步驟:
(61)對于模式X,把與其相似度大于泛化門限值的模式分為兩類,一類是與模式X的標本名屬于同一類的模式集P,一類是與模式X的標本名不屬于同一類的模式集Q;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510429975.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





