[發明專利]一種將病歷文本從自然語言轉換為結構化元數據的方法有效
| 申請號: | 201811511195.0 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109710670B | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 曾凡;邰海軍;黃錦;柯欽瑜;黃勇;段惠峰 | 申請(專利權)人: | 萱闈(河南)生命科學研究院有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G16H10/60 |
| 代理公司: | 鄭州中原專利事務所有限公司 41109 | 代理人: | 李想 |
| 地址: | 450000 河南省鄭州市中原區華山路220號4號樓一*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 病歷 文本 自然語言 轉換 結構 數據 方法 | ||
1.一種將病歷文本從自然語言轉換為結構化元數據的方法,其特征在于,包括以下步驟:
步驟一:從歷史檢測報告中提取該文本格式中具體器官、部位和術式的特征值文本,并對其進行特征值分析,得出特征值字典;
步驟二:從醫院導出需要分析的歷史檢測報告,合并成為一個待處理數據集;
步驟三:遍歷該數據集患者病例,并根據特征值字典分詞,截取該器官、部位或術式的說明;
所述步驟三包括以下子步驟:
7)生成檢測報告“內容”的結構化數據內容:遍歷數據集每位患者的檢測報告,在遍歷的每行數據中,取每條的 “住院號”、“內容”和“檢查項目”所在列的數據,根據“檢測項目”,選擇對應的特征值字典,根據特征值字典截取對應部位的說明;
8)生成檢測報告“病癥”和“治療方法”的結構化數據內容:遍歷數據集每位患者的檢測報告,在遍歷的每行數據中,取每條的 “住院號”、“病癥”和“治療方法”所在列的數據,如果出現了“術”字,且沒有出現“術后”,則選擇“病癥”的特征值字典,如果出現了“術”字,則選擇“治療方法”的特征值字典,根據特征值字典截取對應部位的說明;
所述子步驟7)包括以下步驟:
7.1)對“內容”文本進行分段:如果報告中出現了逗號、句號、分號和冒號,則將文本按這些標點符號進行分段,生成一個以分段后獨立語句為元素的一維矩陣;
7.2)根據特征值生成二維矩陣:遍歷一維矩陣,將其中內容數據段與特征值字典進行比較,如果該數據段包括了特征值字典中的特征,則將該部分及該部分后沒有見到下一個特征值前的元素放入矩陣數據格式的“列”,特征值作為該 “行”第一列;
7.3)二維矩陣行拆分:對二維矩陣的“行”進行遍歷,得到每列數據,遍歷“列”數據,如果該行除了第一“列”還有其他的文本在特征值字典中,則復制該“行”的所有“列”到新的“行”,并將該特征值作為新 “行”第一列;
7.4)二維矩陣行合并:對二維矩陣的“行”進行遍歷,得到每列數據,遍歷“列”數據,如果有多“行”第一列的特征值有相同的內容,這對這些“行”進行合并;
7.5)每個二維矩陣都是一個患者病例內“內容”的結構化內容,“住院號”是這個矩陣的唯一標志,將他們作為一個“鍵值對”數據結構進行存儲,其“鍵”是“住院號”,“值”是結構化的“內容”;
步驟四:將該部位截取的數據內容持久化至結構化的數據庫中。
2.根據權利要求1所述的一種將病歷文本從自然語言轉換為結構化元數據的方法,其特征在于:所述步驟一特征值提取包括如下子步驟:
1)導出歷史檢測報告,將檢測報告合并后生成一個大的報告表格,表格內容中需要包括:“內容”,“檢查項目”,“病癥”,“治療方法”;
2)將每個檢查項目對應的“內容”,進行中文分詞處理,并將每個不重復的詞語列出,并在其后對其統計出現次數后排序;
3)將排序后得到的分詞,經醫生的刪除和補充,得到該醫院檢查項目對應的內容的特征值字典;
4)重復步驟2)和3)可以生成每一個檢查項目對應的病癥和治療方法的特征值字典。
3.根據權利要求1所述的一種將病歷文本從自然語言轉換為結構化元數據的方法,其特征在于:所述步驟二包括以下子步驟:
5)導出歷史數據,以合并的方式準備數據集;
6)遍歷數據集,并將導出的數據表合并,得到“住院號”、“患者姓名”、“患者年齡”、“就診時間” 、“內容”、“病癥”、“檢查項目”和“治療方法”,其中“住院號”是患者本次檢查的唯一標志,如果報告中的病癥和治療方法是寫在一起的, “治療方法”為空。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于萱闈(河南)生命科學研究院有限公司,未經萱闈(河南)生命科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811511195.0/1.html,轉載請聲明來源鉆瓜專利網。





