[發明專利]一種電子病歷高質短語抽取方法在審
| 申請號: | 201610836685.2 | 申請日: | 2016-09-21 |
| 公開(公告)號: | CN106649256A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 尚昭;金濤;王建民 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F19/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 廖元秋 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 病歷 短語 抽取 方法 | ||
技術領域
本發明屬于大數據檢索技術領域,特別涉及在口腔健康數據服務平臺中一種電子病歷高質短語抽取的方法。
背景技術
隨著互聯網的高速發展和社會信息化步伐的加快,各行業的數據迅猛發展,人類已經步入大數據時代。對大數據的處理和分析,可以從中挖掘出有價值的信息,進而有效解決特定領域的問題。在醫療健康領域,“互聯網+”概念的提出,使醫療信息化進程的不斷推進,電子病歷的使用正逐漸普及,電子記錄的科研價值與應用價值也不斷凸顯出來。對電子病歷進行高效準確的檢索,可以為數據分析、決策支持等工作奠定良好的基礎。
在各大醫院,由于就診患者眾多,且每名患者就診次數一般為兩到三次甚至更多,電子病歷數量為海量級。若能在很短的時間內,從海量電子病歷中準確檢索出所需的信息,將為醫學領域帶來極大的貢獻?,F有的檢索系統主要為基于詞庫的關鍵詞匹配和基于本體的語義查詢?;谠~庫的關鍵詞匹配為精確檢索,檢索出的結果包含與輸入關鍵詞完全匹配的內容;基于本體的語義查詢為模糊檢索,檢索出的結果包含輸入關鍵詞的近義詞、同義詞等。在我國,檢索系統目前主要采用第一種基于詞庫的關鍵詞匹配方式,詞庫來源為術語詞典和經驗。
由于文本數據的復雜性,目前最常使用的對文檔中所有出現的內容建立檢索的方式是使用倒排索引技術。倒排索引,即對文檔中的每個詞,建立“詞-文檔”映射序列,當輸入待檢索詞時,系統會定位到含有該詞的文檔并排序顯示,以達到檢索效果。已開放源代碼的Lucene框架可用來直接建立倒排索引。
電子病歷的全文檢索效果往往依賴于中文分詞是否精準。中文分詞是將語句切分成能夠表達完整語義的一個個詞語。已有完整的中文分詞工具可供直接使用,如斯坦福的分詞工具,中科院的分詞工具等。斯坦福的分詞工具支持包含中文在內的多種語言,中科院的分詞系統是目前中文分詞效果最好的分詞工具。同時,存在中文分詞組件,如IKAnalyzer,Jieba等。在醫療領域,由于不同醫院、不同醫生用詞習慣的個性化,無法使用統一的詞典進行關鍵詞匹配,這給病歷分詞增加了難度。
然而,電子病歷中經常被檢索的,往往是多個詞語構成的短語。比如,輸入“牙齦”,那么用戶到底希望檢索出“牙齦檢索”、“牙齦紅腫”還是“牙齦增生”的病歷?因此,只對病歷在詞語層面進行分詞是遠遠不夠的,有必要將抽取上升到短語層面,以更好的滿足檢索需要。
高質短語滿足四個特征:普遍性、一致性、信息量和完整性。目前存在一些指標,如點互信息PMI,K-L散度,倒排文檔頻率IDF等,用于衡量短語是否符合一致性和信息量特征。同時,使用K-means對短語進行聚類,更易根據聚類結果篩選高質短語。
發明內容
本發明的目的是為克服已有技術的不足之處,提出一種電子病歷高質短語抽取的方法。本發明通過將檢索從詞語層面上升到短語層面,更好地滿足醫生的使用習慣與檢索需要。
高質短語,即短語質量較高的短語。高質短語滿足四個特征:普遍性、一致性、信息量和完整性。如,“牙齦紅腫“這個短語在病歷集中頻繁出現,滿足普遍性;“牙齦紅腫”相較于“齒齦紅腫”是更固定的搭配,更好的滿足一致性;包含特定主題,短語具有信息量;表達語義完整,滿足完整性。本發明認為,概率值大于0.9的短語為高質短語。短語質量由步驟2進行評估。
本發明提出的一種電子病歷高質短語抽取的方法,其特征在于,該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段;具體包括以下步驟:
1)頻繁短語挖掘包括以下步驟:
1-1)數據預處理:采用Jieba分詞組件對電子病歷進行中文分詞處理,得到一系列詞語;
1-2)基于原始頻度,根據以往經驗設定頻度閾值,當詞語的原始頻度大于閾值時,認為該詞語是頻繁的;
1-3)將頻繁詞語組合成短語,當短語的原始頻度大于閾值時,則該短語是頻繁的;頻繁的詞語和短語,共同構成候選頻繁短語;
2)短語質量評估包括以下步驟:
2-1)對候選頻繁短語選取點互信息PMI,K-L散度,倒排文檔頻率IDF,以及停止詞出現的頻率次數和出現在引號、括號中的短語頻次五個特征作為每個候選頻繁短語的特征;
2-2)根據提取的五個特征,采用K-means方法對候選頻繁短語進行聚類,將所有候選頻繁短語聚為300類;
2-3)在每個聚類中挑選一個候選頻繁短語,根據先驗短語集對候選頻繁短語進行打標處理,打標為“0”或“1”分值,1表示該短語既是候選頻繁短語,又存在于先驗短語集中;否則打標為0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610836685.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檢索方法和檢索裝置
- 下一篇:一種語義段的轉換方法及裝置





