[發(fā)明專利]一種電子病歷查詢語句的構(gòu)造方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410394537.0 | 申請(qǐng)日: | 2014-08-12 |
| 公開(公告)號(hào): | CN104268144B | 公開(公告)日: | 2017-08-29 |
| 發(fā)明(設(shè)計(jì))人: | 王文斌;顧君忠 | 申請(qǐng)(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q50/24 |
| 代理公司: | 上海藍(lán)迪專利商標(biāo)事務(wù)所(普通合伙)31215 | 代理人: | 徐筱梅,張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 電子 病歷 查詢 語句 構(gòu)造 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索、查詢擴(kuò)展、查詢?cè)~加權(quán)、自然語言處理等技術(shù)領(lǐng)域,具體地說是一種利用自信息來度量查詢?cè)~權(quán)重,根據(jù)輸入的原始查詢語句,重新構(gòu)造帶權(quán)重的查詢語句的方法,用來提高電子病歷檢索的準(zhǔn)確率和召回率。
背景技術(shù)
隨著醫(yī)療系統(tǒng)的信息化,電子病歷(electronic medical records, 簡(jiǎn)稱EMR)被廣泛使用,正在以前所未有的速度增長。病歷一般包括病人的臨床診斷,以往病史,檢查報(bào)告,治療藥物等豐富的信息。把這些信息檢索出來,進(jìn)行統(tǒng)計(jì)分析,有利于臨床醫(yī)學(xué)研究,可以更好地診斷、預(yù)防和治療人類的疾病。顯然,使用人工的方法處理這些信息是一件不可能的任務(wù)。因此,電子病歷檢索給信息檢索帶來了新的挑戰(zhàn)。
電子病歷的檢索,更多的是涉及這樣的查詢:查詢的目標(biāo)是一個(gè)病人群體,附帶的查詢條件是,這些病人患有的病,使用過的藥物,進(jìn)行過的檢查,目前的康復(fù)情況等等。病名,治療藥物,檢查項(xiàng)目等,都是專門的醫(yī)學(xué)術(shù)語。針對(duì)這樣的查詢語句,有必要提出一種新的查詢?cè)~權(quán)重設(shè)置方法。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足而提供的一種電子病歷查詢語句的構(gòu)造方法,該方法利用醫(yī)學(xué)術(shù)語抽取方法得到查詢語句中的醫(yī)學(xué)術(shù)語;隨后通過分析整個(gè)電子病歷集合中這些醫(yī)學(xué)術(shù)語的概率分布來得到醫(yī)學(xué)術(shù)語的自信息;最后加入平滑參數(shù)構(gòu)造了新的帶權(quán)重的查詢語句。
本發(fā)明的目的是這樣實(shí)現(xiàn)的:
一種電子病歷查詢語句的構(gòu)造方法,該方法包括以下具體步驟:
a)、電子病歷語料預(yù)處理
對(duì)電子病歷語料文本進(jìn)行分詞,去掉停用詞之后,得到所有語料中出現(xiàn)的詞;利用公式(1)計(jì)算每個(gè)詞t在每篇病歷中的平均出現(xiàn)次數(shù);
(1)
其中,表示詞t的平均出現(xiàn)次數(shù),n表示電子病歷語料集合的大小,表示詞t在第i篇病歷中出現(xiàn)的次數(shù);通過計(jì)算得到每個(gè)詞t對(duì)應(yīng)的;
b)、醫(yī)學(xué)術(shù)語抽取及篩選
首先,抽取原始查詢語句中出現(xiàn)的醫(yī)學(xué)術(shù)語;再在抽取出的醫(yī)學(xué)術(shù)語中去掉醫(yī)學(xué)停用詞,剩下的醫(yī)學(xué)術(shù)語的集合記為,其中表示第i個(gè)醫(yī)學(xué)術(shù)語,每個(gè)醫(yī)學(xué)術(shù)語有可能由多個(gè)詞組成;
c)、醫(yī)學(xué)術(shù)語權(quán)重計(jì)算
計(jì)算每個(gè)醫(yī)學(xué)術(shù)語 的權(quán)重 ,具體包括:
ⅰ)、計(jì)算組成醫(yī)學(xué)術(shù)語的詞的出現(xiàn)概率;使用泊松分布來擬合詞t的概率分布;那么使用公式(2)來計(jì)算;
(2)
其中,T表示詞t的出現(xiàn)次數(shù),表示詞t的平均出現(xiàn)次數(shù),e表示自然常數(shù);
ⅱ)、計(jì)算醫(yī)學(xué)術(shù)語在電子病歷語料中出現(xiàn)的概率;醫(yī)學(xué)術(shù)語中每個(gè)詞的出現(xiàn)是相互獨(dú)立事件,使用公式(3)計(jì)算;
(3)
ⅲ)、計(jì)算每個(gè)醫(yī)學(xué)術(shù)語 的權(quán)重 ,使用自信息的定義,即公式(4)計(jì)算;
(4)
d)、新查詢語句構(gòu)造
使用原始查詢語句、以及對(duì)應(yīng)的構(gòu)造新的查詢語句,具體包括:
ⅰ)、對(duì)于原始查詢語句,組成原始查詢語句的詞之間的權(quán)重平均分配,得到查詢子句1;
ⅱ)、對(duì)于醫(yī)學(xué)術(shù)語內(nèi)部,醫(yī)學(xué)術(shù)語中每個(gè)詞的權(quán)重平均分配;
ⅲ)、對(duì)于醫(yī)學(xué)術(shù)語之間,每個(gè)醫(yī)學(xué)術(shù)語分配到的權(quán)重是,得到查詢子句2;
ⅳ)、將查詢子句1和查詢子句2,按照的比例分配權(quán)重,得到新查詢語句,其中的取值范圍是[0, 1]。
本發(fā)明提供了一種電子病歷查詢語句的構(gòu)造方法,使用醫(yī)學(xué)術(shù)語的自信息來度量醫(yī)學(xué)術(shù)語的權(quán)重,分析了醫(yī)學(xué)術(shù)語在整個(gè)病歷集合中的分布情況,是一種從全局考慮的方法,只要病歷集合確定,很容易得到醫(yī)學(xué)術(shù)語的分布情況。
本發(fā)明應(yīng)用到一個(gè)新的病歷集合上,只要先預(yù)處理計(jì)算出醫(yī)學(xué)術(shù)語的分布情況,之后每個(gè)查詢語句,通過本發(fā)明的方法重新構(gòu)造之后,就可以在該病歷集合上進(jìn)行更加有效的查詢,提高了電子病歷檢索的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明流程圖;
圖2為本發(fā)明構(gòu)造的查詢語句實(shí)例圖;
圖3為本發(fā)明與原始查詢方法查詢結(jié)果對(duì)比圖;
圖4為本發(fā)明查詢語句的形式化表達(dá)示意圖。
具體實(shí)施方式
本發(fā)明針對(duì)電子病歷檢索時(shí),通過原始查詢語句,自動(dòng)構(gòu)造新的查詢語句,相較原始查詢語句的查詢效果得到明顯提升。
實(shí)施例
下面以文本檢索會(huì)議(Text Retrieval Conference, 簡(jiǎn)稱TREC)的電子病歷數(shù)據(jù)集自帶的測(cè)試查詢語句為例結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410394537.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵(lì)器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備
- 一種基于網(wǎng)絡(luò)的病歷資料存儲(chǔ)流轉(zhuǎn)方法及系統(tǒng)
- 一種高效查找病歷夾的病歷夾和病歷車系統(tǒng)
- 電子病歷的質(zhì)檢方法、相似病歷的提醒方法及裝置
- 電子病歷的生成方法及裝置
- 用于輸出病歷的方法和裝置
- 相似病歷查找方法及系統(tǒng)
- 一種生成診前病歷的方法及裝置
- 一種基于標(biāo)準(zhǔn)數(shù)據(jù)庫的電子病歷模板配置系統(tǒng)
- 基于動(dòng)態(tài)病情的病歷分組方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于科室流程化工作的全生命周期結(jié)構(gòu)化電子病歷系統(tǒng)
- 帶有前處理和后處理的數(shù)據(jù)庫復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語言的查詢方法及查詢系統(tǒng)
- 基于聊天大數(shù)據(jù)知識(shí)庫的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于對(duì)話知識(shí)庫的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 一種自然語言語句評(píng)價(jià)方法及裝置
- 句子級(jí)雙語對(duì)齊方法及系統(tǒng)
- 一種獲取相似語句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)





