[發(fā)明專利]一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法在審
| 申請?zhí)枺?/td> | 202110859239.4 | 申請日: | 2021-07-28 |
| 公開(公告)號: | CN113628705A | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 韋嘉;葉翔赟 | 申請(專利權(quán))人: | 上?;w康生物科技有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F16/332;G06F16/35;G06F16/36 |
| 代理公司: | 武漢智新達知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42272 | 代理人: | 陳文森 |
| 地址: | 200000 上海市浦東新區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 驅(qū)動 電子 病歷 提取 信息 方法 | ||
本發(fā)明涉及一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法,包括以下步驟:S1、對收集的核心詞匯庫進行有效擴充,構(gòu)建一個全面的跨領(lǐng)域的詞匯庫;S2、利用詞匯庫去電子病歷中提取包含時間?醫(yī)學(xué)事件?描述這個三元組的結(jié)構(gòu)化信息。該方法采用數(shù)據(jù)驅(qū)動的富集模式擴充了用于自動識別的詞匯庫,使其在相關(guān)醫(yī)學(xué)術(shù)語的識別上顯著優(yōu)于同時期最流行的監(jiān)督學(xué)習(xí)模型,同時,采用用歸一化谷歌距離(NGD)為特征的支持向量機(SVM)作為匹配模型,在事件及其相應(yīng)描述的關(guān)聯(lián)上,它同樣比其它可行的方案都要優(yōu)越,此外,幾乎不需手動注釋,易實現(xiàn)規(guī)?;崛?,且在處理大量數(shù)據(jù)面對增加的變異和噪音時,也有很好的穩(wěn)定性。
技術(shù)領(lǐng)域
本發(fā)明涉及電子病歷信息提取技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法。
背景技術(shù)
電子病歷(Electronic Medical Records,EMRs)中記錄著許多有用信息,比如,關(guān)于疾病的描述、檢查結(jié)果、具體的治療方案和療效等,這些信息將有助于醫(yī)學(xué)專家們更清楚得地了解疾病的發(fā)展進程,從而找到更有效的治療方法或者發(fā)掘某些醫(yī)學(xué)需求的不足,然后從非結(jié)構(gòu)化的電子病歷文本中自動提取這些有用信息是相當(dāng)錯綜復(fù)雜的過程,電子病歷中的描述都是醫(yī)師在對病人診療過程中記錄下來的,因此具有簡潔和個性化的特點,盡管病歷記錄有相應(yīng)的實用書寫標(biāo)準(zhǔn),但由于醫(yī)師們書寫習(xí)慣或者先驗知識的不同,記錄的形式也會顯著不同有時甚至可能發(fā)生錯誤記錄。
此外,中文相對英文在語言復(fù)雜性上是顯著增加的,而中國的醫(yī)師們還經(jīng)歷過傳統(tǒng)中醫(yī)(TCM)的訓(xùn)練,書寫習(xí)慣甚至可能更接近古文,想從中文電子病歷中有效地提取信息,將面臨更大的挑戰(zhàn),因此,現(xiàn)有的用于從新聞或者一般文學(xué)作品中提取信息的常用方法都不適用于從中文電子病歷中提取信息,用大量經(jīng)人工注釋的中文電子病歷去訓(xùn)練一個新的模型用來識別的確是一個可行的辦法,但是這需要具有專業(yè)知識的人員花大量的時間去注釋才能實現(xiàn),顯然是不易操作和推廣的,故提出一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法,該數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法可自動從非結(jié)構(gòu)化的電子病歷中識別有用信息并且將這些自由文本轉(zhuǎn)換為包含時間-事件-描述三元組的結(jié)構(gòu)化文本。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種數(shù)據(jù)驅(qū)動的從電子病歷中提取信息的方法,包括以下步驟:
S1、對收集的核心詞匯庫進行有效擴充,構(gòu)建一個全面的跨領(lǐng)域的詞匯庫;
S2、利用詞匯庫去電子病歷中提取包含時間-醫(yī)學(xué)事件-描述這個三元組的結(jié)構(gòu)化信息。
在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還做了如下改進。
進一步,構(gòu)建的詞匯庫由核心詞匯庫及其擴充部分組成,其包含六種類型的醫(yī)學(xué)事件:疾病、癥狀、藥物、身體部位名稱、療程信息以及臨床檢測信息。
進一步,對核心詞匯庫進行擴充的方法包括識別模式迭代法、動態(tài)術(shù)語組合法和方向型或者擴展型前綴法。
進一步,所述識別模式迭代法包括以下步驟:
1)從核心詞匯庫開始,在每一次的非監(jiān)督迭代過程中,首先對整個電子病歷主體進行掃描并鑒別出當(dāng)前詞匯庫中還未被識別或者未包含被的詞匯,然后選出其中比較可信的添加到當(dāng)前詞匯庫中;
2)用這些詞匯構(gòu)建一系列候選的新識別模式,最后再從中篩選出較為可靠的模式用于下一次迭代中新詞匯的搜索,如此循環(huán)直到?jīng)]有新詞匯被鑒別到為止。
進一步,所述動態(tài)術(shù)語組合法識別的不是一個個單獨的詞匯,而是詞匯的組合,組合中每個獨立的詞匯可能都已經(jīng)被包含在核心詞匯庫里了,但是它們組合后的詞匯組往往沒有被核心詞匯庫收錄,這樣的詞匯組很多都以身體的某個部位作為前綴。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海基緒康生物科技有限公司,未經(jīng)上?;w康生物科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110859239.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





