[發(fā)明專利]基于醫(yī)保數(shù)據(jù)的單病種診斷信息快速結(jié)構(gòu)化方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811045058.2 | 申請(qǐng)日: | 2018-09-07 |
| 公開(公告)號(hào): | CN109344250B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 王勝鋒;詹思延;許璐;馮菁楠;劉國(guó)臻;高培;王金喜;尉晨 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G16H70/00 |
| 代理公司: | 北京萬象新悅知識(shí)產(chǎn)權(quán)代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 醫(yī)保 數(shù)據(jù) 單病種 診斷 信息 快速 結(jié)構(gòu) 方法 | ||
本發(fā)明公布了一種基于醫(yī)保數(shù)據(jù)的單病種診斷信息快速結(jié)構(gòu)化的方法,針對(duì)醫(yī)療大數(shù)據(jù)中的診斷信息進(jìn)行結(jié)構(gòu)化,構(gòu)建單病種詞庫;包括:從醫(yī)保數(shù)據(jù)庫中提取診斷信息;將非結(jié)構(gòu)化文本分割成多個(gè)詞匯文本;將詞匯文本的詞性進(jìn)行標(biāo)注;訓(xùn)練詞向量;正序排序,切分成相應(yīng)的詞集合;使用余弦距離求詞之間的關(guān)聯(lián)性;得到與疾病的標(biāo)準(zhǔn)表述最為相似的詞表,作為標(biāo)準(zhǔn)詞列表;專業(yè)人員進(jìn)行計(jì)算機(jī)輔助的人工核查并多次重復(fù)。本發(fā)明方法可用來實(shí)現(xiàn)單病種診斷文本數(shù)據(jù)個(gè)性化的快速結(jié)構(gòu)化,為充分地、高效地利用醫(yī)保數(shù)據(jù)中診斷信息提供技術(shù)支持,能夠極大提升數(shù)據(jù)處理與利用的效率,加快醫(yī)療大數(shù)據(jù)轉(zhuǎn)化的推廣應(yīng)用。
技術(shù)領(lǐng)域
本發(fā)明提供了醫(yī)保數(shù)據(jù)庫中關(guān)于單病種的診斷數(shù)據(jù)/信息的快速結(jié)構(gòu)化方法,屬于醫(yī)學(xué)文本處理技術(shù)領(lǐng)域。
背景技術(shù)
醫(yī)保數(shù)據(jù)(Claims data)是醫(yī)療保險(xiǎn)業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù),數(shù)據(jù)量龐大,覆蓋大規(guī)模人群,并且能完整真實(shí)地記錄該人群在一定時(shí)間范圍內(nèi)的就診信息和報(bào)銷記錄等。
目前,越來越多的醫(yī)學(xué)領(lǐng)域工作者開始嘗試?yán)冕t(yī)療大數(shù)據(jù)進(jìn)行進(jìn)行處理與應(yīng)用,如:美國(guó)食品藥品管理局(FDA)的哨點(diǎn)計(jì)劃采用數(shù)據(jù)通用模型(CDM)對(duì)不同來源的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范的處理,從而實(shí)現(xiàn)通過主動(dòng)監(jiān)測(cè)完成藥品評(píng)價(jià)工作。
但是,醫(yī)療大數(shù)據(jù)中存在著大量非結(jié)構(gòu)化的文本(主要是診斷信息),比如對(duì)于同一種疾病,可能會(huì)存在多種不同的表述。這些表述大都不夠規(guī)范,甚至?xí)绣e(cuò)別字的問題。這些都給諸如:醫(yī)保數(shù)據(jù)、區(qū)域化數(shù)據(jù)、電子化病歷等醫(yī)療大數(shù)據(jù)的利用帶來了巨大的困難,導(dǎo)致大量數(shù)據(jù)的“閑置”。
對(duì)于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的多類型中文病歷文本相似度檢索的實(shí)現(xiàn),關(guān)鍵在于正確的將疾病與病癥正確的分類處理,及求解長(zhǎng)文本向量距離的方法。以往一般采用的方案及其缺點(diǎn)主要包括以下幾方面:
(1)采用直接使用中文分詞工具將長(zhǎng)文本分詞,再進(jìn)行長(zhǎng)文本向量的計(jì)算,并直接使用向量之間的距離求解相似的長(zhǎng)文本病歷,根據(jù)依存句法分析來計(jì)算相似度,其弊端是求解得到的長(zhǎng)文本在字面上的意思并不相近。
(2)通過直接采用基于詞典的中文分詞和命名實(shí)體識(shí)別工具,再進(jìn)行計(jì)算長(zhǎng)文本向量,然后使用組合距離方法求解相似長(zhǎng)文本,由于這種方案的效果取決于詞典的覆蓋率,隨著新詞的不斷出現(xiàn),有明顯的缺陷。
(3)使用給句子中的每個(gè)詞賦予正確的詞法標(biāo)注,為每一個(gè)詞賦予一個(gè)類別,進(jìn)行詞性標(biāo)記,再直接進(jìn)行長(zhǎng)文本向量的計(jì)算,使用單一距離計(jì)算長(zhǎng)文本相似度,最后求解出的相似文本的相似度并不能滿足醫(yī)生的需求,這樣的統(tǒng)計(jì)距離方法很難將語言知識(shí)融入計(jì)算當(dāng)中,需要人工額外的糾正。
醫(yī)保數(shù)據(jù)結(jié)構(gòu)化的目的是推動(dòng)醫(yī)學(xué)研究,而醫(yī)學(xué)研究常常是從一種或幾種疾病入手,傳統(tǒng)的面向整個(gè)數(shù)據(jù)庫、全部病種的結(jié)構(gòu)化處理,存在寬泛而粗糙的問題,而缺乏針對(duì)某一單一病種的更為個(gè)性化、精細(xì)快速的醫(yī)學(xué)文本處理技術(shù)。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于醫(yī)保數(shù)據(jù)的單病種(如:多發(fā)性骨髓瘤、肌萎縮側(cè)索硬化、白化病、Alport綜合征、自身免疫性腦炎等)診斷數(shù)據(jù)快速結(jié)構(gòu)化的方法,可用來實(shí)現(xiàn)單病種診斷文本數(shù)據(jù)個(gè)性化的快速結(jié)構(gòu)化,為充分地、高效地利用醫(yī)保數(shù)據(jù)中診斷信息提供技術(shù)支持,能夠極大提升數(shù)據(jù)處理與利用的效率,加快醫(yī)療大數(shù)據(jù)轉(zhuǎn)化的推廣應(yīng)用;包括進(jìn)行疾病的患病率、發(fā)病率、死亡率、病死率等描述性流行病學(xué)測(cè)算,病例對(duì)照分析、長(zhǎng)期大規(guī)模的隊(duì)列分析,隨機(jī)對(duì)照試驗(yàn)等分析流行病學(xué)和實(shí)驗(yàn)流行病學(xué)領(lǐng)域的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811045058.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 云HIS醫(yī)保數(shù)據(jù)處理方法及系統(tǒng)
- 醫(yī)療保險(xiǎn)保費(fèi)定價(jià)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 醫(yī)保報(bào)銷異常檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 醫(yī)保理賠費(fèi)用檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種醫(yī)保對(duì)象分類方法和裝置
- 一種數(shù)據(jù)標(biāo)準(zhǔn)化處理方法、裝置及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈的醫(yī)保處理方法、裝置、系統(tǒng)和計(jì)算機(jī)設(shè)備
- 一種基于計(jì)算機(jī)控制的醫(yī)保防欺詐系統(tǒng)及方法
- 大病醫(yī)保政策調(diào)整對(duì)基金支出影響的量化方法及系統(tǒng)
- 基本醫(yī)保政策調(diào)整對(duì)基金支出影響的量化方法及系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 基于智慧醫(yī)療的病種處理平臺(tái)
- 一種醫(yī)保單病種控費(fèi)系統(tǒng)及方法
- 一種API服務(wù)智能監(jiān)控系統(tǒng)及方法
- 一種甘蔗白葉病植原體和白條黃單胞菌的雙重PCR檢測(cè)方法及其引物組
- 一種識(shí)別單病種的裝置及存儲(chǔ)介質(zhì)
- 一種對(duì)房顫單病種數(shù)據(jù)進(jìn)行多維查詢分析的方法
- 醫(yī)療數(shù)據(jù)處理方法與裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 一種含有硫雙威和殺蟲單的農(nóng)藥組合及其應(yīng)用
- 單病種識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種單側(cè)肢體骨折患者的替換病服





