[發(fā)明專利]基于存儲網(wǎng)絡(luò)的病案文本ICD9代碼自動分配方法在審
| 申請?zhí)枺?/td> | 202111145867.2 | 申請日: | 2021-09-28 |
| 公開(公告)號: | CN113782137A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計)人: | 洪旭東 | 申請(專利權(quán))人: | 長三角信息智能創(chuàng)新研究院 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京潤平知識產(chǎn)權(quán)代理有限公司 11283 | 代理人: | 董杰 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 存儲 網(wǎng)絡(luò) 病案 文本 icd9 代碼 自動 分配 方法 | ||
本發(fā)明公開了一種基于存儲網(wǎng)絡(luò)的病案文本ICD9代碼自動分配方法,包括首先使用CNN對病案文本進行特征提取,獲得病案文本中每個詞語的語義表示。然后為每個ICD9代碼設(shè)置1個相關(guān)內(nèi)容提取向量,利用關(guān)注機制,從病案文本中提取相關(guān)內(nèi)容獲得其語義表,將每個ICD9代碼對應(yīng)提取到的相關(guān)內(nèi)容語義表示,作為存儲單位。最后為每個ICD9代碼設(shè)置1個GRU單元、1個代碼語義向量,針對每個ICD9代碼進行多輪分類,GRU單元用于編碼上一輪每個ICD9代碼的分類結(jié)果,每輪次的分類將依據(jù)當前ICD9代碼對應(yīng)的存儲單元、上一輪分類結(jié)果、代碼語義向量,從而利用不同ICD9代碼分類結(jié)果的相關(guān)性,提高ICD9代碼自動分配的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于存儲網(wǎng)絡(luò)的病案文本ICD9代碼自動分配方法。
背景技術(shù)
病案文本的內(nèi)容是病人的在醫(yī)療過程中的診療記錄。ICD9代碼對應(yīng)的是疾病和手術(shù)。一個病人在一次診療過程中可能會有多個疾病、經(jīng)歷多個手術(shù)。病案文本ICD9代碼自動分配,是要為病案文本自動分配相應(yīng)的ICD9 代碼。其中,一個病案文本可以被分配多個ICD9代碼。
在現(xiàn)有方法中,常常將每個ICD9代碼看成一個標簽,將病案文本ICD9 代碼自動分配看成文本多標簽分類問題,逐一判斷每個ICD9代碼與病案文本是否相關(guān)。具體的,第一種方法中,為每個案ICD9代碼設(shè)置1個相關(guān)內(nèi)容提取向量,1個語義向量。針對每個ICD9代碼,利用內(nèi)容提取向量,從病案文本中提取相關(guān)內(nèi)容獲得其語義表示,與相應(yīng)ICD9代碼的語義向量進行比較,得到分類結(jié)果。該方法沒有考慮ICD9代碼之間的相互關(guān)系,每個 ICD9代碼的分類過程是彼此獨立的。在第二種方法中,首先對ICD9代碼的描述文本進行編碼,得到ICD9代碼的內(nèi)容提取向量,在此基礎(chǔ)上進一步結(jié)合ICD9代碼之間的共現(xiàn)和層次關(guān)系得到ICD9代碼的語義向量,然后再針對每個ICD9代碼進行相關(guān)內(nèi)容提取和分類。第二種方法沒有考慮ICD9代碼分類結(jié)果之間的關(guān)系。第三種方法首先將ICD9描述文本及共現(xiàn)關(guān)系的編碼結(jié)果作為相關(guān)內(nèi)容提取向量,額外還為每個ICD9代碼定義了一個相關(guān)內(nèi)容提取向量;然后針對每個ICD9代碼,使用兩個向量同時從病案文本中提取相關(guān)內(nèi)容獲得其語義特征表示并進行拼接;最后將拼接結(jié)果與相應(yīng)的 ICD9代碼語義向量相比較,獲得分類結(jié)果,在分類時其還利用了ICD9代碼的層次結(jié)構(gòu),從上到下逐層進行分類,前一層的分類結(jié)果是后一層分類的依據(jù)。該方法雖然考慮了不同層次ICD9代碼分類結(jié)果之間的關(guān)系。但沒有考慮同一層ICD9代碼分類結(jié)果之間的關(guān)系,也沒有進行多輪分類。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于存儲網(wǎng)絡(luò)的病案文本ICD9代碼自動分配方法,該方法有效利用不同ICD9代碼分類結(jié)果的相關(guān)性,大大提高了ICD9 代碼自動分配的效果。
為了實現(xiàn)上述目的,本發(fā)明提供了一種基于存儲網(wǎng)絡(luò)的病案文本ICD9 代碼自動分配方法,包括:
步驟1、從互聯(lián)網(wǎng)上獲取數(shù)據(jù),包括病案文本及其對應(yīng)的ICD9代碼;去除病案文本和ICD9代碼描述文本中出現(xiàn)次數(shù)小于2大于3000的單詞,并將病案文本的長度處理成N,大于固定長度的截斷,小于固定長度的補空字符串;數(shù)據(jù)集中所有的ICD9代碼組成的集合為C,隨機從獲取的數(shù)據(jù)中取出M個病案及其對應(yīng)的ICD9代碼作為訓練數(shù)據(jù)集,將其中詞語共V個存入詞典;
步驟2、使用Gensim工具,在所有訓練集病案文本的基礎(chǔ)上,訓練 Skip-gram詞向量,得到其中每個詞對應(yīng)的d維向量表示,構(gòu)成詞向量矩陣 E∈RV×d;
步驟3、通過訓練數(shù)據(jù)集獲得矩陣表示c個ICD9 代碼被分配給了訓練集中第i個病案;利用ICD9代碼共現(xiàn)矩陣生成算法生成集合C對應(yīng)的ICD9代碼共現(xiàn)矩陣G∈R|C|×|C|,算法中的ω為正整數(shù),p∈[0,1]、 f為正整數(shù);
步驟4、將訓練數(shù)據(jù)集隨機分成若干個大小為B的批量,并分批進行參數(shù)訓練;
步驟5、反復(fù)執(zhí)行10-20輪步驟4,將得到參數(shù)及對應(yīng)的值進行持久化保存;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長三角信息智能創(chuàng)新研究院,未經(jīng)長三角信息智能創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111145867.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





