[發(fā)明專利]基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111145867.2 | 申請(qǐng)日: | 2021-09-28 |
| 公開(公告)號(hào): | CN113782137A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 洪旭東 | 申請(qǐng)(專利權(quán))人: | 長三角信息智能創(chuàng)新研究院 |
| 主分類號(hào): | G16H15/00 | 分類號(hào): | G16H15/00;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京潤平知識(shí)產(chǎn)權(quán)代理有限公司 11283 | 代理人: | 董杰 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 存儲(chǔ) 網(wǎng)絡(luò) 病案 文本 icd9 代碼 自動(dòng) 分配 方法 | ||
1.一種基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法,其特征在于,包括:
步驟1、從互聯(lián)網(wǎng)上獲取數(shù)據(jù),包括病案文本及其對(duì)應(yīng)的ICD9代碼;去除病案文本和ICD9代碼描述文本中出現(xiàn)次數(shù)小于2大于3000的單詞,并將病案文本的長度處理成N,大于固定長度的截?cái)啵∮诠潭ㄩL度的補(bǔ)空字符串;數(shù)據(jù)集中所有的ICD9代碼組成的集合為C,隨機(jī)從獲取的數(shù)據(jù)中取出M個(gè)病案及其對(duì)應(yīng)的ICD9代碼作為訓(xùn)練數(shù)據(jù)集,將其中詞語共V個(gè)存入詞典;
步驟2、使用Gensim工具,在所有訓(xùn)練集病案文本的基礎(chǔ)上,訓(xùn)練Skip-gram詞向量,得到其中每個(gè)詞對(duì)應(yīng)的d維向量表示,構(gòu)成詞向量矩陣E∈RV×d;
步驟3、通過訓(xùn)練數(shù)據(jù)集獲得矩陣表示c個(gè)ICD9代碼被分配給了訓(xùn)練集中第i個(gè)病案;利用ICD9代碼共現(xiàn)矩陣生成算法生成集合C對(duì)應(yīng)的ICD9代碼共現(xiàn)矩陣G∈R|C|×|C|,算法中的ω為正整數(shù),p∈[0,1]、f為正整數(shù);
步驟4、將訓(xùn)練數(shù)據(jù)集隨機(jī)分成若干個(gè)大小為B的批量,并分批進(jìn)行參數(shù)訓(xùn)練;
步驟5、反復(fù)執(zhí)行10-20輪步驟4,將得到參數(shù)及對(duì)應(yīng)的值進(jìn)行持久化保存;
步驟6、使用第5步中得到的參數(shù)值,作為步驟4中各參數(shù)的值,并針對(duì)測(cè)試數(shù)據(jù),執(zhí)行步驟4,將{c|oi,c>θ}作為分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法,其特征在于,步驟4中包括:
步驟4.1、針對(duì)每個(gè)批量中每個(gè)病案文本執(zhí)行:
步驟4.1.1、將每個(gè)病案文本表示為詞語one-hot向量所組成的矩陣表示該文本的第n個(gè)位置,為詞典中的第v個(gè)詞;將送入詞向量層,即通過得到病案文本內(nèi)容的詞向量表示
步驟4.1.2、將送入多層卷積網(wǎng)絡(luò)對(duì)病案文本進(jìn)行特征提取,計(jì)算過程為(1)式和(2)式;其中,CNNl表示第l層CNN,CNN的卷積核大小為3、移動(dòng)幅度為1、輸出通道數(shù)為2*d;pad()表示將在或的第1維上前后各增加1個(gè)向量0d;經(jīng)過L層CNN后將得到
步驟4.1.3、為每個(gè)ICD9代碼設(shè)置1個(gè)內(nèi)容提取向量Uc∈Rd,通過attention機(jī)制找到與其密切相關(guān)的內(nèi)容,計(jì)算過程為(3)式和(4)式,得到語義表示Hi,c∈Rd,將所有Hi,c都作為存儲(chǔ)單元進(jìn)行存儲(chǔ);
步驟4.1.4、為每個(gè)ICD9代碼設(shè)置1個(gè)語義向量Wc∈R2d和1個(gè)GRUc單元;所有GRUc的輸入尺寸為|C|,輸出尺寸為d;并對(duì)每個(gè)ICD9代碼通過(5)式和(6)式進(jìn)行多輪分類,其中,表示向量的拼接,yi,s∈[0,1]|C|表示經(jīng)過s輪分類后得到所有ICD9代碼的分類結(jié)果,yi,0=0|C|;最終經(jīng)過S輪分類后,得到分類結(jié)果oi,c=y(tǒng)i,S,c=[0,1]。
ti,s,c=GRUc(Gc*yi,s-1,ti,s,c-1) (5)
3.根據(jù)權(quán)利要求1所述的基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法,其特征在于,步驟4中還包括:
步驟4.2、按(7)式計(jì)算該批量對(duì)應(yīng)的交叉熵?fù)p失。
4.根據(jù)權(quán)利要求1所述的基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法,其特征在于,步驟4中還包括:
步驟4.3、使用批量梯度下降算法及Adam優(yōu)化算法,將學(xué)習(xí)率設(shè)置為μ,將待學(xué)習(xí)的參數(shù)設(shè)置為E、Wc、Uc、{CNNl}l=1:L、{GRUc}c=1:|C|,根據(jù)loss進(jìn)行參數(shù)學(xué)習(xí)。
5.根據(jù)權(quán)利要求1所述的基于存儲(chǔ)網(wǎng)絡(luò)的病案文本ICD9代碼自動(dòng)分配方法,其特征在于,在步驟6中,使用第5步中得到的參數(shù)值,作為步驟4.1中各參數(shù)的值,并針對(duì)測(cè)試數(shù)據(jù),執(zhí)行步驟4.1,將{c|oi,c>θ}作為分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長三角信息智能創(chuàng)新研究院,未經(jīng)長三角信息智能創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111145867.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





