[發(fā)明專利]醫(yī)療數(shù)據(jù)分類分級方法、計(jì)算機(jī)設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111126082.0 | 申請日: | 2021-09-26 |
| 公開(公告)號: | CN113571199A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 顧勤;李正;趙婷;吳直高;李青光 | 申請(專利權(quán))人: | 成都健康醫(yī)聯(lián)信息產(chǎn)業(yè)有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H10/60;G06F40/242;G06F40/279;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 51214 | 代理人: | 徐靜 |
| 地址: | 610093 四川省成都市武侯區(qū)*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 醫(yī)療 數(shù)據(jù) 分類 分級 方法 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
1.一種醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,包括以下步驟:
S1. 醫(yī)療數(shù)據(jù)預(yù)處理:利用分詞工具,根據(jù)醫(yī)療類數(shù)據(jù)集中的醫(yī)療數(shù)據(jù)進(jìn)行分詞;根據(jù)需要過濾掉的字詞和標(biāo)點(diǎn)符號建立停用詞語料庫,在分詞之后,根據(jù)所述停用詞語料庫將分詞結(jié)果中的停用詞過濾掉;將過濾后的醫(yī)療數(shù)據(jù)詞袋化,統(tǒng)計(jì)詞頻并建立詞典;
S2. 提取詞向量:對預(yù)處理后的醫(yī)療數(shù)據(jù)進(jìn)行詞向量化,即將預(yù)處理后的醫(yī)療數(shù)據(jù)映射為詞向量,再根據(jù)生成的詞向量構(gòu)建詞向量語料庫;
S3. 構(gòu)建分類模型:將所述詞向量語料庫中的詞向量輸入至TextCNN模型進(jìn)行訓(xùn)練,所述TextCNN模型包括輸入層、卷積層、池化層、全連接層;所述輸入層的輸入為n*m的矩陣V,其中n為預(yù)處理后的醫(yī)療數(shù)據(jù)的詞語數(shù),m為每個(gè)詞語對應(yīng)的詞向量維度;所述卷積層采用多個(gè)高度不同、寬度固定為詞向量維度m的卷積核,以在不同長度的語句中提取不同視野尺寸的特征,所述卷積核與所述輸入層進(jìn)行卷積運(yùn)算后獲得特征序列;所述池化層對所述特征序列進(jìn)行降維操作,生成所述特征序列的池化結(jié)果;所述全連接層通過Softmax函數(shù)將所述池化層的輸出映射到(0,1)的范圍內(nèi),即映射為概率;
S4. 分類分級預(yù)測:調(diào)用已訓(xùn)練的TextCNN模型來計(jì)算待分類醫(yī)療數(shù)據(jù)的分類分級概率,并輸出分類分級結(jié)果。
2.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,步驟S2中,基于Word2Vec模型,通過Skip-gram算法將預(yù)處理后的醫(yī)療數(shù)據(jù)映射為詞向量;讀取預(yù)處理后的醫(yī)療數(shù)據(jù)作為輸入,訓(xùn)練一個(gè)m維的Word2Vec模型,將每個(gè)詞映射到n維的向量空間并存儲結(jié)果作為字典。
3.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,在所述輸入層中,對詞向量進(jìn)行padding即填充操作,使得每個(gè)句子的長度都一樣。
4.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,在所述卷積層中,不同高度的所述卷積核提取特征的方法包括以下步驟:
S301. 采用1維卷積,公式如下:
其中,Lin為輸入序列長度,Lout為輸出序列長度,Padding為填充,dilation為卷積的擴(kuò)張率,kernel_size為所述卷積核大小,stride為步長;
S302. 所述卷積核沿著預(yù)處理后的醫(yī)療數(shù)據(jù)的文本方向進(jìn)行移動(dòng),所述卷積核與所述輸入層進(jìn)行卷積運(yùn)算后獲得的特征序列為:
其中,Ci的計(jì)算公式為:
其中,f為非線性函數(shù),W為所述卷積核的權(quán)重矩陣,Xi:i+h-1為預(yù)處理后的醫(yī)療數(shù)據(jù)中的第i個(gè)詞到第i+h-1個(gè)詞對應(yīng)的詞向量,h為所述卷積核的高度,b為偏置項(xiàng)。
5.根據(jù)權(quán)利要求4所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,所述非線性函數(shù)設(shè)置為Relu函數(shù),即修正線性單元函數(shù),其計(jì)算公式如下:
當(dāng)輸入小于0時(shí),輸出都是0;當(dāng)輸入大于0時(shí),輸出與輸入相等。
6.根據(jù)權(quán)利要求4所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,所述卷積核設(shè)置為3個(gè),分別是2*m、3*m和4*m,其中m為詞向量的維度。
7.根據(jù)權(quán)利要求4所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,所述池化層對所述特征序列進(jìn)行的降維操作包括:首先提取所述特征序列中的最大值Cmax,然后對所述特征序列中除最大值以外的剩余數(shù)據(jù)求平均值Cavg,再將最大值Cmax和平均值Cavg拼接在一起作為所述特征序列的池化結(jié)果,其中:
其中,表示所述特征序列中除最大值以外的剩余數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述的醫(yī)療數(shù)據(jù)分類分級方法,其特征在于,在所述全連接層中,所述Softmax函數(shù)的計(jì)算公式如下:
其中,zj為第j個(gè)節(jié)點(diǎn)的輸出值,k為輸出節(jié)點(diǎn)的個(gè)數(shù)即分類分級的類別個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都健康醫(yī)聯(lián)信息產(chǎn)業(yè)有限公司,未經(jīng)成都健康醫(yī)聯(lián)信息產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111126082.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





