[發(fā)明專利]一種基于Simhash-BERT網(wǎng)絡(luò)的醫(yī)用耗材合理使用分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 202210079547.X | 申請(qǐng)日: | 2022-01-24 |
| 公開(公告)號(hào): | CN114416966B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計(jì))人: | 宋尚玲;劉澤 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué)第二醫(yī)院 |
| 主分類號(hào): | G06F16/335 | 分類號(hào): | G06F16/335;G06F16/35;G06F40/186;G06F40/194;G06F40/242;G06F40/279;G06F40/30;G16H50/70 |
| 代理公司: | 濟(jì)南龍瑞知識(shí)產(chǎn)權(quán)代理有限公司 37272 | 代理人: | 李穎 |
| 地址: | 250000 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 simhash bert 網(wǎng)絡(luò) 醫(yī)用 耗材 合理 使用 分析 方法 | ||
1.一種基于Simhash-BERT網(wǎng)絡(luò)的醫(yī)用耗材合理使用分析方法,其特征在于,步驟如下:
步驟S1:利用數(shù)據(jù)分析平臺(tái)的搜索功能,確定檢索用的文字、語(yǔ)句,設(shè)置調(diào)用接口,從數(shù)據(jù)庫(kù)中調(diào)用包含待檢索與匹配的文字、語(yǔ)句的目標(biāo)文檔;
步驟S2:將文字、語(yǔ)句處理成字符串;
步驟S3:確定搜索的字符串和單詞詞典,所述單詞詞典用于將不同文檔中的每個(gè)語(yǔ)句都劃分為不同的字符串保存?zhèn)溆茫粯?gòu)建搜索網(wǎng)絡(luò)模型BERT,然后對(duì)由多個(gè)變壓器堆疊而成的BERT網(wǎng)絡(luò)進(jìn)行優(yōu)化,并采用token嵌入、分割嵌入和位置嵌入,使得BERT網(wǎng)絡(luò)的嵌入層實(shí)現(xiàn)字符的傳遞;
步驟S4:在每個(gè)字符串開始位置添加分類標(biāo)簽token,將BERT網(wǎng)絡(luò)的變壓器輸出作為分類過程的融合序列,采用BERT網(wǎng)絡(luò)的學(xué)習(xí)位置嵌入,將融合序列的長(zhǎng)度保持為256個(gè)token;BERT網(wǎng)絡(luò)運(yùn)行過程中產(chǎn)生的句子對(duì)記為語(yǔ)句A和語(yǔ)句B,語(yǔ)句A的每個(gè)token中嵌入學(xué)習(xí)語(yǔ)句X1,語(yǔ)句B的每個(gè)token中嵌入學(xué)習(xí)語(yǔ)句X2;
步驟S5:對(duì)BERT網(wǎng)絡(luò)進(jìn)行深度雙向表示訓(xùn)練,采用隨機(jī)屏蔽輸入token,對(duì)屏蔽的token進(jìn)行預(yù)測(cè);隨機(jī)屏蔽語(yǔ)句A或語(yǔ)句B中10%的組成部分,進(jìn)行非監(jiān)督學(xué)習(xí)的訓(xùn)練;為了保持變壓器中每個(gè)語(yǔ)句的token分布式特征和增加信息量,在屏蔽部分,其中90%采用固定的模板進(jìn)行屏蔽,5%采用隨機(jī)的模板進(jìn)行屏蔽,剩余5%保持不變;
步驟S6:重復(fù)步驟S 5直至滿足BERT網(wǎng)絡(luò)的訓(xùn)練目標(biāo),所述訓(xùn)練目標(biāo)為:在訓(xùn)練句子對(duì)中隨機(jī)選擇,滿足X2的語(yǔ)義是X1下一句的部分,占總比例的1/4;對(duì)剩余的3/4進(jìn)行隨機(jī)挑選,針對(duì)不同的情形,繼續(xù)學(xué)習(xí)X1和X2之間的相關(guān)性,提高訓(xùn)練模型的自適應(yīng)性;
步驟S7:利用24層多類型注意機(jī)制,將步驟S6中的輸出結(jié)果傳遞給BERT網(wǎng)絡(luò)默認(rèn)的回歸函數(shù),來推導(dǎo)最終的表征,定義BERT網(wǎng)絡(luò)語(yǔ)義相似度基準(zhǔn)的性能;
步驟S8:在步驟S7運(yùn)行完成的BERT網(wǎng)絡(luò)輸出中添加由詞語(yǔ)分割網(wǎng)絡(luò)優(yōu)化的權(quán)重P,并對(duì)添加權(quán)重P之后BERT網(wǎng)絡(luò)輸出的字符串進(jìn)行相關(guān)池化操作,分別采取最大池化、最小池化以及平均池化,保證輸出的字符串向量長(zhǎng)度相等;
步驟S9:采用Simhash相似度計(jì)算對(duì)池化操作后的字符串進(jìn)行篩選,設(shè)計(jì)詞語(yǔ)分割網(wǎng)絡(luò)進(jìn)行權(quán)重P的優(yōu)化,所述詞語(yǔ)分割網(wǎng)絡(luò)采用三聯(lián)體網(wǎng)絡(luò)對(duì)目標(biāo)文檔中的文本進(jìn)行難例挖掘策略,所述難例挖掘策略通過構(gòu)建從最小訓(xùn)練批次中選擇積極或者消極的負(fù)例對(duì)來實(shí)現(xiàn);
將所述負(fù)例代入BERT網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用訓(xùn)練結(jié)果對(duì)權(quán)重P進(jìn)行進(jìn)一步優(yōu)化;
步驟S10:將訓(xùn)練后的字符串進(jìn)行分詞,產(chǎn)生整個(gè)目標(biāo)文檔的特征詞,去掉噪音詞,形成詞序列,為每個(gè)詞序列添加權(quán)重;
步驟S11:文本信息轉(zhuǎn)化為數(shù)字信息,將待檢測(cè)的字符串通過hash算法生成對(duì)應(yīng)的hash值:0和1;
步驟S12:將hash值添加詞序列的權(quán)重,形成加權(quán)數(shù)字串,根據(jù)語(yǔ)句中每個(gè)詞所起到的不同作用將生成的hash值作為評(píng)價(jià),采用熵權(quán)法計(jì)算新權(quán)重,進(jìn)而將得到的hash值進(jìn)行最大最小標(biāo)準(zhǔn)化處理,公式如下:
其中表示第i個(gè)字符串的第j個(gè)指標(biāo)標(biāo)準(zhǔn)化后的值,表示對(duì)第i個(gè)字符串進(jìn)行最大標(biāo)準(zhǔn)化,表示對(duì)第i個(gè)字符串進(jìn)行最小標(biāo)準(zhǔn)化;
信息熵的求解為將代入下列公式:
=-,
=,
其中,L代表第j個(gè)指標(biāo)下第i個(gè)字符串的指標(biāo)值的比重,代表第i個(gè)字符串的第j個(gè)指標(biāo);
將所有指標(biāo)、、的信息熵以此求出,各字符串的權(quán)重值為:
=,i=1、2、3、、n;
hash值通過加權(quán)計(jì)算的序列值h為:
,
表示hash值的第i個(gè)的值,0或者1;
將同一語(yǔ)句中每個(gè)詞通過獲得的加權(quán)數(shù)字串對(duì)應(yīng)的序列值進(jìn)行疊加,得到一個(gè)總的序列值;
步驟S13:把得到的總序列值進(jìn)行降維,大于0的值替換為1,小于0的值替換為0,得到最終輸出結(jié)果;
步驟S14:將不同語(yǔ)句的輸出結(jié)果進(jìn)行比較,比較對(duì)應(yīng)位置的0和1是否相等,將不相等的個(gè)數(shù)計(jì)為距離值,距離值越小,相似性越高;
步驟S15:通過相似性計(jì)算,根據(jù)單詞字典,遍歷文檔中所有語(yǔ)句,找到與檢索語(yǔ)句Simhash距離值最小的語(yǔ)句,得到最終的輸出結(jié)果;
步驟S16:目標(biāo)文檔中鎖定語(yǔ)句關(guān)系,同一行文本屬于同一簇,同一列文本屬于同一類,并進(jìn)行余弦相似度檢測(cè),找出已進(jìn)行目標(biāo)語(yǔ)句和前后語(yǔ)句的相似度對(duì)比,判定前后語(yǔ)句是否屬于同一簇或者同一類的字符串輸出;
步驟S17:設(shè)定輸出的字符串大小,使其大于待檢測(cè)的字符串大小,當(dāng)目標(biāo)語(yǔ)句鎖定時(shí),通過調(diào)節(jié)字符串的長(zhǎng)度,獲取目標(biāo)字符串所在位置前后相關(guān)的文本;
步驟S18:通過外部接口調(diào)用,將搜尋到的文本信息進(jìn)行輸出與展示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué)第二醫(yī)院,未經(jīng)山東大學(xué)第二醫(yī)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210079547.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語(yǔ)言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測(cè)方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語(yǔ)言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





