[發(fā)明專利]基于深度對(duì)抗學(xué)習(xí)的多語言醫(yī)療術(shù)語規(guī)范標(biāo)準(zhǔn)化系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110588841.9 | 申請(qǐng)日: | 2021-05-27 |
| 公開(公告)號(hào): | CN113377897B | 公開(公告)日: | 2022-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 任元?jiǎng)P;江振榮 | 申請(qǐng)(專利權(quán))人: | 杭州萊邁醫(yī)療信息科技有限公司 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/36;G06F40/247;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G16H10/60 |
| 代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李培 |
| 地址: | 310051 浙江省杭州市濱江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 對(duì)抗 學(xué)習(xí) 語言 醫(yī)療 術(shù)語 規(guī)范 標(biāo)準(zhǔn)化 系統(tǒng) 方法 | ||
1.基于深度對(duì)抗學(xué)習(xí)的多語言醫(yī)療術(shù)語規(guī)范標(biāo)準(zhǔn)化系統(tǒng),包括標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語庫(kù),其特征在于:還包括文件預(yù)處理模塊、候選術(shù)語集生成模塊、候選術(shù)語集重排模塊以及輸出模塊;
所述文件預(yù)處理模塊,用于統(tǒng)一真實(shí)世界的醫(yī)學(xué)術(shù)語字符串的格式,以及將長(zhǎng)字符串開分成單個(gè)的中文及英文詞token;
所述候選術(shù)語集生成模塊,用于從標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語集合中篩選出前n個(gè)與真實(shí)世界醫(yī)學(xué)術(shù)語最相似的候選標(biāo)準(zhǔn)術(shù)語;
所述候選術(shù)語集重排模塊:用于將真實(shí)世界醫(yī)學(xué)術(shù)語與篩選出來的候選術(shù)語組成術(shù)語對(duì),根據(jù)匹配程度標(biāo)注成正例和負(fù)例,作為深度學(xué)習(xí)模型的輸入,模型通過迭代優(yōu)化生成自動(dòng)術(shù)語匹配模型;
所述輸出模塊,用于向用戶返回生成的術(shù)語對(duì)數(shù)據(jù)的相似度概率,用戶可以通過設(shè)定相似度的閾值來判斷非規(guī)范化術(shù)語得到的規(guī)范化術(shù)語是否需要進(jìn)行進(jìn)一步的人工校驗(yàn);
所述文件預(yù)處理模塊具體包括醫(yī)學(xué)術(shù)語標(biāo)注語料、編碼、字符統(tǒng)一模塊及第一分詞模塊;
所述醫(yī)學(xué)術(shù)語標(biāo)注語料:用于為訓(xùn)練基于深度學(xué)習(xí)的自動(dòng)術(shù)語匹配模型,將人工構(gòu)建的真實(shí)世界醫(yī)學(xué)術(shù)語與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語的語義對(duì)應(yīng)關(guān)系作為訓(xùn)練語料輸入到所述候選術(shù)語集重排模塊中;
所述編碼、字符統(tǒng)一模塊:用于去除真實(shí)世界的醫(yī)學(xué)術(shù)語字符串中的噪音;
所述第一分詞模塊:用于將待規(guī)范化術(shù)語的長(zhǎng)字符串開分成單個(gè)的中文及英文詞token,以方便在所述候選術(shù)語集生成模塊中與標(biāo)準(zhǔn)術(shù)語進(jìn)行匹配;
所述候選術(shù)語集生成模塊具體包括第二分詞模塊、標(biāo)準(zhǔn)術(shù)語索引及語義搜索模塊;
所述第二分詞模塊:用于將標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語的長(zhǎng)字符串開分成單個(gè)的中文及英文詞token;
所述標(biāo)準(zhǔn)術(shù)語索引:用于將已經(jīng)分好詞的標(biāo)準(zhǔn)術(shù)語建成索引;
所述語義搜索模塊:用于從標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語的索引中,基于語義匹配搜索出前n個(gè)與真實(shí)世界醫(yī)學(xué)術(shù)語最相似的標(biāo)準(zhǔn)術(shù)語,以在所述候選術(shù)語集重排模塊中形成候選的匹配術(shù)語對(duì);
所述候選術(shù)語集重排模塊具體包括訓(xùn)練術(shù)語對(duì)集合、中文自注意力深度神經(jīng)網(wǎng)絡(luò)模塊、第一醫(yī)學(xué)知識(shí)圖譜嵌入模塊、第一參數(shù)優(yōu)化模塊、第一訓(xùn)練誤差計(jì)算模塊、雙語種自注意力深度學(xué)習(xí)模塊、第三參數(shù)優(yōu)化模塊、第三訓(xùn)練誤差計(jì)算模塊、英文自注意力深度神經(jīng)網(wǎng)絡(luò)模塊、第二醫(yī)學(xué)知識(shí)圖譜嵌入模塊、第二參數(shù)優(yōu)化模塊、第二訓(xùn)練誤差計(jì)算模塊及自動(dòng)術(shù)語匹配模型;
所述訓(xùn)練術(shù)語對(duì)集合:根據(jù)所述語義搜索模塊中搜索得到的候選標(biāo)準(zhǔn)術(shù)語集合,以及所述醫(yī)學(xué)術(shù)語標(biāo)注語料中的人工標(biāo)注,生成用于模型訓(xùn)練的正例對(duì)和負(fù)例對(duì)集合,作為深度神經(jīng)網(wǎng)絡(luò)模塊的輸入;
所述中文自注意力深度神經(jīng)網(wǎng)絡(luò)模塊:將中文術(shù)語對(duì)輸入表示成分布式語義嵌入向量的形式,并根據(jù)自注意力模型調(diào)整向量各維度單元的權(quán)重;
所述第一醫(yī)學(xué)知識(shí)圖譜嵌入模塊:為中文標(biāo)準(zhǔn)術(shù)語添加基于醫(yī)學(xué)知識(shí)圖譜生成的分布式語義嵌入向量;
所述第一參數(shù)優(yōu)化模塊:通過迭代逐步優(yōu)化中文深度神經(jīng)網(wǎng)絡(luò)的參數(shù);
所述第一訓(xùn)練誤差計(jì)算模塊:用于計(jì)算每次中文模型迭代的誤差,并通過后向反饋調(diào)整深度神經(jīng)網(wǎng)絡(luò)參數(shù);
所述雙語種自注意力深度學(xué)習(xí)模塊:用于將中文術(shù)語對(duì)和英文術(shù)語對(duì)輸入表示成分布式語義嵌入向量的形式,并根據(jù)自注意力模型同時(shí)調(diào)整雙語向量的各維度單元的權(quán)重;
所述第三參數(shù)優(yōu)化模塊: 通過迭代逐步優(yōu)化雙語種深度神經(jīng)網(wǎng)絡(luò)的參數(shù);
所述第三訓(xùn)練誤差計(jì)算模塊: 用于計(jì)算每次雙語種模型迭代的誤差,并通過后向反饋調(diào)整深度神經(jīng)網(wǎng)絡(luò)參數(shù);
所述英文自注意力深度神經(jīng)網(wǎng)絡(luò)模塊:用于將英文術(shù)語對(duì)輸入表示成分布式語義嵌入向量的形式,并根據(jù)自注意力模型調(diào)整向量各維度單元的權(quán)重;
所述第二醫(yī)學(xué)知識(shí)圖譜嵌入模塊:為英文標(biāo)準(zhǔn)術(shù)語添加基于醫(yī)學(xué)知識(shí)圖譜生成的分布式語義嵌入向量;
所述第二參數(shù)優(yōu)化模塊: 通過迭代逐步優(yōu)化英文深度神經(jīng)網(wǎng)絡(luò)的參數(shù);
所述第二訓(xùn)練誤差計(jì)算模塊:用于計(jì)算每次英文模型迭代的誤差,并通過后向反饋調(diào)整深度神經(jīng)網(wǎng)絡(luò)參數(shù);
所述自動(dòng)術(shù)語匹配模型:在訓(xùn)練階段,模型通過迭代優(yōu)化生成自動(dòng)術(shù)語匹配的模型,為真實(shí)世界醫(yī)學(xué)術(shù)語匹配對(duì)應(yīng)的標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語。
2.一種基于深度對(duì)抗學(xué)習(xí)的多語言醫(yī)療術(shù)語規(guī)范標(biāo)準(zhǔn)化方法,采用權(quán)利要求1所述的多語言醫(yī)療術(shù)語規(guī)范標(biāo)準(zhǔn)化系統(tǒng),其特征在于:該方法具體包括文件預(yù)處理步驟、候選術(shù)語集生成步驟、候選術(shù)語及重排步驟以及輸出步驟;
所述文件預(yù)處理步驟,統(tǒng)一真實(shí)世界的醫(yī)學(xué)術(shù)語字符串的格式以及將長(zhǎng)字符串開分成單個(gè)的中文及英文詞token;
所述候選術(shù)語集生成步驟,從標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語集合中篩選出前n個(gè)與真實(shí)世界醫(yī)學(xué)術(shù)語最相似的候選標(biāo)準(zhǔn)術(shù)語;
所述候選術(shù)語及重排步驟,將真實(shí)世界醫(yī)學(xué)術(shù)語與篩選出來的候選術(shù)語組成術(shù)語對(duì),根據(jù)匹配程度標(biāo)注成正例和負(fù)例,作為深度學(xué)習(xí)模型的輸入,模型通過迭代優(yōu)化生成自動(dòng)術(shù)語匹配模型;
所述輸出步驟,向用戶返回生成的術(shù)語對(duì)數(shù)據(jù)的相似度概率,用戶可以通過設(shè)定相似度的閾值來判斷非規(guī)范化術(shù)語得到的規(guī)范化術(shù)語是否需要進(jìn)行進(jìn)一步的人工校驗(yàn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州萊邁醫(yī)療信息科技有限公司,未經(jīng)杭州萊邁醫(yī)療信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588841.9/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





