[發(fā)明專利]基于偽單詞序列生成的病例分類的零樣本蒸餾系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 202211525438.2 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN116011559A | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設計)人: | 陳晟;蔣智威;杜娟;顧慶 | 申請(專利權)人: | 南京大學;南京鼓樓醫(yī)院 |
| 主分類號: | G06N3/096 | 分類號: | G06N3/096;G06N3/091;G06N3/0895;G06N3/084;G06N3/045;G06F16/35;G06F40/205;G16H10/60;G16H50/70;G16H50/20 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 徐曉鷺 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 單詞 序列 生成 病例 分類 樣本 蒸餾 系統(tǒng) 方法 | ||
本發(fā)明公開了基于偽單詞序列生成的病例分類的零樣本蒸餾系統(tǒng)及方法,包括:模型分離模塊,將教師模型分割成詞嵌入層和剩余的編碼層;多元正態(tài)分布生成模塊,利用訓練好的教師模型的網絡權重計算多元正態(tài)分布系數;偽樣本生成模塊,利用生成的多元正態(tài)分布、分割后的教師模型編碼層和教師模型詞嵌入層生成詞嵌入向量樣本;蒸餾模塊,利用生成的詞嵌入向量生成樣本,進行知識蒸餾,從而將教師模型的知識轉移到學生模型中。本發(fā)明能夠讓使得沒有真實數據的情境下,可以通過已經訓練好的模型轉移其知識給新的輕量化模型,并且直接生成詞嵌入向量樣本,并用其執(zhí)行蒸餾過程,保證了偽樣本生成和蒸餾的有效性,可以在沒有數據的現實情況下蒸餾得到適用于同一領域數據預測的輕量化新模型。
技術領域
本發(fā)明屬于自然語言處理領域,具體指代基于偽單詞序列生成的病例分類的零樣本蒸餾系統(tǒng)及方法。
背景技術
病例是醫(yī)療部門指某種疾病的實例,記錄著某個人或生物患過某種疾病,病例對醫(yī)療、預防、教學、科研、醫(yī)院管理等都有重要的作用。但是在實際情況中,很多病例數據無法獲得,并且病例包含許多不同的類別信息,如果利用人工進行篩選,會增加很大的人力成本,并且病例太多出錯率也會增加。病例數據分類是為了實現輔助疾病診斷,比如在對癌癥分型或糖尿病等疾病類型判斷中,需要根據醫(yī)院檢查的各項指標和患者自身病況來判斷,但是鑒于數據隱私性,一些病人的醫(yī)療和個人特征數據一般不會公開。因此在實際情況下,我們想要得到一個輕量化易于部署的可以判斷患者患病類型的模型,就可以通過經過這些未公開數據訓練后的模型,生成這些數據的偽樣本,并且蒸餾得到所需要的輕量化模型。所以在這種情況下,自然語言處理的零樣本知識蒸餾便可以解決該問題。
首先介紹一下知識蒸餾,知識蒸餾最初由Hinton提出,指通過引入訓練好的復雜、但預測精度優(yōu)越教師模型(Teacher?model),來誘導精簡、低復雜度,更適合推理部署學生網絡(Student?network)的訓練,從而實現知識遷移(Knowledge?transfer)。
但是,在實際的蒸餾過程中,需要用到原始訓練數據集,但是由于數據隱私性,諸如生物特征數據和病人的醫(yī)療保健等數據一般不會公開,所以原始訓練數據不可得.。由此便提出了零樣本的知識蒸餾。傳統(tǒng)的自然語言處理零樣本知識蒸餾,研究的數據集樣本較多類別較少,生成偽樣本的方式是離散的不易于優(yōu)化,并且在生成偽樣本的方式上有所欠缺。
有鑒于此,本發(fā)明提出的基于偽單詞序列的偽樣本生成方法,可以通過教師模型本身的詞嵌入層,生成接近與原始數據的詞嵌入向量在同一空間下的偽樣本,連續(xù)易于優(yōu)化,從而提高蒸餾性能。并且,本發(fā)明還在技術方面有創(chuàng)新,因為圖像是連續(xù)的可以直接優(yōu)化,所以圖像較好生成,但是自然語言中的文本是離散的,不易于直接優(yōu)化,所以本發(fā)明也從新的角度提出了文本偽樣本生成方式。
發(fā)明內容
針對現有技術存在的缺陷,本發(fā)明的目的在于提供基于偽單詞序列生成的病例分類的零樣本蒸餾系統(tǒng)及方法,以解決現有技術中,文本單詞生成離散不易于優(yōu)化從而導致偽樣本不接近于真實數據分布,蒸餾效果底下。本發(fā)明能夠在由于數據隱私等原因導致的真實數據不可得的情況下,使得在真實數據上訓練好的教師模型可以更好的轉移和壓縮其知識給輕量化的學生模型,從而方便部署,并達到知識轉移的目的,并且本發(fā)明不需要單獨的生成模型,可以直接通過教師模型詞嵌入層優(yōu)化連續(xù)的偽樣本向量。
為達到上述目的,本發(fā)明采用的技術方案如下:
本發(fā)明的基于偽單詞序列生成的病例分類的零樣本蒸餾系統(tǒng)及方法,其特征在于,包括:模型分離模塊;多元正態(tài)分布生成模塊;偽樣本生成模塊;蒸餾模塊;
所述模型分離模塊,將教師模型分割成詞嵌入層和剩余的編碼層,并對公開病例數據集進行分句處理,本申請中的“公開病例數據集”為互聯(lián)網上公開的病例數據集,包括心臟病,新冠感染等疾病的病例數據,要先對其進行分句處理;
所述多元正態(tài)分布生成模塊包括:多元正態(tài)分布系數計算模塊、模擬標簽分布采樣計算模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學;南京鼓樓醫(yī)院,未經南京大學;南京鼓樓醫(yī)院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211525438.2/2.html,轉載請聲明來源鉆瓜專利網。





