[發明專利]基于生成式對抗網絡技術的醫療文本生成方法有效
| 申請號: | 201810227535.0 | 申請日: | 2018-03-20 |
| 公開(公告)號: | CN108491497B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 朱斐;葉飛;伏玉琛;陳冬火 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G16H50/70;G06F21/62 |
| 代理公司: | 蘇州翔遠專利代理事務所(普通合伙) 32251 | 代理人: | 陸金星;姚惠菱 |
| 地址: | 215104 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡技術 醫療 文本 方法 | ||
1.一種基于生成式對抗網絡技術的醫療文本生成方法,通過打亂數據、模擬生成新的醫療文本,供機器學習、數據挖掘、人工智能方法在訓練、學習和測試使用,其特征在于,包括如下步驟:
(1)下載某個科屬領域的多篇醫療文檔,形成一個待預處理的醫療文檔集PD_SET;
(2)設定需要生成的醫療文檔數量n;
(3)初始化生成的醫療文本集GD_SET為空;
(4)初始化輸入數據集INPUT_SET為空;
(5)判斷待預處理的醫療文檔集PD_SET是否還有文檔未處理,如是,則隨機讀取其中的一篇醫療文檔D,轉向步驟(6);如否,則轉向步驟(10);
(6)將醫療文檔D從待預處理的醫療文檔集PD_SET中移除;
(7)對醫療文檔D進行向量化特征提取處理,即得到醫療文檔D的每個詞的詞向量;
(8)利用RNN文本分類器,判斷醫療文檔D是否為需要的醫療文檔,如是,則轉向步驟(9);如否,則醫療文檔D為不需要的醫療文檔,轉向步驟(5);
(9)讀取醫療文檔D的每個詞的詞向量,形成句向量,添加到輸入數據集INPUT_SET,轉向步驟(5);
(10)讀取輸入數據集INPUT_SET內容;
(11)采用基于生成式對抗網絡的方法訓練讀入的輸入數據集INPUT_SET,得到醫療文本生成模型MODEL;
(12)設定已生成文本的數量m=0;
(13)判斷已生成文本的數量m是否小于需要生成的醫療文檔數量n,如是,則轉向步驟(14);如否,則轉向步驟(18);
(14)使用醫療文本生成模型MODEL訓練生成醫療文本GD;
(15)計算GD的BLEU參數值GD_BLEU;
(16)判斷GD_BLEU是否大于設定的閾值BLEU_MAX,如是,則生成醫療文本GD為無效文本,舍棄GD,轉向步驟(17);如否,則將生成醫療文本GD添加到生成的醫療文本集GD_SET,轉向步驟(17);
(17)已生成文本的數量m值增加1,轉向步驟(13);
(18)判斷生成的醫療文本集GD_SET是否為空,如是,則輸出“無文本滿足條件”,如否,則輸出生成的醫療文本集GD_SET;
其中,生成器采用具有記憶功能的LSTM循環神經網絡結構,判別器采用CNN深度神經網絡結構;
步驟(7)中,采用基于skip-gram的語言模型訓練獲得每篇醫療文檔中所有詞的詞向量,在給定單詞的條件下,窗口內其他某個單詞出現的概率為:
其中,Z代表相似度(ux)Tvc,(ux)Tvc=W'vc,vc=Wwc,wc表示目標單詞的獨熱向量,vc表示目標單詞的詞向量,ux代表除了目標單詞外窗口內第x個單詞的詞向量,(ux)T表示ux的轉置,W為目標單詞的詞向量組成的矩陣,W'為由除目標單詞以外的窗口內其他所有單詞的詞向量的轉置組成的矩陣;
e是自然常數,約為2.71828;
K代表目標單詞的窗口內除目標單詞外其他所有單詞的個數;
j代表K個單詞中某個單詞的索引值;
步驟(8)中,采用基于循環神經網絡(Recurrent Neural Network,RNN)的分類模型訓練對每篇醫療文檔進行文本分類,
所述分類模型的目標是最小化預測概率分布和真實概率分布的交叉熵:
其中,代表真實值或者參考標準的ground-truth標簽,即第i個訓練樣本的屬于第j個類別的概率值;
是第i個訓練樣本經過預測屬于第j個類別的概率值;
N是訓練樣本的數量;
C是類別的數量,值為2,即表示有兩種類別的文檔,一種是滿足條件可以作為“需要的醫療文檔”,用類別“1”表示;另一種是不滿足條件,作為“不需要的醫療文檔”,用類別“0”表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810227535.0/1.html,轉載請聲明來源鉆瓜專利網。





