[發明專利]基于病歷文本的多標簽胃部疾病分類方法及裝置在審
| 申請號: | 202110146815.0 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN112802568A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 李壽山;陸文捷;譚惜姿;朱蘇陽;周國棟 | 申請(專利權)人: | 紫東信息科技(蘇州)有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/20;G06N3/08;G06N3/04 |
| 代理公司: | 蘇州謹和知識產權代理事務所(特殊普通合伙) 32295 | 代理人: | 徐磊 |
| 地址: | 215000 江蘇省蘇州市蘇州工業*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 病歷 文本 標簽 胃部 疾病 分類 方法 裝置 | ||
1.一種基于病歷文本的多標簽胃部疾病分類方法,其特征在于,所述方法包括:
獲取多組訓練數據,每組訓練數據包括病歷文本和所述病歷文本對應的疾病標簽;
基于所述多組訓練數據對預設的網絡結構進行訓練,得到疾病分類模型;所述疾病分類模型用于對輸入的病歷文本中的疾病分類進行識別;
其中,所述網絡結構是預訓練模型與seq2seq模型的結合;所述預訓練模型用于提取文本特征,所述seq2seq模型用于對文本特征進行標簽分類。
2.根據權利要求1所述的方法,其特征在于,所述基于所述多組訓練數據對預設的網絡結構進行訓練,包括:
對所述病歷文本進行預處理,得到預處理后的病歷文本;
將所述預處理后的病歷文本輸入所述網絡結構,結合網絡輸出結果和所述疾病標簽對所述網絡結構進行訓練;
其中,預處理包括去停用詞處理和文本長度統一處理。
3.根據權利要求1所述的方法,其特征在于,所述seq2seq模型為依賴于自注意力機制的Transformer模型。
4.根據權利要求3所述的方法,其特征在于,所述Transformer模型能夠學習目標標簽序列之間的依賴關系。
5.根據權利要求3所述的方法,其特征在于,所述Transformer模型包括編碼組件、與編碼組件相連的解碼組件、與解碼組件相連的線性層和與線性層相連的邏輯回歸層,所述編碼組件包括多個編碼器,所述解碼組件包括多個解碼器;
所述線性層用于將所述解碼組件輸出的實數向量投射到對數幾率的向量中,所述向量中每個單元格對應某個單詞的分數;
所述邏輯回歸層用于將所述線性層輸出的分數轉化為概率,概率最高的單元格對應的單詞作為當前時間步的輸出。
6.根據權利要求3所述的方法,其特征在于,所述自注意力機制的計算公式通過下式表示:
其中,Q表示查詢矩陣,K為關注的內容。
7.根據權利要求1所述的方法,其特征在于,所述預訓練模型為基于雙向Transformer的大規模無監督預訓練語言模型BERT模型。
8.根據權利要求1所述的方法,其特征在于,所述基于所述多組訓練數據對預設的網絡結構進行訓練,得到疾病分類模型,包括:
使用自適應矩估計Adam優化器,通過下式在訓練過程中改變學習率,以基于所述多組訓練數據對預設的網絡結構進行訓練,得到所述疾病分類模型;
其中,step_num表示時間步序號,warmup_steps為預設常數;d表示上一模型學習率,lrate表示更新后的學習率。
9.根據權利要求1所述的方法,其特征在于,所述基于所述多組訓練數據對預設的網絡結構進行訓練,得到疾病分類模型之后,還包括:
將待分類文本輸入所述疾病分類模型,得到多標簽序列;
使用集束搜索算法從所述多標簽序列中搜索最終的疾病標簽,所述最終的疾病標簽為標簽概率分布中概率最大的標簽。
10.一種基于病歷文本的多標簽胃部疾病分類裝置,其特征在于,所述裝置包括:
數據獲取模塊,用于獲取多組訓練數據,每組訓練數據包括病歷文本和所述病歷文本對應的疾病標簽;
模型訓練模塊,用于基于所述多組訓練數據對預設的網絡結構進行訓練,得到疾病分類模型;所述疾病分類模型用于對輸入的病歷文本中的疾病分類進行識別;
其中,所述網絡結構是預訓練模型與seq2seq模型的結合;所述預訓練模型用于提取文本特征,所述seq2seq模型用于對文本特征進行標簽分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紫東信息科技(蘇州)有限公司,未經紫東信息科技(蘇州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110146815.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑施工用吊裝機構
- 下一篇:一種可降解壓敏膠用樹脂





