[發明專利]一種結合序列生成和層級詞表的醫學概念自動編碼方法有效
| 申請號: | 202110597714.5 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113033155B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 湯步洲;黃源航;熊英;陳清財 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/247;G06F40/295;G06F40/30 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 朱陽波 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 序列 生成 層級 詞表 醫學 概念 自動 編碼 方法 | ||
1.一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述方法包括:
獲取臨床醫療文本,將所述臨床醫療文本輸入預設的編碼器中,得到所述臨床醫療文本的初始向量數據;
獲取預先構建的層級詞表數據,將所述層級詞表數據輸入預設的學習算法中,并獲得所述層級詞表的標準醫學術語向量數據;
將所述臨床醫療文本的初始向量數據和已經生成的所述標準醫學術語向量數據輸入預設的解碼器中,依次生成若干個標準醫學術語對應的編碼數據,并根據所述編碼數據形成所述臨床醫療文本對應的標準醫學術語序列數據;
所述獲取預先構建的層級詞表數據,將所述層級詞表數據輸入預設的學習算法中,并獲得所述層級詞表的標準醫學術語向量數據包括:
獲取術語詞典數據中的標準醫學術語數據的編碼信息,根據所述編碼信息將所述標準醫學術語數據分為父節點和子節點;
獲取所述父節點、所述子節點以及所述父節點與所述子節點之間的父子關系信息,根據所述父節點、所述子節點以及所述父節點與所述子節點之間的父子關系信息構建層級詞表數據;
將所述層級詞表數據輸入預設的學習算法中,得到表示所述父節點、所述子節點以及所述父子關系信息的向量數據;
將表示所述父節點、所述子節點以及所述父子關系信息的向量數據作為所述層級詞表的標準醫學術語向量數據。
2.根據權利要求1所述的一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述獲取臨床醫療文本,將所述臨床醫療文本輸入預設的編碼器中,得到所述臨床醫療文本的初始向量數據包括:
將臨床醫療文本輸入詞嵌入層,通過所述詞嵌入層對所述臨床醫療文本進行映射后得到映射數據;
將所述映射數據輸入到編碼器,獲取所述編碼器基于所述映射數據編碼生成所述臨床醫療文本的初始向量數據。
3.根據權利要求1所述的一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述編碼信息包含字母段信息和數字段信息。
4.根據權利要求3所述的一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述獲取術語詞典數據中的標準醫學術語數據的編碼信息,根據所述編碼信息將所述標準醫學術語數據分為父節點和子節點包括:
將每一個標準醫學術語數據作為一個節點;
將所有字母段信息的種類相同,且所述數字段信息預設順序位之前的若干個數字相同的節點作為同一類節點;
在所述同一類節點中,將所述數字段信息最短的節點作為父節點,將除所述父節點之外的節點作為子節點。
5.根據權利要求1所述的一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述解碼器包含有分類器,所述分類器中包含多個標準醫學術語的標簽,所述將所述臨床醫療文本的初始向量數據和已經生成的所述標準醫學術語向量數據輸入預設的解碼器中,依次生成若干個標準醫學術語對應的編碼數據,并根據所述編碼數據形成所述臨床醫療文本對應的標準醫學術語序列數據包括:
獲取由所述解碼器輸出的所有歷史標準醫學術語向量數據組成的序列數據;所述序列數據為當前時間步之前所述解碼器輸出的編碼對應的標準醫學術語向量數據;
通過所述分類器基于所述初始向量數據和所述序列數據,確定在所述臨床醫療文本對應的當前時間步時,所述解碼器輸出的編碼數據;重復這一過程,直到沒有編碼數據可以生成為止;
根據所述編碼數據形成所述臨床醫療文本對應的標準醫學術語序列數據。
6.根據權利要求5所述的一種結合序列生成和層級詞表的醫學概念自動編碼方法,其特征在于,所述分類器中包括概率函數,所述通過所述分類器基于所述初始向量數據和所述序列數據,確定在所述臨床醫療文本對應的當前時間步時,所述解碼器輸出的編碼數據,包括:
將所述初始向量數據與所述序列數據對應的向量數據進行融合,得到融合向量數據;
將所述融合向量數據輸入所述概率函數中,獲取所述概率函數基于所述融合向量數據生成的若干個可能的編碼數據的概率值;
將所述概率值按照數值大小進行排序,并將概率值最大的編碼數據作為當前時刻解碼器輸出的編碼數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110597714.5/1.html,轉載請聲明來源鉆瓜專利網。





