[發明專利]一種醫療癥狀實體信息歸一化方法和系統在審
| 申請號: | 202210736314.2 | 申請日: | 2022-06-27 |
| 公開(公告)號: | CN115148367A | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 黃友福;肖龍源;李海洲;李稀敏;李威 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F40/295;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 連耀忠 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 癥狀 實體 信息 歸一化 方法 系統 | ||
本發明提供一種醫療癥狀實體信息歸一化方法,首先根據疾病信息定義標準癥狀類別列表,利用實體識別方法識別所包含的原始癥狀,結合實疾病數據本身文本,對疾病數據進行打標,作為模型訓練數據集;針對訓練數據集中的每條句子、每條癥狀信息進行embedding編碼,并進行實體信息歸一化模型的訓練,得到訓練完成后的實體信息歸一化模型;將需要歸一化的醫療數據輸入訓練完成后的實體信息歸一化模型,得到維度為[1,N]的向量,確定實體信息歸一化模型輸出的N維向量中值最大的元素所在的維度,得到歸一化后的對應類別;本發明提供的方法能夠結合實體識別方法對結果進行歸一化,消除實體信息歧義,降低實體信息處理的復雜度,且本發明提供的模型識別能力強。
技術領域
本發明涉及醫療對話系統領域,特別是指一種醫療癥狀實體信息歸一化方法和系統。
背景技術
在醫療對話系統中,通過命名實體識別(NER)可以對癥狀信息進行提取。但是由于口語表達的多樣性病人對同一癥狀存在多種描述方式,例如“瘙癢”這一癥狀由于可能被描述成“癢”,“很癢”,“一直想撓”等等。因此在對話系統的應答流程配置中,若要設置瘙癢相關的流程則需要窮舉大量的表述方式,耗時耗力且不能從根源上解決問題。
因此,亟需開發一種能夠解決上述技術難題的醫療癥狀實體名稱歸一化的方法。
發明內容
本發明的主要目的在于克服現有技術中的上述缺陷,提出一種醫療癥狀實體信息歸一化方法和系統,能夠結合實體識別方法對結果進行歸一化,消除實體信息歧義,降低實體信息處理的復雜度。
本發明采用如下技術方案:
一種醫療癥狀實體信息歸一化方法,包括:
根據疾病信息定義標準癥狀類別列表,所述疾病信息包括但不限于疾病特征、疾病種類以及疾病生理現象;
對原始數據集中的每條疾病數據,利用實體識別方法識別所包含的原始癥狀,結合實體識別方法抽取出的原始癥狀和疾病數據本身文本,對疾病數據進行打標,其標簽類別為標準癥狀列表中的一類,標注完后作為模型訓練數據集;
針對訓練數據集中的每條句子信息進行embedding編碼,得到維度為[40,80]的句子矩陣X1,針對訓練數據集中的每條癥狀信息進行embedding編碼,得到維度為[40,80]的實體矩陣X2,針對訓練數據集中的每條標準癥狀類別進行embedding編碼,得到維度為[N,1]的向量Y,其中N為定義的標準癥狀類別數,向量的每個維度代表一個類別,本標準癥狀類別對應的維度值為1,另外維度值為0;
利用訓練數據中的句子矩陣X1和實體矩陣X2進行實體信息歸一化模型的訓練,得到訓練完成后的實體信息歸一化模型;
利用實體識別方法對疾病句子進行識別,提取出實體識別方法識別到的癥狀實體信息;將句子信息和癥狀實體信息進行embedding編碼,將編碼后的句子矩陣和實體矩陣輸入訓練完成后的實體信息歸一化模型,得到維度為[1,N]的向量,確定實體信息歸一化模型輸出的N維向量中值最大的元素所在的維度,得到歸一化后的對應類別。
具體地,所述實體識別方法包括但不限于:HMM模型,CRF模型以及RNN模型方法。
具體地,所述實體信息歸一化模型包括:句子編碼模塊,實體癥狀編碼模塊,句子批量標準化模塊,實體癥狀標準化模塊,句子自注意力模塊,第一拼接模塊,第一自注意力模塊,第二拼接模塊以及全連接層。
具體地,所述利用訓練數據中的句子矩陣X1和實體矩陣X2進行實體信息歸一化模型的訓練,得到訓練完成后的實體信息歸一化模型,具體包括:
輸入句子矩陣X1,按0.5比例進行隨機抽取,輸入句子批量標準化模塊得到句子標準化矩陣X1a,維度為[40,80],將句子標準化矩陣X1a輸入句子自注意力模塊,得到句子向量X1b,維度為[1,80];
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210736314.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





