[發(fā)明專利]一種基于詞向量的醫(yī)療分診方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910366790.8 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110246572B | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設計)人: | 江瑞;黃浩 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G16H40/20 | 分類號: | G16H40/20;G16H50/20 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 管士濤;曹素云 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 醫(yī)療 方法 系統(tǒng) | ||
1.一種基于詞向量的醫(yī)療分診方法,其特征在于,所述方法包括如下步驟:
步驟一、獲取用戶的癥狀數據信息;
步驟二、判斷獲取的用戶癥狀數據信息是用戶輸入還是問診數據,若是用戶輸入數據則執(zhí)行步驟三,若是問診數據則執(zhí)行步驟四;
步驟三、基于所述癥狀數據信息查找與其對應的詞向量,與門診向量求余弦相似度,得到分診概率,作為分診結果;
步驟四、通過分診概率求熵,并代入預先設置的癥狀向量列表,將概率分布的熵最小化,從而找到需要問診的癥狀,獲得問診結果,
其中,所述基于所述癥狀數據信息查找與其對應的詞向量,與門診向量求余弦相似度,得到分診概率,具體為:
(1)將用戶的病癥數據生成查詢向量Qv;
(2)計算查詢向量與現有的門診向量之間的余弦相似度,就可以得到它屬于每個門診的概率,表示如下:
其中,所述通過分診概率求熵,并代入預先設置的癥狀向量列表,將概率分布的熵最小化,從而找到需要問診的癥狀,具體為:
構建新的查詢癥狀它是輸入的查詢癥狀向量加上一個已有癥狀中的任意一個癥狀向量:
根據信息熵公式:
得到門診概率:
通過遍歷式(9)中i的取值,使其從1變到180,代入式(10)和式(11)中,得到180個熵值,其中使熵最小的那個就是要拿來問診的癥狀。
2.根據權利要求1所述的基于詞向量的醫(yī)療分診方法,其特征在于,所述獲取用戶的癥狀數據信息之前,還包括構建詞向量,其中所述構建詞向量包括病癥向量抽取、疾病向量與門診向量的構建。
3.根據權利要求2所述的基于詞向量的醫(yī)療分診方法,其特征在于,所述病癥向量的抽取,具體為:
(1)使用Jieba分詞工具對語料進行分詞,得到T個單詞,其集合為W;同時,導入180個癥狀,其集合為S,作為自定義詞典,進行強制分詞,即
S∈W (1)
(2)使用Word2Vec工具,對分詞后的語料進行訓練得到詞向量模型M,得到每一個單詞Wi的向量表示Vi,其中向量均為180維;
(3)取其中的180個癥狀單詞,得到癥狀對應的180個向量,用集合Sv表示,則表示第i個癥狀的向量。
4.根據權利要求3所述的基于詞向量的醫(yī)療分診方法,其特征在于,使用《疾病大全》作為訓練詞向量的語料。
5.根據權利要求3所述的基于詞向量的醫(yī)療分診方法,其特征在于,所述構建疾病向量與門診向量,具體為:
(1)對180個癥狀向量進行正交規(guī)范化,使得每個癥狀向量的均值為0、標準差為1;
(2)對于每一個癥狀向量定義其第j個分量為代表其在第j個維度的值,得到每一個癥狀向量的平均值Mi:
其方差Vi:
則標準化后的癥狀向量為:
更新癥狀向量使
癥狀向量組的正交化是通過施密特正交化的方法實現的,
……
更新癥狀向量,使
對疾病所包含的癥狀向量Sv做加權平均得到疾病向量Dv,第l個疾病中,包含n個癥狀
(3)根據每個門診C對疾病D的包含關系,假設第t個門診中,包含m個疾病,通過對門診所包含的疾病向量Dv做加權平均得到門診向量Cv,
6.根據權利要求1所述的基于詞向量的醫(yī)療分診方法,其特征在于,如果用戶認定癥狀存在,則將此癥狀與之前的查詢癥狀加權,重新進行步驟三;如果患者認定此癥狀不存在,則將含有此癥狀的門診刪去。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910366790.8/1.html,轉載請聲明來源鉆瓜專利網。





