[發明專利]一種基于BERT和融入功效信息的中藥處方生成方法有效
| 申請號: | 202010054040.X | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111312356B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 呂建成;李嬋娟;桑永勝;蒲翊凡;孫亞楠 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G16H20/10 | 分類號: | G16H20/10;G16H50/50 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 代維凡 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 融入 功效 信息 中藥 處方 生成 方法 | ||
1.一種基于BERT和融入功效信息的中藥處方生成方法,其特征在于,包括以下步驟:
S1、獲取若干一一對應的癥狀描述和處方數據對,以及中藥功效信息,并對所述數據對進行預處理,將預處理后的結果作為訓練集;
S2、將所述中藥功效信息按中藥字典順序進行排序,并通過預訓練好的BERT模型得到固定長度的每個中藥的功效信息編碼;
S3、將預訓練好的BERT模型作為編碼器,將GRU作為解碼器,利用所述中藥功效信息的編碼初始化GRU解碼器的輸出層參數,并利用所述訓練集微調BERT編碼器,同時利用所述訓練集訓練GRU解碼器,構建中藥處方生成模型;
S4、將待預測的癥狀句子作為測試樣本輸入至訓練好的中藥處方生成模型,并利用中藥處方生成模型生成中藥處方;
所述步驟S4包括以下步驟:
S401、初始化BERT編碼器;
S402、將待預測的癥狀句子輸入至BERT編碼器,利用12層transformer編碼單元對所述癥狀句子進行編碼;
S403、取BERT編碼器的最后一層輸出的隱藏向量表示作為BERT編碼器輸出;
S404、將所述隱藏向量表示輸入至GRU解碼器中進行解碼操作,生成中藥處方;
所述步驟S404包括以下步驟:
S4041、根據所述隱藏向量表示利用注意力機制得到動態的癥狀信息編碼的上下文向量ct;
S4042、根據所述癥狀上下文向量ct利用GRU解碼器進行解碼,并根據解碼出來的序列生成中藥處方;
所述步驟S4041中上下文向量ct的表達式如下:
其中,T表示癥狀序列長度,hj表示癥狀編碼器各個時間步隱藏向量,atj表示注意力權重,a(st-1,hj)表示對齊模型,st-1表示解碼器上一時間步隱藏狀態向量,Wa、Ua均表示要學習的參數矩陣;
所述步驟S4042中中藥處方生成的過程如下:
st=f(st-1,ct,Eyt-1)
p(yt|y1,...,t,x)=g(st·H)
其中,st表示時間步為t時解碼器的隱藏狀態向量,f(·)表示GRU,ct表示癥狀信息編碼的上下文向量,E表示中藥詞匯數量,yt-1表示上一時間步預測的中藥的one-hot編碼,p(yt|y1,...,t,x)表示在給定癥狀句子和前t個時間步的中藥輸出時,該時間步輸出中藥的概率分布,g(·)表示softmax操作,H表示中藥的功效信息編碼的Herb Embeddings矩陣。
2.根據權利要求1所述的基于BERT和融入功效信息的中藥處方生成方法,其特征在于,所述步驟S1包括以下步驟:
S101、爬取網上公開的資料,得到方劑數據和中藥數據,其中,所述中藥數據包括中藥別名以及中藥功效信息;
S102、利用所述中藥數據對方劑數據進行清洗,并利用自然語言處理方法去除制備方法和劑量,保留處方癥狀描述和中藥組成,并對中藥進行別名替換,構建初始化癥狀-處方對數據集;
S103、對所述癥狀-處方對數據集的句子語料進行分詞處理;
S104、利用預訓練好的BERT模型對癥狀字符進行詞典數值化處理,并按照中藥名出現的前后順序統計不重復的藥名,將統計的中藥名組成中藥詞典,并根據中藥詞典對處方數據進行數值化處理,得到數值化編碼后的癥狀-處方對訓練集。
3.根據權利要求1所述的基于BERT和融入功效信息的中藥處方生成方法,其特征在于,所述步驟S103中的分詞處理具體為:
采用字符級劃分癥狀句子,以及按中藥名切分處方句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010054040.X/1.html,轉載請聲明來源鉆瓜專利網。





