[發(fā)明專利]一種基于BERT和融入功效信息的中藥處方生成方法有效
| 申請?zhí)枺?/td> | 202010054040.X | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111312356B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設計)人: | 呂建成;李嬋娟;桑永勝;蒲翊凡;孫亞楠 | 申請(專利權(quán))人: | 四川大學 |
| 主分類號: | G16H20/10 | 分類號: | G16H20/10;G16H50/50 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 代維凡 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert 融入 功效 信息 中藥 處方 生成 方法 | ||
1.一種基于BERT和融入功效信息的中藥處方生成方法,其特征在于,包括以下步驟:
S1、獲取若干一一對應的癥狀描述和處方數(shù)據(jù)對,以及中藥功效信息,并對所述數(shù)據(jù)對進行預處理,將預處理后的結(jié)果作為訓練集;
S2、將所述中藥功效信息按中藥字典順序進行排序,并通過預訓練好的BERT模型得到固定長度的每個中藥的功效信息編碼;
S3、將預訓練好的BERT模型作為編碼器,將GRU作為解碼器,利用所述中藥功效信息的編碼初始化GRU解碼器的輸出層參數(shù),并利用所述訓練集微調(diào)BERT編碼器,同時利用所述訓練集訓練GRU解碼器,構(gòu)建中藥處方生成模型;
S4、將待預測的癥狀句子作為測試樣本輸入至訓練好的中藥處方生成模型,并利用中藥處方生成模型生成中藥處方;
所述步驟S4包括以下步驟:
S401、初始化BERT編碼器;
S402、將待預測的癥狀句子輸入至BERT編碼器,利用12層transformer編碼單元對所述癥狀句子進行編碼;
S403、取BERT編碼器的最后一層輸出的隱藏向量表示作為BERT編碼器輸出;
S404、將所述隱藏向量表示輸入至GRU解碼器中進行解碼操作,生成中藥處方;
所述步驟S404包括以下步驟:
S4041、根據(jù)所述隱藏向量表示利用注意力機制得到動態(tài)的癥狀信息編碼的上下文向量ct;
S4042、根據(jù)所述癥狀上下文向量ct利用GRU解碼器進行解碼,并根據(jù)解碼出來的序列生成中藥處方;
所述步驟S4041中上下文向量ct的表達式如下:
其中,T表示癥狀序列長度,hj表示癥狀編碼器各個時間步隱藏向量,atj表示注意力權(quán)重,a(st-1,hj)表示對齊模型,st-1表示解碼器上一時間步隱藏狀態(tài)向量,Wa、Ua均表示要學習的參數(shù)矩陣;
所述步驟S4042中中藥處方生成的過程如下:
st=f(st-1,ct,Eyt-1)
p(yt|y1,...,t,x)=g(st·H)
其中,st表示時間步為t時解碼器的隱藏狀態(tài)向量,f(·)表示GRU,ct表示癥狀信息編碼的上下文向量,E表示中藥詞匯數(shù)量,yt-1表示上一時間步預測的中藥的one-hot編碼,p(yt|y1,...,t,x)表示在給定癥狀句子和前t個時間步的中藥輸出時,該時間步輸出中藥的概率分布,g(·)表示softmax操作,H表示中藥的功效信息編碼的Herb Embeddings矩陣。
2.根據(jù)權(quán)利要求1所述的基于BERT和融入功效信息的中藥處方生成方法,其特征在于,所述步驟S1包括以下步驟:
S101、爬取網(wǎng)上公開的資料,得到方劑數(shù)據(jù)和中藥數(shù)據(jù),其中,所述中藥數(shù)據(jù)包括中藥別名以及中藥功效信息;
S102、利用所述中藥數(shù)據(jù)對方劑數(shù)據(jù)進行清洗,并利用自然語言處理方法去除制備方法和劑量,保留處方癥狀描述和中藥組成,并對中藥進行別名替換,構(gòu)建初始化癥狀-處方對數(shù)據(jù)集;
S103、對所述癥狀-處方對數(shù)據(jù)集的句子語料進行分詞處理;
S104、利用預訓練好的BERT模型對癥狀字符進行詞典數(shù)值化處理,并按照中藥名出現(xiàn)的前后順序統(tǒng)計不重復的藥名,將統(tǒng)計的中藥名組成中藥詞典,并根據(jù)中藥詞典對處方數(shù)據(jù)進行數(shù)值化處理,得到數(shù)值化編碼后的癥狀-處方對訓練集。
3.根據(jù)權(quán)利要求1所述的基于BERT和融入功效信息的中藥處方生成方法,其特征在于,所述步驟S103中的分詞處理具體為:
采用字符級劃分癥狀句子,以及按中藥名切分處方句子。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學,未經(jīng)四川大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010054040.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓練方法、裝置和計算機設備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機設備
- 基于BERT-BTM網(wǎng)絡的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機設備
- 基于卷積神經(jīng)網(wǎng)絡的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





