[發(fā)明專利]一種基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110596995.2 | 申請(qǐng)日: | 2021-05-31 |
| 公開(公告)號(hào): | CN113033210A | 公開(公告)日: | 2021-06-25 |
| 發(fā)明(設(shè)計(jì))人: | 湯步洲;陳帥;熊英;陳清財(cái) | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/242;G06F40/216;G06K9/62;G16H70/40 |
| 代理公司: | 深圳市君勝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268 | 代理人: | 朱陽(yáng)波 |
| 地址: | 518000 廣東省深圳市南*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 社交 媒體 數(shù)據(jù) 分析 藥物 潛在 副作用 挖掘 方法 | ||
1.一種基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述方法包括:
獲取社交媒體的藥物評(píng)論數(shù)據(jù)并對(duì)所述藥物評(píng)論數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到藥物評(píng)論預(yù)處理數(shù)據(jù),再基于經(jīng)過(guò)訓(xùn)練的BERT語(yǔ)言模型識(shí)別所述藥物評(píng)論預(yù)處理數(shù)據(jù)的藥物副作用實(shí)體;其中,所述藥物副作用實(shí)體用于表征藥物副作用的實(shí)際描述;
基于排序的實(shí)體標(biāo)準(zhǔn)化方式將所述藥物副作用實(shí)體映射到標(biāo)準(zhǔn)副作用概念詞典,得到初始藥物副作用概念;其中,所述標(biāo)準(zhǔn)副作用概念詞典為所述藥物副作用實(shí)體與所述初始藥物副作用概念的映射關(guān)系;所述初始藥物副作用概念用于表征藥物副作用的名詞;
根據(jù)所述初始藥物副作用概念和官方報(bào)告藥物副作用概念,得到潛在藥物副作用概念;其中,所述官方報(bào)告藥物副作用概念用于表征權(quán)威機(jī)構(gòu)公開過(guò)的藥物副作用的名詞。
2.根據(jù)權(quán)利要求1所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述獲取社交媒體的藥物評(píng)論數(shù)據(jù)并對(duì)所述藥物評(píng)論數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到藥物評(píng)論預(yù)處理數(shù)據(jù)包括:
獲取社交媒體的藥物評(píng)論數(shù)據(jù);
對(duì)所述藥物評(píng)論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、句子邊界檢測(cè)和分詞的數(shù)據(jù)預(yù)處理,得到藥物評(píng)論預(yù)處理數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述基于經(jīng)過(guò)訓(xùn)練的BERT語(yǔ)言模型識(shí)別所述藥物評(píng)論預(yù)處理數(shù)據(jù)的藥物副作用實(shí)體包括:
將所述藥物評(píng)論預(yù)處理數(shù)據(jù)輸入到經(jīng)過(guò)訓(xùn)練的BERT語(yǔ)言模型,得到藥物副作用實(shí)體。
4.根據(jù)權(quán)利要求3所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述BERT語(yǔ)言模型的訓(xùn)練過(guò)程具體為:
根據(jù)藥物副作用實(shí)體構(gòu)建機(jī)器閱讀理解問(wèn)題;
獲取訓(xùn)練實(shí)例三元組序列,其中,所述實(shí)例三元組序列包括question序列,answer序列,context序列;
將question序列和context序列進(jìn)行拼接并輸入至預(yù)設(shè)的語(yǔ)義理解模型,使用所述預(yù)設(shè)的語(yǔ)義理解模型的self-attention機(jī)制對(duì)question序列和context序列進(jìn)行交互,輸出所述藥物副作用實(shí)體的開始位置概率和結(jié)束位置概率;
根據(jù)所述開始位置概率和所述結(jié)束位置概率,確定所述藥物副作用實(shí)體的交叉熵?fù)p失函數(shù);
根據(jù)所述交叉熵?fù)p失函數(shù)對(duì)所述預(yù)設(shè)的語(yǔ)義理解模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的BERT語(yǔ)言模型。
5.根據(jù)權(quán)利要求4所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述self-attention機(jī)制的作用具體為:
對(duì)句子中的當(dāng)前詞和所述句子中除去所述當(dāng)前詞后的剩余詞之間的相關(guān)性進(jìn)行建模。
6.根據(jù)權(quán)利要求4所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述根據(jù)所述開始位置概率和所述結(jié)束位置概率,確定所述藥物副作用實(shí)體的交叉熵?fù)p失函數(shù)包括:
根據(jù)所述開始位置概率,計(jì)算所述藥物副作用實(shí)體的開始位置損失函數(shù);
根據(jù)所述結(jié)束位置概率,計(jì)算所述藥物副作用實(shí)體的結(jié)束位置損失函數(shù);
將所述開始位置損失函數(shù)加上所述結(jié)束位置損失函數(shù),得到所述藥物副作用實(shí)體的交叉熵?fù)p失函數(shù)。
7.根據(jù)權(quán)利要求1所述的基于社交媒體數(shù)據(jù)分析的藥物潛在副作用挖掘方法,其特征在于,所述基于排序的實(shí)體標(biāo)準(zhǔn)化方式將所述藥物副作用實(shí)體映射到標(biāo)準(zhǔn)副作用概念詞典,得到初始藥物副作用概念包括:
在候選生成階段,根據(jù)統(tǒng)計(jì)的文本相似度算法和標(biāo)準(zhǔn)副作用概念詞典,得到所述藥物副作用實(shí)體對(duì)應(yīng)的若干候選標(biāo)準(zhǔn)副作用概念;
在候選排序階段,根據(jù)BERT的文本匹配算法得到藥物副作用實(shí)體和候選標(biāo)準(zhǔn)副作用概念的相似度分值;
將相似度分值最高的候選標(biāo)準(zhǔn)副作用概念作為初始藥物副作用概念。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院),未經(jīng)哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110596995.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





